مقدمه
در سالهای اخیر، شاهد پیشرفتهای چشمگیری در حوزه مدلهای زبان بزرگ (LLM) بودهایم. این مدلها، که قادر به درک و تولید متن با کیفیت انسانی هستند، انقلابی در بسیاری از کاربردهای مرتبط با پردازش زبان طبیعی (NLP) به وجود آوردهاند. در میان انواع مختلف LLMها، مدلهای متن باز به دلیل شفافیت، قابلیت سفارشیسازی، و امکان دسترسی گستردهتر، جایگاه ویژهای پیدا کردهاند. این مقاله به بررسی و مقایسه مدلهای اساسی LLM متن باز ارائه شده در سالهای اخیر میپردازد و تلاش میکند تا دید جامعی از ویژگیها، نقاط قوت و ضعف این مدلها ارائه دهد.
مدلهای زبان بزرگ متن باز چیست؟
به طور کلی، مدل زبان بزرگ (LLM) به مدلهای یادگیری ماشینی عمیق اطلاق میشود که بر روی حجم عظیمی از دادههای متنی آموزش داده شدهاند و قادر به انجام طیف گستردهای از وظایف NLP مانند تولید متن، ترجمه زبان، خلاصهسازی متن، پاسخ به سوالات و غیره هستند.
“متن باز” در زمینه نرمافزار و مدلهای هوش مصنوعی به این معنی است که کد منبع، وزنهای مدل، و دادههای آموزشی (یا حداقل اطلاعات کافی در مورد آنها) به صورت عمومی در دسترس قرار میگیرند. این امر به محققان، توسعهدهندگان و کاربران امکان میدهد تا مدل را بررسی، اصلاح، سفارشیسازی و به اشتراک بگذارند.
مزایای مدلهای LLM متن باز:
- شفافیت و قابلیت بررسی: دسترسی به کد منبع و وزنهای مدل، امکان بررسی دقیق عملکرد مدل، شناسایی نقاط ضعف و سوگیریها را فراهم میکند.
- قابلیت سفارشیسازی و انطباقپذیری: کاربران میتوانند مدلهای متن باز را برای کاربردهای خاص خود سفارشیسازی و با دادههای اختصاصی خود آموزش دهند.
- هزینه کمتر و دسترسی گستردهتر: استفاده از مدلهای متن باز معمولاً کمهزینهتر از مدلهای تجاری است و امکان دسترسی به فناوری LLM را برای طیف وسیعتری از افراد و سازمانها فراهم میکند.
- توسعه و نوآوری جمعی: جامعه متن باز میتواند به طور جمعی به بهبود مدلها، رفع اشکالات و توسعه کاربردهای جدید کمک کند.
- استقلال از ارائهدهندگان تجاری: استفاده از مدلهای متن باز، وابستگی به ارائهدهندگان تجاری بزرگ را کاهش میدهد و کنترل بیشتری بر فناوری برای کاربران فراهم میآورد.
مدلهای اساسی متن باز منتخب برای بررسی:
در این مقاله، به بررسی تعدادی از مدلهای اساسی و برجسته LLM متن باز ارائه شده در سالهای اخیر میپردازیم. تمرکز ما بر مدلهایی است که به عنوان پایهای برای توسعههای بعدی عمل کردهاند و تاثیر قابل توجهی در جامعه متن باز LLM داشتهاند. مدلهای منتخب شامل موارد زیر هستند:
- مدل BLOOM
- خانواده مدلهای LLaMA (و مدلهای مشتق شده: Alpaca, Vicuna, Koala و غیره)
- مدل Falcon
- مدل MPT (Mosaic Pretrained Transformer)
- مدل OPT (Open Pre-trained Transformer)
- مدل StableLM
بررسی مدلها:
1. مدل BLOOM:
- توسعهدهنده: BigScience Workshop، یک کارگاه تحقیقاتی بینالمللی بزرگ.
- سال انتشار: ۲۰۲۲
- تعداد پارامترها: ۱۷۶ میلیارد
- زبانهای آموزش: ۴۶ زبان طبیعی و ۱۳ زبان برنامهنویسی. با تمرکز ویژه بر زبانهای کممنبع.
- معماری: مبتنی بر معماری ترانسفورمر، مشابه GPT-3.
- ویژگیهای کلیدی:
- چندزبانه بودن: BLOOM به طور ویژه برای پشتیبانی از تعداد زیادی زبان طراحی شده است و در نوع خود پیشگام بود.
- مقیاس بزرگ: با ۱۷۶ میلیارد پارامتر، یکی از بزرگترین مدلهای زبان متن باز در زمان انتشار خود بود.
- تلاش جمعی: BLOOM محصول یک تلاش جمعی بزرگ از صدها محقق از سراسر جهان است.
- مجوز: مجوز تحقیقاتی مسئول BigScience.
- نقاط قوت:
- پیشگام بودن در مدلهای زبان بزرگ متن باز چندزبانه.
- نشان دادن امکانپذیری آموزش مدلهای بسیار بزرگ به صورت متن باز.
- تمرکز بر زبانهای کممنبع.
- نقاط ضعف:
- عملکرد در برخی وظایف ممکن است به اندازه مدلهای تجاری مانند GPT-3 نباشد.
- به دلیل اندازه بزرگ، نیازمند منابع محاسباتی قابل توجهی برای اجرا و آموزش مجدد است.
2. خانواده مدلهای LLaMA (و مدلهای مشتق شده: Alpaca, Vicuna, Koala و غیره):
- توسعهدهنده: Meta AI
- سال انتشار: ۲۰۲۳ (LLaMA), مدلهای مشتق شده در ادامه ۲۰۲۳
- تعداد پارامترها: LLaMA در اندازههای مختلف (7B, 13B, 33B, 65B) منتشر شد. مدلهای مشتق شده معمولاً بر اساس اندازههای کوچکتر LLaMA هستند.
- زبانهای آموزش: عمدتاً انگلیسی، با دادههای چندزبانه محدود.
- معماری: معماری ترانسفورمر بهینه شده.
- ویژگیهای کلیدی:
- اندازههای مختلف: ارائه مدل در اندازههای مختلف، امکان انتخاب مدل مناسب بر اساس منابع محاسباتی را فراهم میکند.
- عملکرد قوی با اندازه کوچکتر: مدلهای LLaMA نشان دادند که میتوان با تعداد پارامترهای کمتر به عملکرد قابل قبولی دست یافت.
- الهامبخش برای جامعه متن باز: انتشار LLaMA باعث ایجاد موجی از مدلهای متن باز مشتق شده و نوآوریهای مرتبط شد.
- مجوز: مجوز غیرتجاری. برای استفاده تجاری نیازمند مجوز از Meta است. (این مجوز محدودیتهایی ایجاد کرد و منجر به توسعه مدلهای مشتق شده با مجوزهای بازتر شد.)
- مدلهای مشتق شده مهم:
- Alpaca: دانشگاه استنفورد. آموزش LLaMA 7B با استفاده از دستورالعملهای تولید شده توسط GPT-3. برای آموزش مدلهای دستورالعملی با کیفیت بالا با هزینه کم.
- Vicuna: دانشگاه کارنگی ملون و LMSYS Org. آموزش LLaMA با دادههای مکالمهای جمعآوری شده. برای بهبود عملکرد در وظایف مکالمهای.
- Koala: دانشگاه برکلی. ترکیبی از دادههای آموزشی متنوع و تمرکز بر وظایف مکالمهای و دستورالعملی.
- نقاط قوت:
- عملکرد بالا نسبت به اندازه مدل.
- تنوع اندازهها.
- الهامبخش برای توسعه مدلهای متن باز.
- مدلهای مشتق شده با بهبود عملکرد در وظایف خاص.
- نقاط ضعف:
- مجوز محدود کننده LLaMA (مجوز غیرتجاری اولیه).
- تمرکز بیشتر بر زبان انگلیسی.
3. مدل Falcon:
- توسعهدهنده: Technology Innovation Institute (TII) در ابوظبی
- سال انتشار: ۲۰۲۳
- تعداد پارامترها: در اندازههای مختلف (7B, 40B, 180B – Falcon-180B بعداً منتشر شد). در این بررسی تمرکز بر Falcon 40B و 7B است.
- زبانهای آموزش: عمدتاً انگلیسی، با دادههای چندزبانه محدود.
- معماری: معماری ترانسفورمر با بهینهسازیهای فنی.
- ویژگیهای کلیدی:
- مجوز آپاچی 2.0: مجوز بسیار باز و تجاری دوستانه. امکان استفاده تجاری بدون محدودیت.
- عملکرد رقابتی: Falcon 40B نشان داد عملکردی رقابتی با مدلهای بزرگتر و حتی تجاری دارد.
- دادههای آموزشی با کیفیت بالا: تمرکز بر کیفیت دادههای آموزشی.
- مجوز: مجوز Apache 2.0.
- نقاط قوت:
- مجوز بسیار باز و تجاری دوستانه.
- عملکرد رقابتی با مدلهای بزرگتر.
- تمرکز بر کیفیت دادههای آموزشی.
- در دسترس بودن مدلهای کوچکتر (7B) و بزرگتر (40B و 180B).
- نقاط ضعف:
- دادههای آموزشی عمدتاً انگلیسی.
- سابقه کوتاهتر نسبت به برخی مدلهای دیگر (مانند BLOOM).
4. مدل MPT (Mosaic Pretrained Transformer):
- توسعهدهنده: MosaicML (شرکتی فعال در حوزه زیرساختهای هوش مصنوعی)
- سال انتشار: ۲۰۲۳
- تعداد پارامترها: در اندازههای مختلف (7B, 30B, مدلهای دستورالعملی MPT-Instruct و غیره)
- زبانهای آموزش: عمدتاً انگلیسی.
- معماری: معماری ترانسفورمر با بهینهسازیهای فنی.
- ویژگیهای کلیدی:
- مجوز Apache 2.0: مجوز بسیار باز و تجاری دوستانه.
- تمرکز بر آموزش کارآمد: MosaicML بر روی بهینهسازی فرآیند آموزش مدلهای بزرگ تمرکز دارد.
- مدلهای دستورالعملی (MPT-Instruct): ارائه مدلهای دستورالعملی آماده برای استفاده در کاربردهای پاسخگویی به سوالات و تولید متن مبتنی بر دستورالعمل.
- طول زمینه (Context Length) قابل توجه: مدلهای MPT با طول زمینه 8K توکن و حتی بیشتر ارائه شدهاند.
- مجوز: مجوز Apache 2.0.
- نقاط قوت:
- مجوز بسیار باز و تجاری دوستانه.
- مدلهای دستورالعملی با کیفیت بالا (MPT-Instruct).
- طول زمینه قابل توجه.
- تمرکز بر آموزش کارآمد و بهینهسازی.
- نقاط ضعف:
- دادههای آموزشی عمدتاً انگلیسی.
- شرکت MosaicML بعداً توسط Databricks خریداری شد، وضعیت توسعه متن باز در بلندمدت ممکن است تغییر کند.
5. مدل OPT (Open Pre-trained Transformer):
- توسعهدهنده: Meta AI
- سال انتشار: ۲۰۲۲
- تعداد پارامترها: در اندازههای مختلف (125M, 350M, 1.3B, 2.7B, 6.7B, 13B, 30B, 66B, 175B)
- زبانهای آموزش: انگلیسی.
- معماری: معماری ترانسفورمر، مشابه GPT-3.
- ویژگیهای کلیدی:
- تمرکز بر باز بودن: OPT به عنوان یک پروژه با هدف باز کردن فرآیند آموزش و انتشار مدلهای زبان بزرگ معرفی شد.
- انتشار وزنها و کد آموزش: Meta AI وزنهای مدل و کد آموزش را به صورت عمومی منتشر کرد.
- اندازههای مختلف: ارائه مدل در اندازههای مختلف.
- مجوز: مجوز غیرتجاری (مجوز OPT-175B محدودتر بود).
- نقاط قوت:
- پیشگام بودن در انتشار وزنهای مدلهای بزرگ به صورت متن باز (اگرچه با مجوز غیرتجاری).
- ارائه طیف وسیعی از اندازههای مدل.
- کمک به تحقیقات و توسعه در حوزه LLM متن باز.
- نقاط ضعف:
- مجوز غیرتجاری (و محدودیت بیشتر برای OPT-175B).
- دادههای آموزشی عمدتاً انگلیسی.
- عملکرد ممکن است به اندازه مدلهای تجاری معاصر نباشد.
6. مدل StableLM:
- توسعهدهنده: Stability AI (شرکت توسعهدهنده Stable Diffusion)
- سال انتشار: ۲۰۲۳
- تعداد پارامترها: در اندازههای مختلف (3B, 7B, Alpha 7B) و مدلهای بزرگتر در دست توسعه.
- زبانهای آموزش: عمدتاً انگلیسی، با دادههای چندزبانه محدود.
- معماری: معماری ترانسفورمر.
- ویژگیهای کلیدی:
- توسعهدهنده Stable Diffusion: پشتیبانی از طرف شرکت شناخته شده در حوزه متن باز هوش مصنوعی (Stable Diffusion).
- مجوز MIT: مجوز بسیار باز و تجاری دوستانه.
- تمرکز بر مدلهای با کیفیت بالا و در دسترس: هدف ارائه مدلهای LLM متن باز با عملکرد خوب و قابل دسترس برای عموم.
- مدلهای مختلف (StableLM, StableLM-Alpha): ارائه نسخههای مختلف با تمرکز بر ویژگیهای خاص.
- مجوز: مجوز MIT.
- نقاط قوت:
- مجوز بسیار باز و تجاری دوستانه.
- پشتیبانی از طرف شرکت معتبر در حوزه هوش مصنوعی متن باز.
- تمرکز بر کیفیت و دسترسیپذیری.
- ارائه مدلهای مختلف با ویژگیهای متفاوت.
- نقاط ضعف:
- مدلهای نسبتاً جدیدتر، ممکن است به اندازه برخی مدلهای دیگر تست نشده باشند.
- دادههای آموزشی عمدتاً انگلیسی.
مقایسه مدلها بر اساس معیارها:
برای مقایسه بهتر مدلهای بررسی شده، جدول زیر بر اساس معیارهای کلیدی ارائه میشود:
| معیار | BLOOM | LLaMA Family | Falcon | MPT | OPT | StableLM |
| توسعهدهنده | BigScience Workshop | Meta AI | TII | MosaicML | Meta AI | Stability AI |
| سال انتشار | 2022 | 2023 | 2023 | 2023 | 2022 | 2023 |
| تعداد پارامترها | 176B | 7B-65B | 7B-180B | 7B-30B | 125M-175B | 3B-7B+ |
| زبانهای آموزش | چندزبانه (46 زبان) | عمدتاً انگلیسی | عمدتاً انگلیسی | عمدتاً انگلیسی | انگلیسی | عمدتاً انگلیسی |
| مجوز | مجوز تحقیقاتی BigScience | مجوز غیرتجاری Meta Apache 2.0 | MIT | OPT | مجوز غیرتجاری | Apache 2.0 |
| مجوز تجاری | محدود | محدود | آزادانه | آزادانه | محدود | آزادانه |
| نقاط قوت | چندزبانه، مقیاس بزرگ، جمعی | عملکرد بالا، اندازههای متنوع، الهامبخش | مجوز باز، عملکرد رقابتی | مجوز باز، مدل دستورالعملی، طول زمینه بالا | پیشگام در انتشار وزنها، اندازههای متنوع | مجوز باز، پشتیبانی Stability AI, کیفیت و دسترسیپذیری |
| نقاط ضعف | عملکرد نسبی، منابع بالا | مجوز محدود، تمرکز انگلیسی | دادههای انگلیسی | دادههای انگلیسی | مجوز محدود، عملکرد نسبی | مدل جدیدتر، دادههای انگلیسی |
مزایا و معایب مدلهای LLM متن باز به طور کلی:
مزایا:
- سفارشیسازی: امکان تطبیق مدلها با نیازهای خاص.
- هزینه: دسترسی کمهزینهتر به فناوری LLM.
- شفافیت: قابلیت بررسی و درک عملکرد مدل.
- جامعه: حمایت و توسعه جمعی.
- کنترل: استقلال از ارائهدهندگان تجاری.
معایب:
- پیچیدگی: نیازمندی به تخصص فنی برای استفاده و آموزش مجدد.
- منابع محاسباتی: برای مدلهای بزرگ، نیاز به منابع محاسباتی قابل توجه.
- مسئولیتپذیری: مسئولیت استفاده اخلاقی و ایمن از مدلها بر عهده کاربر است.
- عملکرد: در برخی موارد، ممکن است عملکرد مدلهای متن باز به اندازه مدلهای تجاری بهینه نباشد (هرچند این شکاف به سرعت در حال کاهش است).
روندهای آینده و نتیجهگیری:
آینده مدلهای LLM متن باز بسیار روشن به نظر میرسد. با توجه به سرعت بالای پیشرفتها، انتظار میرود که مدلهای متن باز در سالهای آینده به طور فزایندهای قدرتمندتر، کارآمدتر و دسترسپذیرتر شوند. مجوزهای بازتر مانند Apache 2.0 و MIT، به گسترش کاربردهای تجاری مدلهای متن باز کمک خواهند کرد. همچنین، تمرکز بر زبانهای غیر انگلیسی و دادههای چندزبانه، تنوع و شمولیت این مدلها را افزایش خواهد داد.
مدلهای LLM متن باز، ابزارهای قدرتمندی هستند که امکان دسترسی به فناوری پیشرفته NLP را برای طیف وسیعی از افراد و سازمانها فراهم میکنند. انتخاب مدل مناسب بستگی به نیازهای خاص کاربر، منابع محاسباتی موجود و اولویتهای مربوط به مجوز و سفارشیسازی دارد. با ادامه توسعه و تکامل این حوزه، انتظار میرود که مدلهای متن باز نقش کلیدیتری در شکلدهی آینده هوش مصنوعی ایفا کنند.
توجه: این مقاله مروری کلی بر مدلهای اساسی LLM متن باز ارائه شده در سالهای اخیر است. جزئیات فنی و عملکرد دقیق هر مدل ممکن است بسته به نسخه مدل، وظیفه مورد نظر و روش ارزیابی متفاوت باشد. برای اطلاعات دقیقتر، توصیه میشود به منابع اصلی و مستندات هر مدل مراجعه شود.
