بررسی و مقایسه مدل‌های اساسی LLM متن باز ارائه شده در سال‌های اخیر

مقدمه

در سال‌های اخیر، شاهد پیشرفت‌های چشمگیری در حوزه مدل‌های زبان بزرگ (LLM) بوده‌ایم. این مدل‌ها، که قادر به درک و تولید متن با کیفیت انسانی هستند، انقلابی در بسیاری از کاربردهای مرتبط با پردازش زبان طبیعی (NLP) به وجود آورده‌اند. در میان انواع مختلف LLMها، مدل‌های متن باز به دلیل شفافیت، قابلیت سفارشی‌سازی، و امکان دسترسی گسترده‌تر، جایگاه ویژه‌ای پیدا کرده‌اند. این مقاله به بررسی و مقایسه مدل‌های اساسی LLM متن باز ارائه شده در سال‌های اخیر می‌پردازد و تلاش می‌کند تا دید جامعی از ویژگی‌ها، نقاط قوت و ضعف این مدل‌ها ارائه دهد.

مدل‌های زبان بزرگ متن باز چیست؟

به طور کلی، مدل زبان بزرگ (LLM) به مدل‌های یادگیری ماشینی عمیق اطلاق می‌شود که بر روی حجم عظیمی از داده‌های متنی آموزش داده شده‌اند و قادر به انجام طیف گسترده‌ای از وظایف NLP مانند تولید متن، ترجمه زبان، خلاصه‌سازی متن، پاسخ به سوالات و غیره هستند.

“متن باز” در زمینه نرم‌افزار و مدل‌های هوش مصنوعی به این معنی است که کد منبع، وزن‌های مدل، و داده‌های آموزشی (یا حداقل اطلاعات کافی در مورد آنها) به صورت عمومی در دسترس قرار می‌گیرند. این امر به محققان، توسعه‌دهندگان و کاربران امکان می‌دهد تا مدل را بررسی، اصلاح، سفارشی‌سازی و به اشتراک بگذارند.

مزایای مدل‌های LLM متن باز:

شفافیت و قابلیت بررسی: دسترسی به کد منبع و وزن‌های مدل، امکان بررسی دقیق عملکرد مدل، شناسایی نقاط ضعف و سوگیری‌ها را فراهم می‌کند.
قابلیت سفارشی‌سازی و انطباق‌پذیری: کاربران می‌توانند مدل‌های متن باز را برای کاربردهای خاص خود سفارشی‌سازی و با داده‌های اختصاصی خود آموزش دهند.
هزینه کمتر و دسترسی گسترده‌تر: استفاده از مدل‌های متن باز معمولاً کم‌هزینه‌تر از مدل‌های تجاری است و امکان دسترسی به فناوری LLM را برای طیف وسیع‌تری از افراد و سازمان‌ها فراهم می‌کند.
توسعه و نوآوری جمعی: جامعه متن باز می‌تواند به طور جمعی به بهبود مدل‌ها، رفع اشکالات و توسعه کاربردهای جدید کمک کند.
استقلال از ارائه‌دهندگان تجاری: استفاده از مدل‌های متن باز، وابستگی به ارائه‌دهندگان تجاری بزرگ را کاهش می‌دهد و کنترل بیشتری بر فناوری برای کاربران فراهم می‌آورد.

مدل‌های اساسی متن باز منتخب برای بررسی:

در این مقاله، به بررسی تعدادی از مدل‌های اساسی و برجسته LLM متن باز ارائه شده در سال‌های اخیر می‌پردازیم. تمرکز ما بر مدل‌هایی است که به عنوان پایه‌ای برای توسعه‌های بعدی عمل کرده‌اند و تاثیر قابل توجهی در جامعه متن باز LLM داشته‌اند. مدل‌های منتخب شامل موارد زیر هستند:

مدل BLOOM
خانواده مدل‌های LLaMA (و مدل‌های مشتق شده: Alpaca, Vicuna, Koala و غیره)
مدل Falcon
مدل MPT (Mosaic Pretrained Transformer)
مدل OPT (Open Pre-trained Transformer)
مدل StableLM

بررسی مدل‌ها:

1. مدل BLOOM:

توسعه‌دهنده: BigScience Workshop، یک کارگاه تحقیقاتی بین‌المللی بزرگ.
سال انتشار: ۲۰۲۲
تعداد پارامترها: ۱۷۶ میلیارد
زبان‌های آموزش: ۴۶ زبان طبیعی و ۱۳ زبان برنامه‌نویسی. با تمرکز ویژه بر زبان‌های کم‌منبع.
معماری: مبتنی بر معماری ترانسفورمر، مشابه GPT-3.
ویژگی‌های کلیدی:
- چندزبانه بودن: BLOOM به طور ویژه برای پشتیبانی از تعداد زیادی زبان طراحی شده است و در نوع خود پیشگام بود.
- مقیاس بزرگ: با ۱۷۶ میلیارد پارامتر، یکی از بزرگترین مدل‌های زبان متن باز در زمان انتشار خود بود.
- تلاش جمعی: BLOOM محصول یک تلاش جمعی بزرگ از صدها محقق از سراسر جهان است.
مجوز: مجوز تحقیقاتی مسئول BigScience.
نقاط قوت:
- پیشگام بودن در مدل‌های زبان بزرگ متن باز چندزبانه.
- نشان دادن امکان‌پذیری آموزش مدل‌های بسیار بزرگ به صورت متن باز.
- تمرکز بر زبان‌های کم‌منبع.
نقاط ضعف:
- عملکرد در برخی وظایف ممکن است به اندازه مدل‌های تجاری مانند GPT-3 نباشد.
- به دلیل اندازه بزرگ، نیازمند منابع محاسباتی قابل توجهی برای اجرا و آموزش مجدد است.

2. خانواده مدل‌های LLaMA (و مدل‌های مشتق شده: Alpaca, Vicuna, Koala و غیره):

توسعه‌دهنده: Meta AI
سال انتشار: ۲۰۲۳ (LLaMA), مدل‌های مشتق شده در ادامه ۲۰۲۳
تعداد پارامترها: LLaMA در اندازه‌های مختلف (7B, 13B, 33B, 65B) منتشر شد. مدل‌های مشتق شده معمولاً بر اساس اندازه‌های کوچک‌تر LLaMA هستند.
زبان‌های آموزش: عمدتاً انگلیسی، با داده‌های چندزبانه محدود.
معماری: معماری ترانسفورمر بهینه شده.
ویژگی‌های کلیدی:
- اندازه‌های مختلف: ارائه مدل در اندازه‌های مختلف، امکان انتخاب مدل مناسب بر اساس منابع محاسباتی را فراهم می‌کند.
- عملکرد قوی با اندازه کوچک‌تر: مدل‌های LLaMA نشان دادند که می‌توان با تعداد پارامترهای کمتر به عملکرد قابل قبولی دست یافت.
- الهام‌بخش برای جامعه متن باز: انتشار LLaMA باعث ایجاد موجی از مدل‌های متن باز مشتق شده و نوآوری‌های مرتبط شد.
مجوز: مجوز غیرتجاری. برای استفاده تجاری نیازمند مجوز از Meta است. (این مجوز محدودیت‌هایی ایجاد کرد و منجر به توسعه مدل‌های مشتق شده با مجوزهای بازتر شد.)
مدل‌های مشتق شده مهم:
- Alpaca: دانشگاه استنفورد. آموزش LLaMA 7B با استفاده از دستورالعمل‌های تولید شده توسط GPT-3. برای آموزش مدل‌های دستورالعملی با کیفیت بالا با هزینه کم.
- Vicuna: دانشگاه کارنگی ملون و LMSYS Org. آموزش LLaMA با داده‌های مکالمه‌ای جمع‌آوری شده. برای بهبود عملکرد در وظایف مکالمه‌ای.
- Koala: دانشگاه برکلی. ترکیبی از داده‌های آموزشی متنوع و تمرکز بر وظایف مکالمه‌ای و دستورالعملی.
نقاط قوت:
- عملکرد بالا نسبت به اندازه مدل.
- تنوع اندازه‌ها.
- الهام‌بخش برای توسعه مدل‌های متن باز.
- مدل‌های مشتق شده با بهبود عملکرد در وظایف خاص.
نقاط ضعف:
- مجوز محدود کننده LLaMA (مجوز غیرتجاری اولیه).
- تمرکز بیشتر بر زبان انگلیسی.

3. مدل Falcon:

توسعه‌دهنده: Technology Innovation Institute (TII) در ابوظبی
سال انتشار: ۲۰۲۳
تعداد پارامترها: در اندازه‌های مختلف (7B, 40B, 180B – Falcon-180B بعداً منتشر شد). در این بررسی تمرکز بر Falcon 40B و 7B است.
زبان‌های آموزش: عمدتاً انگلیسی، با داده‌های چندزبانه محدود.
معماری: معماری ترانسفورمر با بهینه‌سازی‌های فنی.
ویژگی‌های کلیدی:
- مجوز آپاچی 2.0: مجوز بسیار باز و تجاری دوستانه. امکان استفاده تجاری بدون محدودیت.
- عملکرد رقابتی: Falcon 40B نشان داد عملکردی رقابتی با مدل‌های بزرگتر و حتی تجاری دارد.
- داده‌های آموزشی با کیفیت بالا: تمرکز بر کیفیت داده‌های آموزشی.
مجوز: مجوز Apache 2.0.
نقاط قوت:
- مجوز بسیار باز و تجاری دوستانه.
- عملکرد رقابتی با مدل‌های بزرگتر.
- تمرکز بر کیفیت داده‌های آموزشی.
- در دسترس بودن مدل‌های کوچک‌تر (7B) و بزرگتر (40B و 180B).
نقاط ضعف:
- داده‌های آموزشی عمدتاً انگلیسی.
- سابقه کوتاه‌تر نسبت به برخی مدل‌های دیگر (مانند BLOOM).

4. مدل MPT (Mosaic Pretrained Transformer):

توسعه‌دهنده: MosaicML (شرکتی فعال در حوزه زیرساخت‌های هوش مصنوعی)
سال انتشار: ۲۰۲۳
تعداد پارامترها: در اندازه‌های مختلف (7B, 30B, مدل‌های دستورالعملی MPT-Instruct و غیره)
زبان‌های آموزش: عمدتاً انگلیسی.
معماری: معماری ترانسفورمر با بهینه‌سازی‌های فنی.
ویژگی‌های کلیدی:
- مجوز Apache 2.0: مجوز بسیار باز و تجاری دوستانه.
- تمرکز بر آموزش کارآمد: MosaicML بر روی بهینه‌سازی فرآیند آموزش مدل‌های بزرگ تمرکز دارد.
- مدل‌های دستورالعملی (MPT-Instruct): ارائه مدل‌های دستورالعملی آماده برای استفاده در کاربردهای پاسخگویی به سوالات و تولید متن مبتنی بر دستورالعمل.
- طول زمینه (Context Length) قابل توجه: مدل‌های MPT با طول زمینه 8K توکن و حتی بیشتر ارائه شده‌اند.
مجوز: مجوز Apache 2.0.
نقاط قوت:
- مجوز بسیار باز و تجاری دوستانه.
- مدل‌های دستورالعملی با کیفیت بالا (MPT-Instruct).
- طول زمینه قابل توجه.
- تمرکز بر آموزش کارآمد و بهینه‌سازی.
نقاط ضعف:
- داده‌های آموزشی عمدتاً انگلیسی.
- شرکت MosaicML بعداً توسط Databricks خریداری شد، وضعیت توسعه متن باز در بلندمدت ممکن است تغییر کند.

5. مدل OPT (Open Pre-trained Transformer):

توسعه‌دهنده: Meta AI
سال انتشار: ۲۰۲۲
تعداد پارامترها: در اندازه‌های مختلف (125M, 350M, 1.3B, 2.7B, 6.7B, 13B, 30B, 66B, 175B)
زبان‌های آموزش: انگلیسی.
معماری: معماری ترانسفورمر، مشابه GPT-3.
ویژگی‌های کلیدی:
- تمرکز بر باز بودن: OPT به عنوان یک پروژه با هدف باز کردن فرآیند آموزش و انتشار مدل‌های زبان بزرگ معرفی شد.
- انتشار وزن‌ها و کد آموزش: Meta AI وزن‌های مدل و کد آموزش را به صورت عمومی منتشر کرد.
- اندازه‌های مختلف: ارائه مدل در اندازه‌های مختلف.
مجوز: مجوز غیرتجاری (مجوز OPT-175B محدودتر بود).
نقاط قوت:
- پیشگام بودن در انتشار وزن‌های مدل‌های بزرگ به صورت متن باز (اگرچه با مجوز غیرتجاری).
- ارائه طیف وسیعی از اندازه‌های مدل.
- کمک به تحقیقات و توسعه در حوزه LLM متن باز.
نقاط ضعف:
- مجوز غیرتجاری (و محدودیت بیشتر برای OPT-175B).
- داده‌های آموزشی عمدتاً انگلیسی.
- عملکرد ممکن است به اندازه مدل‌های تجاری معاصر نباشد.

6. مدل StableLM:

توسعه‌دهنده: Stability AI (شرکت توسعه‌دهنده Stable Diffusion)
سال انتشار: ۲۰۲۳
تعداد پارامترها: در اندازه‌های مختلف (3B, 7B, Alpha 7B) و مدل‌های بزرگتر در دست توسعه.
زبان‌های آموزش: عمدتاً انگلیسی، با داده‌های چندزبانه محدود.
معماری: معماری ترانسفورمر.
ویژگی‌های کلیدی:
- توسعه‌دهنده Stable Diffusion: پشتیبانی از طرف شرکت شناخته شده در حوزه متن باز هوش مصنوعی (Stable Diffusion).
- مجوز MIT: مجوز بسیار باز و تجاری دوستانه.
- تمرکز بر مدل‌های با کیفیت بالا و در دسترس: هدف ارائه مدل‌های LLM متن باز با عملکرد خوب و قابل دسترس برای عموم.
- مدل‌های مختلف (StableLM, StableLM-Alpha): ارائه نسخه‌های مختلف با تمرکز بر ویژگی‌های خاص.
مجوز: مجوز MIT.
نقاط قوت:
- مجوز بسیار باز و تجاری دوستانه.
- پشتیبانی از طرف شرکت معتبر در حوزه هوش مصنوعی متن باز.
- تمرکز بر کیفیت و دسترسی‌پذیری.
- ارائه مدل‌های مختلف با ویژگی‌های متفاوت.
نقاط ضعف:
- مدل‌های نسبتاً جدیدتر، ممکن است به اندازه برخی مدل‌های دیگر تست نشده باشند.
- داده‌های آموزشی عمدتاً انگلیسی.

مقایسه مدل‌ها بر اساس معیارها:

برای مقایسه بهتر مدل‌های بررسی شده، جدول زیر بر اساس معیارهای کلیدی ارائه می‌شود:

معیار	BLOOM	LLaMA Family	Falcon	MPT	OPT	StableLM
توسعه‌دهنده	BigScience Workshop	Meta AI	TII	MosaicML	Meta AI	Stability AI
سال انتشار	2022	2023	2023	2023	2022	2023
تعداد پارامترها	176B	7B-65B	7B-180B	7B-30B	125M-175B	3B-7B+
زبان‌های آموزش	چندزبانه (46 زبان)	عمدتاً انگلیسی	عمدتاً انگلیسی	عمدتاً انگلیسی	انگلیسی	عمدتاً انگلیسی
مجوز	مجوز تحقیقاتی BigScience	مجوز غیرتجاری Meta Apache 2.0	MIT	OPT	مجوز غیرتجاری	Apache 2.0
مجوز تجاری	محدود	محدود	آزادانه	آزادانه	محدود	آزادانه
نقاط قوت	چندزبانه، مقیاس بزرگ، جمعی	عملکرد بالا، اندازه‌های متنوع، الهام‌بخش	مجوز باز، عملکرد رقابتی	مجوز باز، مدل دستورالعملی، طول زمینه بالا	پیشگام در انتشار وزن‌ها، اندازه‌های متنوع	مجوز باز، پشتیبانی Stability AI, کیفیت و دسترسی‌پذیری
نقاط ضعف	عملکرد نسبی، منابع بالا	مجوز محدود، تمرکز انگلیسی	داده‌های انگلیسی	داده‌های انگلیسی	مجوز محدود، عملکرد نسبی	مدل جدیدتر، داده‌های انگلیسی

مزایا و معایب مدل‌های LLM متن باز به طور کلی:

مزایا:

سفارشی‌سازی: امکان تطبیق مدل‌ها با نیازهای خاص.
هزینه: دسترسی کم‌هزینه‌تر به فناوری LLM.
شفافیت: قابلیت بررسی و درک عملکرد مدل.
جامعه: حمایت و توسعه جمعی.
کنترل: استقلال از ارائه‌دهندگان تجاری.

معایب:

پیچیدگی: نیازمندی به تخصص فنی برای استفاده و آموزش مجدد.
منابع محاسباتی: برای مدل‌های بزرگ، نیاز به منابع محاسباتی قابل توجه.
مسئولیت‌پذیری: مسئولیت استفاده اخلاقی و ایمن از مدل‌ها بر عهده کاربر است.
عملکرد: در برخی موارد، ممکن است عملکرد مدل‌های متن باز به اندازه مدل‌های تجاری بهینه نباشد (هرچند این شکاف به سرعت در حال کاهش است).

روند‌های آینده و نتیجه‌گیری:

آینده مدل‌های LLM متن باز بسیار روشن به نظر می‌رسد. با توجه به سرعت بالای پیشرفت‌ها، انتظار می‌رود که مدل‌های متن باز در سال‌های آینده به طور فزاینده‌ای قدرتمندتر، کارآمدتر و دسترس‌پذیرتر شوند. مجوزهای بازتر مانند Apache 2.0 و MIT، به گسترش کاربردهای تجاری مدل‌های متن باز کمک خواهند کرد. همچنین، تمرکز بر زبان‌های غیر انگلیسی و داده‌های چندزبانه، تنوع و شمولیت این مدل‌ها را افزایش خواهد داد.

مدل‌های LLM متن باز، ابزارهای قدرتمندی هستند که امکان دسترسی به فناوری پیشرفته NLP را برای طیف وسیعی از افراد و سازمان‌ها فراهم می‌کنند. انتخاب مدل مناسب بستگی به نیازهای خاص کاربر، منابع محاسباتی موجود و اولویت‌های مربوط به مجوز و سفارشی‌سازی دارد. با ادامه توسعه و تکامل این حوزه، انتظار می‌رود که مدل‌های متن باز نقش کلیدی‌تری در شکل‌دهی آینده هوش مصنوعی ایفا کنند.

توجه: این مقاله مروری کلی بر مدل‌های اساسی LLM متن باز ارائه شده در سال‌های اخیر است. جزئیات فنی و عملکرد دقیق هر مدل ممکن است بسته به نسخه مدل، وظیفه مورد نظر و روش ارزیابی متفاوت باشد. برای اطلاعات دقیق‌تر، توصیه می‌شود به منابع اصلی و مستندات هر مدل مراجعه شود.