لم تعد وجهة نظر نموذج الذكاء الاصطناعي "الأكبر أفضل" تعمل

المؤلف | المترجم الاقتصادي |

المحرر المسؤول | Xia Meng

القائمة | CSDN (المعرف: CSDNnews)

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI

إذا كان للذكاء الاصطناعي أن يتحسن ، فسيتعين عليه القيام بالمزيد بموارد أقل.

عند الحديث عن "نماذج اللغات الكبيرة" (LLMs) ، مثل OpenAI's GPT (المحولات التوليدية المدربة مسبقًا) - القوة الأساسية التي تقود روبوتات المحادثة الشهيرة في الولايات المتحدة - الاسم يقول كل شيء. يتم تشغيل أنظمة الذكاء الاصطناعي الحديثة من خلال شبكات عصبية اصطناعية واسعة تحاكي عمل العقول البيولوجية بطريقة واسعة. GPT-3 ، الذي تم إصداره في عام 2020 ، هو نموذج لغوي ضخم يحتوي على 175 مليار "معلمة" ، وهو اسم الاتصالات المحاكاة بين الخلايا العصبية. تم تدريب GPT-3 من خلال معالجة تريليونات الكلمات من النص في غضون أسابيع قليلة باستخدام الآلاف من وحدات معالجة الرسومات الماهرة بالذكاء الاصطناعي ، بتكلفة تقدر بأكثر من 4.6 مليون دولار.

ومع ذلك ، فإن الإجماع في أبحاث الذكاء الاصطناعي الحديثة هو: "الأكبر هو الأفضل ، والأكبر هو الأفضل". لذلك ، كان معدل نمو مقياس النموذج في تطور سريع. يُقدر أن GPT-4 ، الذي تم إصداره في مارس ، يحتوي على حوالي 1 تريليون معلمة - أي ما يقرب من ستة أضعاف عن الجيل السابق. يقدر سام التمان الرئيس التنفيذي لشركة OpenAI أن تطويرها كلف أكثر من 100 مليون دولار. وتظهر الصناعة ككل نفس الاتجاه. تتوقع شركة Epoch AI للأبحاث في عام 2022 أن قوة الحوسبة المطلوبة لتدريب أفضل النماذج ستتضاعف كل ستة إلى عشرة أشهر (انظر الرسم البياني أدناه).

يطرح الحجم المتزايد باستمرار لمعلمات نموذج الذكاء الاصطناعي بعض المشكلات. إذا كانت تنبؤات Epoch AI صحيحة وتضاعفت تكاليف التدريب كل عشرة أشهر ، فقد تتجاوز تكاليف التدريب مليار دولار بحلول عام 2026 - وهذا فقط بافتراض عدم استنفاد البيانات أولاً. توقع تحليل أجري في أكتوبر 2022 أن النص عالي الجودة المستخدم في التدريب يمكن استنفاده في نفس الفترة الزمنية. أيضًا ، حتى بعد اكتمال تدريب النموذج ، يمكن أن تكون التكلفة الفعلية لتشغيل نموذج كبير باهظة الثمن.

في وقت سابق من هذا العام ، قدّر مورجان ستانلي أنه إذا تمت معالجة نصف عمليات البحث على Google بواسطة برامج من نوع GPT الحالي ، فقد يكلف ذلك الشركة 6 مليارات دولار إضافية سنويًا. من المرجح أن يستمر هذا الرقم في الارتفاع مع نمو حجم النموذج.

نتيجة لذلك ، لم يعد رأي الكثير من الناس أن نماذج الذكاء الاصطناعي "الكبيرة أفضل" صالحة. إذا كانوا سيستمرون في تحسين نماذج الذكاء الاصطناعي (ناهيك عن تحقيق أحلام الذكاء الاصطناعي الأكبر) ، يحتاج المطورون إلى معرفة كيفية الحصول على أداء أفضل بموارد محدودة. كما قال السيد ألتمان في نيسان (أبريل) الماضي عند النظر إلى تاريخ الذكاء الاصطناعي على نطاق واسع: "أعتقد أننا وصلنا إلى نهاية حقبة".

** الطحن الكمي **

وبدلاً من ذلك ، بدأ الباحثون في التركيز على كيفية تحسين كفاءة النموذج ، وليس فقط السعي لتحقيق الحجم. تتمثل إحدى الطرق في تحقيق مفاضلة عن طريق تقليل عدد المعلمات ولكن باستخدام المزيد من البيانات لتدريب النموذج. في عام 2022 ، قام قسم DeepMind في Google بتدريب 70 مليار متغير LLM يسمى Chinchilla على مجموعة من 1.4 تريليون كلمة. على الرغم من وجود معلمات أقل من 175 مليار في GPT-3 وبيانات التدريب 300 مليار كلمة فقط ، فإن هذا النموذج يتفوق على GPT-3. إن تغذية LLM أصغر بمزيد من البيانات يعني أن التدريب يستغرق وقتًا أطول ، ولكن النتيجة تكون نموذجًا أصغر وأسرع وأرخص.

خيار آخر هو السماح بتقليل دقة أرقام الفاصلة العائمة. يمكن أن يؤدي تقليل عدد أرقام الدقة في كل رقم في النموذج ، أي التقريب ، إلى تقليل متطلبات الأجهزة بشكل كبير. أظهر باحثون في المعهد النمساوي للعلوم والتكنولوجيا في مارس أن التقريب يمكن أن يقلل بشكل كبير من استهلاك الذاكرة لنموذج يشبه GPT-3 ، مما يسمح للنموذج بالعمل على وحدة معالجة رسومات غرافيك متطورة واحدة بدلاً من خمسة مع "فقدان ضئيل للدقة. "".

يقوم بعض المستخدمين بضبط LLM للأغراض العامة للتركيز على مهام محددة مثل إنشاء المستندات القانونية أو اكتشاف الأخبار المزيفة. في حين أن هذا ليس معقدًا مثل تدريب ماجستير في القانون لأول مرة ، إلا أنه لا يزال مكلفًا ويستغرق وقتًا طويلاً. تطلبت عملية الضبط الدقيق لنموذج LLaMA المفتوح المصدر الذي يبلغ 65 مليار معلمة من Meta (الشركة الأم لـ Facebook) وحدات معالجة رسومات متعددة واستغرق ذلك من ساعات إلى أيام.

ابتكر باحثون في جامعة واشنطن طريقة أكثر فاعلية لإنشاء نموذج جديد من Guanaco من LLaMA على وحدة معالجة رسومات واحدة في يوم مع فقدان أداء ضئيل. جزء من الحيلة هو تقنية تقريب مماثلة لتلك المستخدمة من قبل الباحثين النمساويين. لكنهم استخدموا أيضًا تقنية تسمى تكيف الرتبة المنخفضة (LoRA) ، والتي تتضمن إصلاح المعلمات الحالية للنموذج ثم إضافة مجموعة جديدة أصغر من المعلمات إليه. يتم إجراء الضبط عن طريق تغيير هذه المتغيرات الجديدة فقط. هذا يبسط الأمور لدرجة أنه حتى الكمبيوتر الضعيف نسبيًا ، مثل الهاتف الذكي ، هو على مستوى المهمة. إذا كان من الممكن تشغيل LLM على جهاز المستخدم بدلاً من مركز البيانات العملاق الحالي ، فقد يؤدي ذلك إلى مزيد من التخصيص وحماية الخصوصية بشكل أفضل.

وفي الوقت نفسه ، يقدم فريق في Google خيارات جديدة لأولئك الذين يمكنهم التعايش مع نماذج أصغر. يركز هذا النهج على استخراج المعرفة المحددة من نموذج عام كبير وتحويلها إلى نموذج أصغر ومتخصص. يعمل النموذج الكبير كمعلم والنموذج الصغير يعمل كطالب. طلب الباحثون من المعلمين الإجابة على الأسئلة وإظهار أسبابهم. يتم استخدام كل من الإجابات والاستنتاجات من نموذج المعلم (النموذج الكبير) لتدريب نموذج الطالب (نموذج صغير). نجح الفريق في تدريب نموذج طالب باستخدام 7.7 مليار معلمة فقط (النموذج الصغير) ليتفوق على نموذج المعلم مع 540 مليار معلمة (النموذج الكبير) في مهام استدلال محددة.

نهج آخر هو تغيير طريقة بناء النموذج بدلاً من التركيز على ما يفعله النموذج. تم تطوير معظم نماذج الذكاء الاصطناعي بلغة Python. إنه مصمم ليكون سهل الاستخدام ، مما يحرر المبرمج من الاضطرار إلى التفكير في كيفية تشغيل البرنامج للرقاقة أثناء تشغيله. ثمن إخفاء هذه التفاصيل هو أن الكود يعمل بشكل أبطأ. يمكن أن يؤدي إيلاء المزيد من الاهتمام لتفاصيل التنفيذ هذه إلى أرباح ضخمة. وكما قال توماس وولف ، كبير المسؤولين العلميين في شركة Hugging Face مفتوحة المصدر للذكاء الاصطناعي ، فإن هذا "جانب مهم من البحث الحالي في الذكاء الاصطناعي".

** رمز مُحسَّن **

على سبيل المثال ، في عام 2022 ، أصدر باحثون في جامعة ستانفورد نسخة محسنة من "خوارزمية الانتباه" التي تسمح لنماذج اللغة الكبيرة (LLMs) بتعلم الروابط بين الكلمات والمفاهيم. تكمن الفكرة في تعديل الشفرة لمراعاة ما يحدث على الشريحة التي تعمل عليها ، ولا سيما لتتبع وقت الحاجة إلى استرداد معلومات محددة أو تخزينها. تمكنت الخوارزمية الخاصة بهم من مضاعفة سرعة تدريب GPT-2 ثلاث مرات ، وهو نموذج لغوي كبير مبكر ، كما عززت قدرتها على التعامل مع الاستعلامات الأطول.

** يمكن أيضًا الحصول على كود أكثر نظافة باستخدام أدوات أفضل **. في وقت سابق من هذا العام ، أصدرت Meta إصدارًا جديدًا من إطار برمجة الذكاء الاصطناعي ، PyTorch. من خلال جعل المبرمجين يفكرون أكثر في كيفية تنظيم العمليات الحسابية على الرقائق الفعلية ، يمكن مضاعفة السرعة التي يمكن بها تدريب النماذج عن طريق إضافة سطر واحد من التعليمات البرمجية. أطلقت شركة Modular ، وهي شركة ناشئة أسسها مهندسو Apple و Google السابقون ، الشهر الماضي لغة برمجة جديدة تركز على الذكاء الاصطناعي تسمى Mojo ، تستند إلى Python. يمنح Mojo المبرمجين التحكم في جميع التفاصيل التي كانت محمية ، وفي بعض الحالات يمكن تشغيل الكود المكتوب باستخدام Mojo أسرع بآلاف المرات من كتلة مكافئة من التعليمات البرمجية المكتوبة في Python.

** الخيار الأخير هو تحسين الشريحة التي تقوم بتشغيل الكود **. على الرغم من أنها مصممة في الأصل للتعامل مع الرسومات المعقدة الموجودة في ألعاب الفيديو الحديثة ، إلا أن وحدات معالجة الرسومات جيدة بشكل مدهش في تشغيل نماذج الذكاء الاصطناعي. قال أحد باحثي الأجهزة في Meta أنه من أجل "الاستدلال" (أي ، التنفيذ الفعلي للنموذج بعد تدريبه) ، لم يتم تصميم وحدات معالجة الرسومات بشكل مثالي. نتيجة لذلك ، تصمم بعض الشركات أجهزتها الأكثر تخصصًا. تدير Google بالفعل معظم مشاريع الذكاء الاصطناعي الخاصة بها على شرائح "TPU" الداخلية. تحاول Meta ، بشريحة MTIA الخاصة بها ، و Amazon ، بشريحة Inferentia الخاصة بها ، تجربة شيء مشابه.

قد يكون من المدهش أن التغييرات البسيطة في بعض الأحيان مثل تقريب الأرقام أو تبديل لغات البرمجة يمكن أن تؤدي إلى مكاسب هائلة في الأداء. لكن هذا يعكس التطور السريع لنماذج اللغات الكبيرة (LLM). لسنوات عديدة ، كانت النماذج اللغوية الكبيرة مشروعًا بحثيًا في المقام الأول ، وكان التركيز بشكل أساسي على جعلها تعمل وتنتج نتائج صحيحة ، بدلاً من التركيز على أناقة تصميمها. في الآونة الأخيرة فقط تم تحويلها إلى منتجات تجارية واسعة النطاق. يتفق معظم الخبراء على أن هناك مجالًا كبيرًا للتحسين. كما قال كريس مانينغ ، عالم الكمبيوتر في جامعة ستانفورد: "لا يوجد سبب للاعتقاد بأن العمارة العصبية المستخدمة حاليًا (في إشارة إلى بنية الشبكة العصبية الحالية) هي الأمثل ، ولا يُستبعد ظهور بنيات أكثر تقدمًا فى المستقبل."

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت