أصبحت نماذج اللغات الكبيرة (LLMs) موضوعًا ساخنًا في صناعة التكنولوجيا ، مما أعطانا بعض التجارب المدهشة - من كتابة كود لمدة أسبوع في ثوانٍ ، إلى إنشاء محادثات أكثر تعاطفًا مما لدينا مع البشر. مدربة على تريليونات من الرموز المميزة للبيانات باستخدام عشرات الآلاف من وحدات معالجة الرسومات ، تُظهر LLMs فهمًا رائعًا للغة الطبيعية وتحول مجالات مثل كتابة النصوص والترميز ، مما يدفعنا إلى عصر جديد ومثير للذكاء الاصطناعي. مثل أي تقنية ناشئة ، يتمتع الذكاء الاصطناعي التوليدي بنصيبه العادل من النقد. على الرغم من أن هذه الانتقادات تعكس جزئيًا القيود المفروضة على القدرات الحالية لـ LLM ، فإننا نعتبر هذه العقبات فرصًا لمزيد من الابتكار بدلاً من كونها عيوبًا أساسية في التكنولوجيا.
لفهم الإنجازات على المدى القريب بشكل أفضل في LLMs وإعداد المؤسسين والمشغلين للمستقبل ، تحدثنا إلى بعض الباحثين الرائدين في مجال الذكاء الاصطناعي التوليدي لبناء وتدريب بعض من أكبر النماذج وأكثرها تطوراً ، ومن بينهم داريو أمودي ، الرئيس التنفيذي لشركة أنثروبيك ، أيدان جوميز ، الرئيس التنفيذي لشركة Cohere ، نعوم شيزير ، الرئيس التنفيذي لشركة Character.AI ، ويواف شوهام من مختبرات AI21. حددت هذه المحادثات 4 اتجاهات ابتكار رئيسية للمستقبل: التوجيه والذاكرة و "اليدين والقدمين" والوسائط المتعددة. في هذه المقالة ، نناقش كيف ستتطور هذه الابتكارات الرئيسية خلال الأشهر الستة إلى الاثني عشر القادمة وكيف ، بالنسبة للمؤسسين المهتمين بدمج الذكاء الاصطناعي في أعمالهم الخاصة ، يمكنهم الاستفادة من هذه التطورات الجديدة. **
مرشد
يعرب العديد من المؤسسين عن قلقهم بشأن استخدام LLM في منتجاتهم وتدفقات العمل بسبب احتمالية حدوث الهلوسة وتحيز التكاثر من هذه النماذج. لمعالجة هذه المشكلات ، تعمل بعض شركات النمذجة الرائدة على تحسين تقنيات التوجيه - وهي طريقة للتحكم بشكل أفضل في نتائج النموذج في مخرجات LLM ، مما يسمح للنماذج بفهم وتنفيذ متطلبات المستخدم المعقدة بشكل أفضل. ذكر نعوم شازير أوجه التشابه بين LLM والأطفال في هذا الصدد: "إنها مسألة كيفية تحسين التمهيد [نماذج] ... المشكلة التي نواجهها مع LLMs هي أننا نحتاج إلى الطريقة الصحيحة لإخبارهم بكيفية اتباع المطالب. الأطفال الصغار هم نفس الشيء - فهم أحيانًا يصنعون الأشياء وليس لديهم فهم واضح للخيال والواقع. "على الرغم من ظهور موفري النماذج والأدوات مثل Guardrails و LMQL ، من حيث القدرة على التوجيه [1] لقد تم إحراز تقدم ملحوظ ، ولا يزال الباحثون يحرزون تقدمًا ، وهو ما نعتقد أنه أمر بالغ الأهمية لتحسين إنتاج LLMs للمستخدمين النهائيين.
يعد التوجيه المحسن أمرًا مهمًا بشكل خاص في شركات المؤسسات ، حيث يمكن أن تكون عواقب السلوك غير المتوقع مكلفة. أشار أمودي إلى أن عدم القدرة على التنبؤ بـ LLMs يمكن أن يجعل الناس غير مرتاحين ، وباعتباره مزودًا لواجهة برمجة التطبيقات ، فإنه يريد أن يكون قادرًا على "قول لا للعملاء ، النماذج لا تفعل ذلك" ، أو على الأقل نادرًا ما تفعل ذلك. الناتج ، يمكن للمؤسسين أن يضمنوا بثقة أكبر أن أداء النموذج يتوافق مع احتياجات العملاء. سيؤدي تحسين التوجيه أيضًا إلى تمهيد الطريق للتبني على نطاق واسع في الصناعات الأخرى التي تتطلب قدرًا أكبر من الدقة والموثوقية ، مثل صناعة الإعلان ، حيث تكون مخاطر وضع الإعلانات عالية. تعتقد Amodei أيضًا أنه يمكن تطبيق التوجه المحسن على "حالات الاستخدام القانوني وحالات الاستخدام الطبي وتخزين المعلومات المالية وإدارة الرهانات المالية والسيناريوهات التي تحتاج فيها إلى حماية العلامة التجارية لشركتك. لا تريد التكنولوجيا التي تدمجها أن تكون غير متوقعة أو يصعب التنبؤ بها أو توصيفها. "من خلال كونها موجهة بشكل أفضل ، ستكون LLM أيضًا قادرة على إنجاز مهام أكثر تعقيدًا بكمية صغيرة من هندسة التلميح ، لأنهم سيكونون قادرين على فهم الهدف العام بشكل أفضل."
إن التقدم في اتجاه LLM لديه أيضًا القدرة على فتح إمكانيات جديدة في تطبيقات المستهلك الحساسة حيث يتوقع المستخدمون استجابات مخصصة ودقيقة. بينما قد يتسامح المستخدمون مع مخرجات أقل دقة عند الانخراط في تفاعلات محادثة أو إبداعية مع LLM ، عندما يستخدم المستخدمون LLM للمساعدة في المهام اليومية أو توجيه القرارات المهمة أو زيادة المهنيين مثل مدربي الحياة والمعالجين والأطباء ، فإنهم يريدون إخراجًا أكثر دقة. لقد تمت الإشارة إلى أنه من المتوقع أن تحل LLMs محل تطبيقات المستهلك الراسخة مثل البحث ، ولكن قبل أن يصبح هذا احتمالًا حقيقيًا ، قد نحتاج إلى إرشادات أفضل لتحسين مخرجات النموذج وبناء ثقة المستخدم.
نقطة الاختراق الرئيسية: يمكن للمستخدمين تخصيص إخراج LLMS بشكل أفضل. *
ذاكرة
حققت تطبيقات كتابة الإعلانات وإنشاء الإعلانات التي يقودها LLM نجاحًا كبيرًا ، واكتسبت بسرعة شعبية بين المسوقين والمعلنين ورجال الأعمال. ومع ذلك ، فإن مخرجات معظم LLM الحالية معممة نسبيًا ، مما يجعل من الصعب استخدامها لحالات الاستخدام التي تتطلب التخصيص وفهم السياق. بينما يمكن أن توفر هندسة التلميح والضبط الدقيق درجة من التخصيص ، فإن هندسة التلميح أقل قابلية للتوسع ، وغالبًا ما يكون الضبط الدقيق مكلفًا لأنه يتطلب مستوى معينًا من إعادة التدريب وعادة ما يتطلب تعاونًا وثيقًا مع معظم LLMs ذات المصدر المغلق. عادة ما يكون ضبط نموذج لكل مستخدم فردي غير ممكن أو مرغوب فيه.
التعلم السياقي هو الكأس المقدسة لتحقيق ذلك ، حيث تأخذ LLM المعلومات من المحتوى الذي تنشئه شركتك ، والمصطلحات الخاصة بشركتك ، والسياق المحدد لإنشاء مخرجات أكثر تفصيلاً وحالة استخدام محددة. لتحقيق هذا الهدف ، تحتاج LLM إلى قدرات ذاكرة محسنة. تحتوي ذاكرة LLM على مكونين رئيسيين: إطارات السياق والاسترجاع. نافذة السياق هي نص يمكن للنموذج معالجته واستخدامه لتوجيه مخرجاته ، بالإضافة إلى مجموعة البيانات التي تم التدريب عليها. يشير الاسترجاع إلى استرجاع وإحالة المعلومات والوثائق ذات الصلة ("البيانات السياقية") من مجموعة بيانات غير مجموعة بيانات التدريب الخاصة بالنموذج. في الوقت الحالي ، تحتوي معظم LLM على نوافذ سياق محدودة ولا يمكنها استرداد معلومات إضافية محليًا ، وبالتالي إنشاء مخرجات تفتقر إلى التخصيص. ومع ذلك ، مع نوافذ سياق أكبر واسترجاع محسّن ، يمكن أن توفر LLM بشكل مباشر نواتج أكثر دقة وحالة استخدام محددة.
على وجه الخصوص ، من خلال توسيع نافذة السياق ، سيكون النموذج قادرًا على التعامل مع أحجام أكبر من النص والحفاظ بشكل أفضل على السياق ، بما في ذلك الحفاظ على الاتساق في الحوار. سيؤدي ذلك إلى تحسين قدرة النموذج بشكل كبير في المهام التي تتطلب فهمًا أعمق للمدخلات الأطول ، مثل تلخيص النصوص الطويلة أو إنشاء استجابات متماسكة ودقيقة من حيث السياق أثناء المحادثات الطويلة. فيما يتعلق بنوافذ السياق ، شهدنا تحسينات كبيرة - تحتوي GPT-4 على نوافذ سياق من 8k و 32k Tokens ، مقارنة بـ 4k و 16k tokens لـ GPT-3.5 و ChatGPT ، وقد نقل كلود مؤخرًا نافذة السياق الخاصة به تمتد إلى 100 ألف مذهل الرموز [2] 。
لا يؤدي توسيع نافذة السياق وحدها إلى تحسين الذاكرة بشكل كافٍ ، حيث إن تكلفة ووقت الاستدلال يتساوقان بشكل شبه خطي أو حتى تربيعيًا مع طول التلميح. [3] تعمل آلية الاسترجاع على تعزيز وتحسين مجموعة التدريب الأصلية لـ LLM بالبيانات السياقية المتعلقة بالإشارة. نظرًا لأن LLMs يتم تدريبها على مجموعة من المعلومات وغالبًا ما يكون من الصعب تحديثها ، فإن الاسترجاع له فائدتان رئيسيتان ، وفقًا لشوهام: "أولاً ، يتيح لك الوصول إلى مصادر المعلومات التي لم تكن لديك في وقت التدريب. ثانيًا ، يسمح عليك تركيز نموذج اللغة على المعلومات التي تعتقد أنها ذات صلة بالمهمة. "أصبحت قواعد بيانات المتجه مثل Pinecone المعيار الواقعي لاسترداد المعلومات ذات الصلة بكفاءة والعمل كطبقة ذاكرة لـ LLM ، مما يسهل على النماذج البحث بسرعة ودقة والإشارة إلى كميات هائلة من المعلومات والبيانات الصحيحة في.
ستكون نوافذ السياق المتزايدة والاسترجاع مهمين بشكل خاص في حالات استخدام المؤسسة ، مثل التنقل في قواعد المعرفة الكبيرة أو قواعد البيانات المعقدة. ستكون الشركات قادرة على الاستفادة بشكل أفضل من بيانات الملكية الخاصة بها ، مثل المعرفة الداخلية ، أو تذاكر دعم العملاء التاريخية ، أو النتائج المالية ، كمدخلات إلى LLM دون ضبطها. سيؤدي تحسين ذاكرة LLM إلى تحسينات وقدرات التخصيص العميقة في مجالات مثل التدريب وإعداد التقارير والبحث الداخلي وتحليلات البيانات وذكاء الأعمال ودعم العملاء.
في مساحة المستهلك ، ستعمل النوافذ السياقية المحسنة والاسترجاع على تمكين إمكانات التخصيص القوية التي ستحدث ثورة في تجربة المستخدم. وفقًا لنوعام شازير ، "سيكون أحد الإنجازات الكبرى هو تطوير نموذج به سعة ذاكرة عالية جدًا يمكن تخصيصها لكل مستخدم مع استمرار فعاليتها من حيث التكلفة على نطاق واسع. تريد أن يعرف المعالج الخاص بك كل جانب من جوانب الحياة ؛ تريد أن يعرف معلموك ما تعرفه بالفعل ؛ تريد أن يكون مدربون حياتك قادرين على تقديم النصح لك بشأن ما يحدث. إنهم جميعًا بحاجة إلى سياق. " قال: "من خلال منح النموذج إمكانية الوصول إلى البيانات ذات الصلة الفريدة بك ، مثل بريدك الإلكتروني أو التقويم أو الرسائل المباشرة ، سيتعرف النموذج على علاقاتك مع جهات مختلفة لمساعدتك بأفضل طريقة ممكنة في ظل هذه الظروف. . "
اختراق رئيسي: سوف يكون LLM قادرًا على النظر في كميات كبيرة من المعلومات ذات الصلة وتقديم المزيد من المخرجات الشخصية والمخصصة والمفيدة. *
** "الذراعين والساقين": يمنح النموذج القدرة على استخدام الأدوات **
تكمن القوة الحقيقية للغة LLM في جعل اللغة الطبيعية وسيلة للعمل. تتمتع LLMs بفهم متطور للأنظمة الشائعة والموثقة جيدًا ، لكنها لا تستطيع فرض أي معلومات مستخرجة من هذه الأنظمة. على سبيل المثال ، يمكن أن يصف كل من ChatGPT من OpenAI و Anthropic's Claude و Character AI's Lily بالتفصيل كيفية حجز رحلة طيران ، لكن لا يمكنهم حجز الرحلات الجوية بأنفسهم (على الرغم من التقدم التكنولوجي مثل المكونات الإضافية لـ ChatGPT يدفع هذا الحد). قال أمودي: "هذا الدماغ لديه نظريًا كل هذه المعرفة ، إنه يفتقد فقط التعيين من الأسماء إلى الأزرار. لا يتطلب الأمر الكثير من التدريب لتوصيل هذه الكابلات. لديك دماغ غير جسد يعرف كيف يتحرك ، ولكن لم تعلق بعد على الذراعين والساقين ".
بمرور الوقت ، رأينا الشركات تحسن قدرة LLM على استخدام الأدوات. أطلقت شركات قائمة مثل Bing و Google وشركات ناشئة مثل Perplexity و You.com واجهات برمجة تطبيقات للبحث. قدمت AI21 Labs Jurassic-X ، والتي تعالج العديد من أوجه القصور في LLMs المستقلة من خلال دمج النماذج مع مجموعة من الأدوات المحددة مسبقًا ، بما في ذلك الآلات الحاسبة وواجهات برمجة تطبيقات الطقس و Wikipedia APIs وقواعد البيانات. أطلقت OpenAI إصدارًا تجريبيًا من مكون إضافي لـ ChatGPT والذي يسمح لـ ChatGPT بالتفاعل مع أدوات مثل Expedia و OpenTable و Wolfram و Instacart و Speak ومتصفحات الويب ومترجمي الشفرات ، وهو اختراق يُعتقد أنه يشبه لحظة "متجر التطبيقات" من Apple. في الآونة الأخيرة ، قدمت OpenAI استدعاءات وظيفية في GPT-3.5 و GPT-4 [4] ، مما يسمح للمطورين بربط إمكانيات GPT بأي أدوات خارجية.
تعد القدرة على إضافة أذرع وأرجل لتمكين مجموعة من حالات الاستخدام عبر مجموعة واسعة من الشركات وأنواع المستخدمين من خلال الانتقال من التنقيب عن المعرفة إلى توجيه العمل. بالنسبة للمستهلكين ، قد تتمكن LLM قريبًا من اقتراح وصفات ثم طلب المكونات التي تحتاجها ، أو اقتراح مكان للإفطار والغداء وحجز طاولة لك. في مجال المؤسسات ، يمكن للمؤسسين تسهيل استخدام تطبيقاتهم عن طريق توصيل LLMs. كما يشير Amodei: "بالنسبة للوظائف التي يصعب جدًا استخدامها من منظور واجهة المستخدم ، قد نحتاج فقط إلى وصفها بلغة طبيعية لتحقيق عمليات معقدة." على سبيل المثال ، بالنسبة لتطبيقات مثل Salesforce ، يجب أن يسمح تكامل LLM للمستخدمين لاستخدام اللغة الطبيعية لإجراء التحديثات وجعل النموذج يقوم تلقائيًا بإجراء هذه التغييرات ، مما يقلل بشكل كبير من الوقت الذي يستغرقه الحفاظ على CRM الخاص بك. مثل cohere [5] وبارع [6] تعمل مثل هذه الشركات الناشئة على دمج LLM في مثل هذه الأدوات المعقدة.
يعتقد غوميز أنه في حين أنه من المرجح بشكل متزايد أن تكون LLMs قادرة على استخدام تطبيقات مثل Excel في غضون عامين ، "لا يزال يتعين إجراء الكثير من التحسينات. سيكون لدينا الجيل الأول من النماذج التي ستكون قادرة على استخدام الأدوات ، وسيكون هذا مقنعًا. "ولكنه هش. في النهاية سيكون لدينا نظام الأحلام حيث يمكننا تسليم أي برنامج إلى النموذج مع بعض الوصف مثل" هذا ما تفعله الأداة ، وإليك كيفية استخدامها "وستكون قادرة على استخدامه ... بمجرد أن نتمكن من تزويد LLM بأدوات محددة وعامة ، فإن الأتمتة التي توفرها ستكون ذروة مجالنا ".
اختراق رئيسي: سوف يكون LLM قادرًا على التفاعل بشكل أكثر فعالية مع الأدوات التي نستخدمها اليوم. *
** متعدد الوسائط **
في حين أن واجهات الدردشة مثيرة وبديهية للعديد من المستخدمين ، يمكن للبشر سماع اللغة والتحدث بها بقدر ما يكتبونها أو يقرؤونها ، أو أكثر. كما يشير Amodei: "هناك حد لما يمكن أن يفعله نظام الذكاء الاصطناعي لأنه ليس كل شيء نصًا". يمكن للنموذج الذي يتمتع بقدرات الوسائط المتعددة معالجة وإنشاء محتوى بتنسيقات صوتية أو مرئية متعددة بسلاسة ، مما يوسع هذا التفاعل إلى ما وراء اللغة. نماذج مثل GPT-4 و Character.AI و Meta ImageBind قادرة بالفعل على معالجة وإنشاء الصور والصوت والطرائق الأخرى ، لكن قدراتها في هذا المجال أساسية نسبيًا ، على الرغم من التقدم السريع. على حد تعبير جوميز ، فإن نماذجنا اليوم عمياء فعليًا ، وهذا يحتاج إلى التغيير. لقد أنشأنا الكثير من واجهات المستخدم الرسومية (GUI) التي كان من المفترض أن يراها المستخدم.
نظرًا لتطور LLMs لفهم أساليب متعددة والتفاعل معها بشكل أفضل ، سيكونون قادرين على استخدام التطبيقات الحالية التي تعتمد على واجهات المستخدم الرسومية ، مثل المتصفحات. يمكنهم أيضًا تزويد المستهلكين بتجربة أكثر جاذبية وتماسكًا وشمولية ، مما يتيح تفاعلات المستخدم لتتجاوز واجهات الدردشة. أشار شازير إلى أن "الكثير من التكامل الرائع للنماذج متعددة الوسائط يمكن أن يجعل الأشياء أكثر جاذبية وأكثر ارتباطًا بالمستخدمين". كما قال: "أعتقد أن معظم الذكاء الأساسي الآن يأتي من النص ، ولكن الصوت والفيديو يمكن أن يجعل هذه الأشياء أكثر إثارة للاهتمام. "
ترتبط تعدد الوسائط ارتباطًا وثيقًا باستخدام الأداة. على الرغم من أن LLM قد تتفاعل في البداية مع البرامج الخارجية عبر واجهات برمجة التطبيقات ، فإن الوسائط المتعددة ستمكّن LLM من استخدام الأدوات المصممة للاستهلاك البشري ولكن بدون تكامل مخصص ، مثل أنظمة تخطيط موارد المؤسسات التقليدية (ERP) أو تطبيقات سطح المكتب أو الأجهزة الطبية أو آلات التصنيع. لقد رأينا بالفعل تقدمًا مثيرًا في هذا الصدد: على سبيل المثال ، يمكن لنموذج Med-PaLM-2 من Google توليف تصوير الثدي بالأشعة السينية وصور الأشعة السينية. وعلى المدى الطويل ، يمكن للوسائط المتعددة (خاصة التكامل مع رؤية الكمبيوتر) أن توسع LLMs إلى واقعنا المادي من خلال الروبوتات والمركبات المستقلة والتطبيقات الأخرى التي تتطلب تفاعلًا في الوقت الفعلي مع العالم المادي.
اختراق رئيسي: النماذج متعددة الوسائط قادرة على التفكير في الصور ومقاطع الفيديو وحتى البيئات المادية دون تخصيص كبير. *
على الرغم من بعض القيود العملية على LLMs ، قام الباحثون بإجراء تحسينات مذهلة على هذه النماذج في فترة زمنية قصيرة. حقيقة أننا قمنا بتحديثه عدة مرات حتى كتابة هذه السطور هي شهادة على التطور السريع للتكنولوجيا في هذا المجال. يوافق جوميز: "مرة واحدة من أصل 20 ، اختلقت LLM حقيقة أنه من الواضح أنها لا تزال مرتفعة للغاية. لكنني حقًا ، واثق حقًا أن هذه هي المرة الأولى التي نبني فيها نظامًا كهذا. توقعات الناس عالية جدًا ، لذلك كان الهدف من "أجهزة الكمبيوتر غبية ، يمكنها فقط إجراء الرياضيات" إلى "ربما يمكن للإنسان أن يؤدي بشكل أفضل." لقد ردمنا الفجوة بما يكفي بحيث يركز النقد على ما يمكن أن يفعله البشر.
نحن متحمسون بشكل خاص للابتكارات الأربعة التالية التي وصلت إلى نقطة التحول في تغيير الطريقة التي يبني بها رواد الأعمال المنتجات ويديرون الشركات. على المدى الطويل ، تكون الإمكانات أكبر. يتوقع أمودي: "في مرحلة ما ، قد يكون لدينا نموذج يمكنه قراءة جميع البيانات البيولوجية ومعرفة علاج للسرطان". والحقيقة هي أن أفضل التطبيقات الجديدة قد لا تزال غير معروفة. في Character.AI ، يتيح Shazeer للمستخدمين تطوير حالات الاستخدام هذه: "سنرى الكثير من التطبيقات الجديدة غير مقفلة. من الصعب بالنسبة لي معرفة ماهية هذه التطبيقات. سيكون هناك ملايين التطبيقات ، وسيتجاوز عدد المستخدمين قليل. "المهندسون أفضل في معرفة كيفية استخدام التكنولوجيا." لا يسعنا الانتظار لنرى كيف ستؤثر هذه التطورات على الطريقة التي نعيش ونعمل بها كرواد أعمال وشركات ، حيث تعمل هذه الأدوات والقدرات الجديدة على تمكيننا.
شكرًا لمات بورنشتاين ، وجويدو أبينزيلر ، وراجكو رادوفانوفيتش على تعليقاتهم وتعليقاتهم أثناء عملية الكتابة. *
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
A16Z: 4 اختراقات في الذكاء الاصطناعي التوليدي
أصبحت نماذج اللغات الكبيرة (LLMs) موضوعًا ساخنًا في صناعة التكنولوجيا ، مما أعطانا بعض التجارب المدهشة - من كتابة كود لمدة أسبوع في ثوانٍ ، إلى إنشاء محادثات أكثر تعاطفًا مما لدينا مع البشر. مدربة على تريليونات من الرموز المميزة للبيانات باستخدام عشرات الآلاف من وحدات معالجة الرسومات ، تُظهر LLMs فهمًا رائعًا للغة الطبيعية وتحول مجالات مثل كتابة النصوص والترميز ، مما يدفعنا إلى عصر جديد ومثير للذكاء الاصطناعي. مثل أي تقنية ناشئة ، يتمتع الذكاء الاصطناعي التوليدي بنصيبه العادل من النقد. على الرغم من أن هذه الانتقادات تعكس جزئيًا القيود المفروضة على القدرات الحالية لـ LLM ، فإننا نعتبر هذه العقبات فرصًا لمزيد من الابتكار بدلاً من كونها عيوبًا أساسية في التكنولوجيا.
لفهم الإنجازات على المدى القريب بشكل أفضل في LLMs وإعداد المؤسسين والمشغلين للمستقبل ، تحدثنا إلى بعض الباحثين الرائدين في مجال الذكاء الاصطناعي التوليدي لبناء وتدريب بعض من أكبر النماذج وأكثرها تطوراً ، ومن بينهم داريو أمودي ، الرئيس التنفيذي لشركة أنثروبيك ، أيدان جوميز ، الرئيس التنفيذي لشركة Cohere ، نعوم شيزير ، الرئيس التنفيذي لشركة Character.AI ، ويواف شوهام من مختبرات AI21. حددت هذه المحادثات 4 اتجاهات ابتكار رئيسية للمستقبل: التوجيه والذاكرة و "اليدين والقدمين" والوسائط المتعددة. في هذه المقالة ، نناقش كيف ستتطور هذه الابتكارات الرئيسية خلال الأشهر الستة إلى الاثني عشر القادمة وكيف ، بالنسبة للمؤسسين المهتمين بدمج الذكاء الاصطناعي في أعمالهم الخاصة ، يمكنهم الاستفادة من هذه التطورات الجديدة. **
مرشد
يعرب العديد من المؤسسين عن قلقهم بشأن استخدام LLM في منتجاتهم وتدفقات العمل بسبب احتمالية حدوث الهلوسة وتحيز التكاثر من هذه النماذج. لمعالجة هذه المشكلات ، تعمل بعض شركات النمذجة الرائدة على تحسين تقنيات التوجيه - وهي طريقة للتحكم بشكل أفضل في نتائج النموذج في مخرجات LLM ، مما يسمح للنماذج بفهم وتنفيذ متطلبات المستخدم المعقدة بشكل أفضل. ذكر نعوم شازير أوجه التشابه بين LLM والأطفال في هذا الصدد: "إنها مسألة كيفية تحسين التمهيد [نماذج] ... المشكلة التي نواجهها مع LLMs هي أننا نحتاج إلى الطريقة الصحيحة لإخبارهم بكيفية اتباع المطالب. الأطفال الصغار هم نفس الشيء - فهم أحيانًا يصنعون الأشياء وليس لديهم فهم واضح للخيال والواقع. "على الرغم من ظهور موفري النماذج والأدوات مثل Guardrails و LMQL ، من حيث القدرة على التوجيه [1] لقد تم إحراز تقدم ملحوظ ، ولا يزال الباحثون يحرزون تقدمًا ، وهو ما نعتقد أنه أمر بالغ الأهمية لتحسين إنتاج LLMs للمستخدمين النهائيين.
يعد التوجيه المحسن أمرًا مهمًا بشكل خاص في شركات المؤسسات ، حيث يمكن أن تكون عواقب السلوك غير المتوقع مكلفة. أشار أمودي إلى أن عدم القدرة على التنبؤ بـ LLMs يمكن أن يجعل الناس غير مرتاحين ، وباعتباره مزودًا لواجهة برمجة التطبيقات ، فإنه يريد أن يكون قادرًا على "قول لا للعملاء ، النماذج لا تفعل ذلك" ، أو على الأقل نادرًا ما تفعل ذلك. الناتج ، يمكن للمؤسسين أن يضمنوا بثقة أكبر أن أداء النموذج يتوافق مع احتياجات العملاء. سيؤدي تحسين التوجيه أيضًا إلى تمهيد الطريق للتبني على نطاق واسع في الصناعات الأخرى التي تتطلب قدرًا أكبر من الدقة والموثوقية ، مثل صناعة الإعلان ، حيث تكون مخاطر وضع الإعلانات عالية. تعتقد Amodei أيضًا أنه يمكن تطبيق التوجه المحسن على "حالات الاستخدام القانوني وحالات الاستخدام الطبي وتخزين المعلومات المالية وإدارة الرهانات المالية والسيناريوهات التي تحتاج فيها إلى حماية العلامة التجارية لشركتك. لا تريد التكنولوجيا التي تدمجها أن تكون غير متوقعة أو يصعب التنبؤ بها أو توصيفها. "من خلال كونها موجهة بشكل أفضل ، ستكون LLM أيضًا قادرة على إنجاز مهام أكثر تعقيدًا بكمية صغيرة من هندسة التلميح ، لأنهم سيكونون قادرين على فهم الهدف العام بشكل أفضل."
إن التقدم في اتجاه LLM لديه أيضًا القدرة على فتح إمكانيات جديدة في تطبيقات المستهلك الحساسة حيث يتوقع المستخدمون استجابات مخصصة ودقيقة. بينما قد يتسامح المستخدمون مع مخرجات أقل دقة عند الانخراط في تفاعلات محادثة أو إبداعية مع LLM ، عندما يستخدم المستخدمون LLM للمساعدة في المهام اليومية أو توجيه القرارات المهمة أو زيادة المهنيين مثل مدربي الحياة والمعالجين والأطباء ، فإنهم يريدون إخراجًا أكثر دقة. لقد تمت الإشارة إلى أنه من المتوقع أن تحل LLMs محل تطبيقات المستهلك الراسخة مثل البحث ، ولكن قبل أن يصبح هذا احتمالًا حقيقيًا ، قد نحتاج إلى إرشادات أفضل لتحسين مخرجات النموذج وبناء ثقة المستخدم.
ذاكرة
حققت تطبيقات كتابة الإعلانات وإنشاء الإعلانات التي يقودها LLM نجاحًا كبيرًا ، واكتسبت بسرعة شعبية بين المسوقين والمعلنين ورجال الأعمال. ومع ذلك ، فإن مخرجات معظم LLM الحالية معممة نسبيًا ، مما يجعل من الصعب استخدامها لحالات الاستخدام التي تتطلب التخصيص وفهم السياق. بينما يمكن أن توفر هندسة التلميح والضبط الدقيق درجة من التخصيص ، فإن هندسة التلميح أقل قابلية للتوسع ، وغالبًا ما يكون الضبط الدقيق مكلفًا لأنه يتطلب مستوى معينًا من إعادة التدريب وعادة ما يتطلب تعاونًا وثيقًا مع معظم LLMs ذات المصدر المغلق. عادة ما يكون ضبط نموذج لكل مستخدم فردي غير ممكن أو مرغوب فيه.
التعلم السياقي هو الكأس المقدسة لتحقيق ذلك ، حيث تأخذ LLM المعلومات من المحتوى الذي تنشئه شركتك ، والمصطلحات الخاصة بشركتك ، والسياق المحدد لإنشاء مخرجات أكثر تفصيلاً وحالة استخدام محددة. لتحقيق هذا الهدف ، تحتاج LLM إلى قدرات ذاكرة محسنة. تحتوي ذاكرة LLM على مكونين رئيسيين: إطارات السياق والاسترجاع. نافذة السياق هي نص يمكن للنموذج معالجته واستخدامه لتوجيه مخرجاته ، بالإضافة إلى مجموعة البيانات التي تم التدريب عليها. يشير الاسترجاع إلى استرجاع وإحالة المعلومات والوثائق ذات الصلة ("البيانات السياقية") من مجموعة بيانات غير مجموعة بيانات التدريب الخاصة بالنموذج. في الوقت الحالي ، تحتوي معظم LLM على نوافذ سياق محدودة ولا يمكنها استرداد معلومات إضافية محليًا ، وبالتالي إنشاء مخرجات تفتقر إلى التخصيص. ومع ذلك ، مع نوافذ سياق أكبر واسترجاع محسّن ، يمكن أن توفر LLM بشكل مباشر نواتج أكثر دقة وحالة استخدام محددة.
على وجه الخصوص ، من خلال توسيع نافذة السياق ، سيكون النموذج قادرًا على التعامل مع أحجام أكبر من النص والحفاظ بشكل أفضل على السياق ، بما في ذلك الحفاظ على الاتساق في الحوار. سيؤدي ذلك إلى تحسين قدرة النموذج بشكل كبير في المهام التي تتطلب فهمًا أعمق للمدخلات الأطول ، مثل تلخيص النصوص الطويلة أو إنشاء استجابات متماسكة ودقيقة من حيث السياق أثناء المحادثات الطويلة. فيما يتعلق بنوافذ السياق ، شهدنا تحسينات كبيرة - تحتوي GPT-4 على نوافذ سياق من 8k و 32k Tokens ، مقارنة بـ 4k و 16k tokens لـ GPT-3.5 و ChatGPT ، وقد نقل كلود مؤخرًا نافذة السياق الخاصة به تمتد إلى 100 ألف مذهل الرموز [2] 。
لا يؤدي توسيع نافذة السياق وحدها إلى تحسين الذاكرة بشكل كافٍ ، حيث إن تكلفة ووقت الاستدلال يتساوقان بشكل شبه خطي أو حتى تربيعيًا مع طول التلميح. [3] تعمل آلية الاسترجاع على تعزيز وتحسين مجموعة التدريب الأصلية لـ LLM بالبيانات السياقية المتعلقة بالإشارة. نظرًا لأن LLMs يتم تدريبها على مجموعة من المعلومات وغالبًا ما يكون من الصعب تحديثها ، فإن الاسترجاع له فائدتان رئيسيتان ، وفقًا لشوهام: "أولاً ، يتيح لك الوصول إلى مصادر المعلومات التي لم تكن لديك في وقت التدريب. ثانيًا ، يسمح عليك تركيز نموذج اللغة على المعلومات التي تعتقد أنها ذات صلة بالمهمة. "أصبحت قواعد بيانات المتجه مثل Pinecone المعيار الواقعي لاسترداد المعلومات ذات الصلة بكفاءة والعمل كطبقة ذاكرة لـ LLM ، مما يسهل على النماذج البحث بسرعة ودقة والإشارة إلى كميات هائلة من المعلومات والبيانات الصحيحة في.
ستكون نوافذ السياق المتزايدة والاسترجاع مهمين بشكل خاص في حالات استخدام المؤسسة ، مثل التنقل في قواعد المعرفة الكبيرة أو قواعد البيانات المعقدة. ستكون الشركات قادرة على الاستفادة بشكل أفضل من بيانات الملكية الخاصة بها ، مثل المعرفة الداخلية ، أو تذاكر دعم العملاء التاريخية ، أو النتائج المالية ، كمدخلات إلى LLM دون ضبطها. سيؤدي تحسين ذاكرة LLM إلى تحسينات وقدرات التخصيص العميقة في مجالات مثل التدريب وإعداد التقارير والبحث الداخلي وتحليلات البيانات وذكاء الأعمال ودعم العملاء.
في مساحة المستهلك ، ستعمل النوافذ السياقية المحسنة والاسترجاع على تمكين إمكانات التخصيص القوية التي ستحدث ثورة في تجربة المستخدم. وفقًا لنوعام شازير ، "سيكون أحد الإنجازات الكبرى هو تطوير نموذج به سعة ذاكرة عالية جدًا يمكن تخصيصها لكل مستخدم مع استمرار فعاليتها من حيث التكلفة على نطاق واسع. تريد أن يعرف المعالج الخاص بك كل جانب من جوانب الحياة ؛ تريد أن يعرف معلموك ما تعرفه بالفعل ؛ تريد أن يكون مدربون حياتك قادرين على تقديم النصح لك بشأن ما يحدث. إنهم جميعًا بحاجة إلى سياق. " قال: "من خلال منح النموذج إمكانية الوصول إلى البيانات ذات الصلة الفريدة بك ، مثل بريدك الإلكتروني أو التقويم أو الرسائل المباشرة ، سيتعرف النموذج على علاقاتك مع جهات مختلفة لمساعدتك بأفضل طريقة ممكنة في ظل هذه الظروف. . "
** "الذراعين والساقين": يمنح النموذج القدرة على استخدام الأدوات **
تكمن القوة الحقيقية للغة LLM في جعل اللغة الطبيعية وسيلة للعمل. تتمتع LLMs بفهم متطور للأنظمة الشائعة والموثقة جيدًا ، لكنها لا تستطيع فرض أي معلومات مستخرجة من هذه الأنظمة. على سبيل المثال ، يمكن أن يصف كل من ChatGPT من OpenAI و Anthropic's Claude و Character AI's Lily بالتفصيل كيفية حجز رحلة طيران ، لكن لا يمكنهم حجز الرحلات الجوية بأنفسهم (على الرغم من التقدم التكنولوجي مثل المكونات الإضافية لـ ChatGPT يدفع هذا الحد). قال أمودي: "هذا الدماغ لديه نظريًا كل هذه المعرفة ، إنه يفتقد فقط التعيين من الأسماء إلى الأزرار. لا يتطلب الأمر الكثير من التدريب لتوصيل هذه الكابلات. لديك دماغ غير جسد يعرف كيف يتحرك ، ولكن لم تعلق بعد على الذراعين والساقين ".
بمرور الوقت ، رأينا الشركات تحسن قدرة LLM على استخدام الأدوات. أطلقت شركات قائمة مثل Bing و Google وشركات ناشئة مثل Perplexity و You.com واجهات برمجة تطبيقات للبحث. قدمت AI21 Labs Jurassic-X ، والتي تعالج العديد من أوجه القصور في LLMs المستقلة من خلال دمج النماذج مع مجموعة من الأدوات المحددة مسبقًا ، بما في ذلك الآلات الحاسبة وواجهات برمجة تطبيقات الطقس و Wikipedia APIs وقواعد البيانات. أطلقت OpenAI إصدارًا تجريبيًا من مكون إضافي لـ ChatGPT والذي يسمح لـ ChatGPT بالتفاعل مع أدوات مثل Expedia و OpenTable و Wolfram و Instacart و Speak ومتصفحات الويب ومترجمي الشفرات ، وهو اختراق يُعتقد أنه يشبه لحظة "متجر التطبيقات" من Apple. في الآونة الأخيرة ، قدمت OpenAI استدعاءات وظيفية في GPT-3.5 و GPT-4 [4] ، مما يسمح للمطورين بربط إمكانيات GPT بأي أدوات خارجية.
تعد القدرة على إضافة أذرع وأرجل لتمكين مجموعة من حالات الاستخدام عبر مجموعة واسعة من الشركات وأنواع المستخدمين من خلال الانتقال من التنقيب عن المعرفة إلى توجيه العمل. بالنسبة للمستهلكين ، قد تتمكن LLM قريبًا من اقتراح وصفات ثم طلب المكونات التي تحتاجها ، أو اقتراح مكان للإفطار والغداء وحجز طاولة لك. في مجال المؤسسات ، يمكن للمؤسسين تسهيل استخدام تطبيقاتهم عن طريق توصيل LLMs. كما يشير Amodei: "بالنسبة للوظائف التي يصعب جدًا استخدامها من منظور واجهة المستخدم ، قد نحتاج فقط إلى وصفها بلغة طبيعية لتحقيق عمليات معقدة." على سبيل المثال ، بالنسبة لتطبيقات مثل Salesforce ، يجب أن يسمح تكامل LLM للمستخدمين لاستخدام اللغة الطبيعية لإجراء التحديثات وجعل النموذج يقوم تلقائيًا بإجراء هذه التغييرات ، مما يقلل بشكل كبير من الوقت الذي يستغرقه الحفاظ على CRM الخاص بك. مثل cohere [5] وبارع [6] تعمل مثل هذه الشركات الناشئة على دمج LLM في مثل هذه الأدوات المعقدة.
يعتقد غوميز أنه في حين أنه من المرجح بشكل متزايد أن تكون LLMs قادرة على استخدام تطبيقات مثل Excel في غضون عامين ، "لا يزال يتعين إجراء الكثير من التحسينات. سيكون لدينا الجيل الأول من النماذج التي ستكون قادرة على استخدام الأدوات ، وسيكون هذا مقنعًا. "ولكنه هش. في النهاية سيكون لدينا نظام الأحلام حيث يمكننا تسليم أي برنامج إلى النموذج مع بعض الوصف مثل" هذا ما تفعله الأداة ، وإليك كيفية استخدامها "وستكون قادرة على استخدامه ... بمجرد أن نتمكن من تزويد LLM بأدوات محددة وعامة ، فإن الأتمتة التي توفرها ستكون ذروة مجالنا ".
** متعدد الوسائط **
في حين أن واجهات الدردشة مثيرة وبديهية للعديد من المستخدمين ، يمكن للبشر سماع اللغة والتحدث بها بقدر ما يكتبونها أو يقرؤونها ، أو أكثر. كما يشير Amodei: "هناك حد لما يمكن أن يفعله نظام الذكاء الاصطناعي لأنه ليس كل شيء نصًا". يمكن للنموذج الذي يتمتع بقدرات الوسائط المتعددة معالجة وإنشاء محتوى بتنسيقات صوتية أو مرئية متعددة بسلاسة ، مما يوسع هذا التفاعل إلى ما وراء اللغة. نماذج مثل GPT-4 و Character.AI و Meta ImageBind قادرة بالفعل على معالجة وإنشاء الصور والصوت والطرائق الأخرى ، لكن قدراتها في هذا المجال أساسية نسبيًا ، على الرغم من التقدم السريع. على حد تعبير جوميز ، فإن نماذجنا اليوم عمياء فعليًا ، وهذا يحتاج إلى التغيير. لقد أنشأنا الكثير من واجهات المستخدم الرسومية (GUI) التي كان من المفترض أن يراها المستخدم.
نظرًا لتطور LLMs لفهم أساليب متعددة والتفاعل معها بشكل أفضل ، سيكونون قادرين على استخدام التطبيقات الحالية التي تعتمد على واجهات المستخدم الرسومية ، مثل المتصفحات. يمكنهم أيضًا تزويد المستهلكين بتجربة أكثر جاذبية وتماسكًا وشمولية ، مما يتيح تفاعلات المستخدم لتتجاوز واجهات الدردشة. أشار شازير إلى أن "الكثير من التكامل الرائع للنماذج متعددة الوسائط يمكن أن يجعل الأشياء أكثر جاذبية وأكثر ارتباطًا بالمستخدمين". كما قال: "أعتقد أن معظم الذكاء الأساسي الآن يأتي من النص ، ولكن الصوت والفيديو يمكن أن يجعل هذه الأشياء أكثر إثارة للاهتمام. "
ترتبط تعدد الوسائط ارتباطًا وثيقًا باستخدام الأداة. على الرغم من أن LLM قد تتفاعل في البداية مع البرامج الخارجية عبر واجهات برمجة التطبيقات ، فإن الوسائط المتعددة ستمكّن LLM من استخدام الأدوات المصممة للاستهلاك البشري ولكن بدون تكامل مخصص ، مثل أنظمة تخطيط موارد المؤسسات التقليدية (ERP) أو تطبيقات سطح المكتب أو الأجهزة الطبية أو آلات التصنيع. لقد رأينا بالفعل تقدمًا مثيرًا في هذا الصدد: على سبيل المثال ، يمكن لنموذج Med-PaLM-2 من Google توليف تصوير الثدي بالأشعة السينية وصور الأشعة السينية. وعلى المدى الطويل ، يمكن للوسائط المتعددة (خاصة التكامل مع رؤية الكمبيوتر) أن توسع LLMs إلى واقعنا المادي من خلال الروبوتات والمركبات المستقلة والتطبيقات الأخرى التي تتطلب تفاعلًا في الوقت الفعلي مع العالم المادي.
على الرغم من بعض القيود العملية على LLMs ، قام الباحثون بإجراء تحسينات مذهلة على هذه النماذج في فترة زمنية قصيرة. حقيقة أننا قمنا بتحديثه عدة مرات حتى كتابة هذه السطور هي شهادة على التطور السريع للتكنولوجيا في هذا المجال. يوافق جوميز: "مرة واحدة من أصل 20 ، اختلقت LLM حقيقة أنه من الواضح أنها لا تزال مرتفعة للغاية. لكنني حقًا ، واثق حقًا أن هذه هي المرة الأولى التي نبني فيها نظامًا كهذا. توقعات الناس عالية جدًا ، لذلك كان الهدف من "أجهزة الكمبيوتر غبية ، يمكنها فقط إجراء الرياضيات" إلى "ربما يمكن للإنسان أن يؤدي بشكل أفضل." لقد ردمنا الفجوة بما يكفي بحيث يركز النقد على ما يمكن أن يفعله البشر.
نحن متحمسون بشكل خاص للابتكارات الأربعة التالية التي وصلت إلى نقطة التحول في تغيير الطريقة التي يبني بها رواد الأعمال المنتجات ويديرون الشركات. على المدى الطويل ، تكون الإمكانات أكبر. يتوقع أمودي: "في مرحلة ما ، قد يكون لدينا نموذج يمكنه قراءة جميع البيانات البيولوجية ومعرفة علاج للسرطان". والحقيقة هي أن أفضل التطبيقات الجديدة قد لا تزال غير معروفة. في Character.AI ، يتيح Shazeer للمستخدمين تطوير حالات الاستخدام هذه: "سنرى الكثير من التطبيقات الجديدة غير مقفلة. من الصعب بالنسبة لي معرفة ماهية هذه التطبيقات. سيكون هناك ملايين التطبيقات ، وسيتجاوز عدد المستخدمين قليل. "المهندسون أفضل في معرفة كيفية استخدام التكنولوجيا." لا يسعنا الانتظار لنرى كيف ستؤثر هذه التطورات على الطريقة التي نعيش ونعمل بها كرواد أعمال وشركات ، حيث تعمل هذه الأدوات والقدرات الجديدة على تمكيننا.