Великі мовні моделі (LLM) стали гарячою темою в технологічній індустрії, надаючи нам неймовірний досвід — від написання тижневого коду за лічені секунди до створення більш чуйних розмов, ніж ми ведемо з людьми. Навчаючись на трильйонах токенів даних із використанням десятків тисяч графічних процесорів, магістри LLM демонструють надзвичайне розуміння природної мови та трансформують такі галузі, як копірайтинг і кодування, штовхаючи нас у нову та захоплюючу еру генеративного ШІ. Як і будь-яка нова технологія, генеративний штучний інтелект викликає неабияку частку критики. Хоча ця критика частково відображає обмеження поточних можливостей LLM, ми розглядаємо ці перешкоди як можливості для подальших інновацій, а не як фундаментальні недоліки технології.
Щоб краще зрозуміти останні технологічні прориви в LLMs і підготувати засновників і операторів до майбутнього, ми поспілкувалися з деякими з провідних дослідників генеративного штучного інтелекту, які активно створюють і тренують деякі з найбільших і найсучасніших моделей, зокрема Даріо Амодей, генеральний директор з Anthropic, Ейдан Гомес, генеральний директор Cohere, Ноам Шазір, генеральний директор Character.AI, і Йоав Шохам з AI21 Labs. Ці розмови визначили 4 ключові інноваційні напрямки майбутнього: орієнтування, пам’ять, «руки та ноги» та мультимодальність. У цій статті ми обговорюємо, як ці ключові інновації розвиватимуться протягом наступних 6-12 місяців і як засновники, зацікавлені в інтеграції ШІ у власний бізнес, можуть скористатися цими новими розробками. **
гід
Багато засновників висловлюють занепокоєння щодо використання LLM у своїх продуктах і робочих процесах через можливість галюцинацій і упередженості відтворення від цих моделей. Щоб вирішити ці проблеми, деякі провідні компанії, що займаються моделюванням, працюють над удосконаленням техніки керування — методом кращого контролю результатів моделі на виході LLM, що дозволяє моделям краще розуміти та виконувати складні вимоги користувача. У цьому відношенні Ноам Шазір згадав про схожість між LLM і дітьми: «Це питання, як краще завантажувати [моделі]... Проблема, яку ми маємо з LLM, полягає в тому, що нам потрібен правильний спосіб сказати їм, як слідувати Діючи за нашими вимоги. Маленькі діти такі самі – вони іноді щось вигадують і не мають чіткого розуміння фантазії та реальності". Хоча після появи постачальників моделей та інструментів, таких як Guardrails і LMQL, з точки зору здатності до орієнтації [1] Було досягнуто значного прогресу, і дослідники все ще досягають прогресу, що, на нашу думку, має вирішальне значення для кращого виробництва LLM для кінцевих користувачів.
Покращена орієнтація особливо важлива в корпоративних компаніях, де наслідки непередбачуваної поведінки можуть дорого коштувати. Амодей зазначив, що непередбачуваність LLM може викликати у людей дискомфорт, і як постачальник API, він хоче мати можливість «сказати клієнтам «ні, моделі цього не роблять» або, принаймні, рідко роблять». Удосконалюючи LLM. вихід, засновники можуть більш впевнено переконатися, що продуктивність моделі відповідає потребам клієнтів. Покращена орієнтація також прокладе шлях для широкого впровадження в інших галузях, які вимагають більшої точності та надійності, таких як рекламна індустрія, де ставки на розміщення реклами високі. Amodei також вважає, що покращену орієнтацію можна застосувати до «випадків юридичного використання, медичних випадків, зберігання фінансової інформації та управління фінансовими ставками, а також сценаріїв, коли вам потрібно захистити бренд вашої компанії. Ви не хочете, щоб технологія, яку ви інтегруєте, бути непередбачуваним або важко передбачити чи охарактеризувати. «Краще орієнтуючись, LLM також зможуть виконувати складніші завдання з невеликою кількістю підказок, тому що вони зможуть краще зрозуміти загальний намір».
Досягнення в орієнтації LLM також можуть відкрити нові можливості в чутливих споживчих програмах, де користувачі очікують індивідуальних і точних відповідей. У той час як користувачі можуть терпіти менш точні результати під час розмови чи творчої взаємодії з LLM, коли користувачі використовують LLM для допомоги у повсякденних завданнях, скерування важливих рішень або підсилення професіоналів, таких як лайф-коучі, терапевти та лікарі, вони хочуть точніших результатів. Було зазначено, що очікується, що LLM замінять добре налагоджені споживчі програми, такі як пошук, але перш ніж це стане реальною можливістю, нам можуть знадобитися кращі вказівки для покращення результатів моделі та зміцнення довіри користувачів.
Ключовий момент прориву: користувачі можуть краще налаштувати вихідні дані LLMS. *
пам'ять
Програми для копірайтингу та генерації реклами, керовані магістрами LLM, досягли великого успіху, швидко набираючи популярності серед маркетологів, рекламодавців і підприємців. Однак результати більшості поточних LLM є відносно узагальненими, що ускладнює їх використання для випадків використання, які потребують персоналізації та розуміння контексту. Хоча розробка підказок і точне налаштування можуть забезпечити певний ступінь персоналізації, розробка підказок є менш масштабованою, а тонке налаштування часто є дорогим, оскільки вимагає певного рівня перепідготовки та зазвичай вимагає тісної співпраці з більшістю LLM із закритим кодом. Тонка настройка моделі для кожного окремого користувача зазвичай неможлива або бажана.
Контекстне навчання є святим Граалем, щоб це сталося, де магістратури беруть інформацію з контенту, створеного вашою компанією, жаргону вашої компанії та конкретного контексту для створення більш детального результату, орієнтованого на конкретний випадок використання. Для досягнення цієї мети LLMs потребують розширених можливостей пам’яті. Пам'ять LLM складається з двох основних компонентів: контекстних вікон і пошуку. Контекстне вікно — це текст, який модель може обробляти та використовувати для керування виводом, на додаток до корпусу даних, на якому вона навчалася. Пошук відноситься до пошуку та посилання на відповідну інформацію та документи («контекстні дані») з корпусу даних, відмінного від навчального корпусу даних моделі. На даний момент більшість LLM мають обмежені вікна контексту і не можуть отримати додаткову інформацію, таким чином генеруючи вихідні дані, які не мають персоналізації. Однак завдяки більшим вікнам контексту та покращеному пошуку LLM можуть безпосередньо надавати більш детальні вихідні дані, що стосуються конкретного випадку використання.
Зокрема, завдяки розширенню контекстного вікна модель зможе обробляти більші обсяги тексту та краще зберігати контекст, у тому числі підтримувати узгодженість діалогу. Це ще більше значно покращить здатність моделі виконувати завдання, які вимагають глибшого розуміння більш довгих вхідних даних, таких як резюмування довгих текстів або генерування зв’язних і контекстуально точних відповідей під час довгих розмов. Що стосується контекстних вікон, ми побачили значні покращення – GPT-4 має контекстні вікна 8k і 32k токенів, порівняно з 4k і 16k токенів для GPT-3.5 і ChatGPT, і Клод нещодавно переніс його контекстне вікно розширюється до приголомшливих 100k жетони [2] .
Одне розширення контекстного вікна недостатньо покращує пам’ять, оскільки вартість і час виведення масштабуються квазілінійно або навіть квадратично з довжиною підказки. [3] Механізм пошуку доповнює та вдосконалює оригінальний навчальний корпус LLM за допомогою контекстних даних, пов’язаних із підказкою. Оскільки LLM навчаються на основі інформації, яку часто важко оновлювати, пошук має дві головні переваги, за словами Шохама: «По-перше, це дозволяє отримати доступ до джерел інформації, яких у вас не було під час навчання. По-друге, це дозволяє Ви можете зосередити мовну модель на інформації, яка, на вашу думку, має відношення до завдання." Векторні бази даних, такі як Pinecone, стали фактичним стандартом для ефективного отримання релевантної інформації та служать рівнем пам’яті для LLM, полегшуючи моделі швидкий і точний пошук і посилання на величезну кількість інформації правильні дані в .
Збільшення контекстних вікон і пошуку буде особливо важливим у корпоративних випадках використання, таких як навігація великими базами знань або складними базами даних. Компанії зможуть краще використовувати свої власні дані, такі як внутрішні знання, історичні запити підтримки клієнтів або фінансові результати, як вхідні дані для LLM без тонкого налаштування. Поліпшення пам’яті LLM принесе покращення та можливості глибокого налаштування в таких сферах, як навчання, звітність, внутрішній пошук, аналітика даних і бізнес-аналітика, а також підтримка клієнтів.
У споживацькому просторі покращені контекстні вікна та пошук забезпечать потужні можливості персоналізації, які революціонізують досвід користувача. За словами Ноама Шазіра, "Одним із великих проривів стане розробка моделі з дуже великим об’ємом пам’яті, яку можна налаштувати для кожного користувача, але при цьому залишатися економічно ефективним у масштабі. Ви хочете, щоб ваш терапевт знав кожен ваш аспект життя; ви хочете, щоб ваші вчителі знали те, що ви вже знаєте; ви хочете, щоб ваші наставники з життя могли порадити вам, що відбувається. Їм усім потрібен контекст». «Надавши моделі доступ до даних, які мають унікальне значення для вас, як-от ваша електронна пошта, календар або прямі повідомлення, — сказав він, — модель дізнається про ваші стосунки з іншими, щоб допомогти вам найкращим чином за обставин. ."
*Ключовий прорив: LLM зможуть розглядати великі обсяги релевантної інформації та надавати більш особисті, індивідуальні та корисні результати. *
** «Руки та ноги»: надає моделі можливість використовувати інструменти**
Справжня сила LLM полягає в тому, щоб зробити природну мову засобом для дій. LLM мають глибоке розуміння загальних і добре задокументованих систем, але вони не можуть забезпечити дотримання будь-якої інформації, отриманої з цих систем. Наприклад, ChatGPT від OpenAI, Claude від Anthropic і Lily від Character AI можуть детально описати, як забронювати рейс, але вони не можуть самостійно забронювати авіаквитки (хоча технологічний прогрес, як-от плагіни ChatGPT, розсуває цю межу). "Цей мозок теоретично володіє всіма цими знаннями, йому лише бракує відображення від імен до кнопок, - сказав Амодей. - Щоб з'єднати ці кабелі, не потрібно багато тренуватися. У вас є безтілесний мозок, який знає, як рухатися, але він ще не прикріплений до рук і ніг».
З часом ми бачили, як компанії вдосконалюють здатність магістрів права використовувати інструменти. Відомі компанії, такі як Bing і Google, і стартапи, такі як Perplexity і You.com, запустили пошукові API. AI21 Labs представила Jurassic-X, яка усуває багато недоліків автономних LLM, поєднуючи моделі з набором заздалегідь визначених інструментів, включаючи калькулятори, API погоди, API Wikipedia та бази даних. OpenAI запустив бета-версію плагіна для ChatGPT, який дозволяє ChatGPT взаємодіяти з такими інструментами, як Expedia, OpenTable, Wolfram, Instacart, Speak, веб-браузерами та інтерпретаторами коду, прорив, який, як вважають, нагадує момент «App Store» Apple. Нещодавно OpenAI представив виклики функцій у GPT-3.5 і GPT-4 [4] , що дозволяє розробникам пов’язувати можливості GPT із будь-якими зовнішніми інструментами.
Можливість додавання рук і ніг обіцяє створити низку варіантів використання для різноманітних компаній і типів користувачів шляхом переходу від видобутку знань до орієнтації на дії. Для споживачів магістри магістра права можуть незабаром пропонувати рецепти, а потім замовляти потрібні вам інгредієнти або запропонувати місце для сніданку та забронювати для вас столик. У корпоративному просторі засновники можуть полегшити використання своїх програм, підключивши LLM. Як зазначає Амодей: «Для функцій, які дуже важко використовувати з точки зору інтерфейсу користувача, нам може знадобитися лише описати їх природною мовою, щоб досягти складних операцій.» Наприклад, для таких програм, як Salesforce, інтеграція LLM має дозволити користувачам використовувати природну мову для внесення оновлень, а модель автоматично вносити ці зміни, що значно скорочує час, необхідний для підтримки вашої CRM. як cohere [5] і адепт [6] Такі стартапи працюють над інтеграцією LLM в такі складні інструменти.
Гомес вважає, що хоча ймовірність того, що магістратури зможуть використовувати такі програми, як Excel, стає дедалі більшою за 2 роки, «потрібно ще багато вдосконалити. У нас буде перше покоління моделей, які зможуть використовувати інструменти, і це буде переконливо". Але крихка. Зрештою ми матимемо систему мрії, де ми можемо передати будь-яке програмне забезпечення моделі з описом на зразок "ось що робить інструмент, ось як ним користуватися", і це буде спроможні використовувати його ... як тільки ми зможемо надати магістрам права спеціальні та загальні інструменти, автоматизація, яку він приносить, стане вершиною нашої галузі».
*Ключовий прорив: LLM зможуть ефективніше взаємодіяти з інструментами, які ми використовуємо сьогодні. *
мультимодальний
Незважаючи на те, що інтерфейс чату захоплюючий та інтуїтивно зрозумілий для багатьох користувачів, люди можуть чути та розмовляти мовою так часто, як вони пишуть або читають її, або більше. Як зазначає Амодей: «Існує обмеження на те, що може робити система штучного інтелекту, тому що не все є текстом». Модель з мультимодальними можливостями може безперебійно обробляти та генерувати вміст у кількох аудіо- чи візуальних форматах, розширюючи цю взаємодію за межі мови. Такі моделі, як GPT-4, Character.AI і ImageBind від Meta, вже здатні обробляти та генерувати зображення, аудіо та інші модальності, але їхні можливості в цій області відносно базові, хоча прогрес швидкий. За словами Гомеса, сьогодні наші моделі буквально сліпі, і це потрібно змінити. Ми створили багато графічних інтерфейсів користувача (GUI), які мали бачити користувачі.
У міру розвитку LLM, щоб краще розуміти та взаємодіяти з різними модальностями, вони зможуть використовувати існуючі програми, які покладаються на GUI, такі як браузери. Вони також можуть надати споживачам більш привабливий, послідовний і цілісний досвід, дозволяючи взаємодії користувачів виходити за рамки інтерфейсів чату. «Багато чудових інтеграцій мультимодальних моделей може зробити речі більш привабливими та більш пов’язаними з користувачами», — зауважив Шазір. Він також сказав: «Я думаю, що більшість основного інтелекту зараз надходить із тексту, але аудіо та відео можуть зробити ці речі». від відеочату з інструкторами зі штучного інтелекту до ітерації та написання сценаріїв телевізійних драм у співпраці зі штучним інтелектом, мультимодальність має потенціал трансформувати розваги, навчання та розвиток, а також генерацію контенту для різноманітних споживчих і корпоративних випадків використання.
Мультимодальність тісно пов’язана з використанням інструментів. Незважаючи на те, що LLM спочатку можуть взаємодіяти із зовнішнім програмним забезпеченням через API, мультимодальність дозволить LLM використовувати інструменти, призначені для споживання людиною, але без індивідуальної інтеграції, такі як традиційні системи планування ресурсів підприємства (ERP), настільні програми, медичні пристрої або виробниче обладнання. Ми вже побачили захоплюючий прогрес у цьому відношенні: наприклад, модель Google Med-PaLM-2 може синтезувати мамографічні та рентгенівські зображення. А в довгостроковій перспективі мультимодальність (особливо інтеграція з комп’ютерним зором) може розширити LLMs на нашу власну фізичну реальність через робототехніку, автономні транспортні засоби та інші програми, які потребують взаємодії з фізичним світом у реальному часі.
*Ключовий прорив: мультимодальні моделі здатні міркувати про зображення, відео та навіть фізичне середовище без значних налаштувань. *
Незважаючи на деякі практичні обмеження LLM, дослідники внесли дивовижні покращення в ці моделі за короткий проміжок часу. Той факт, що ми кілька разів оновлювали його на момент написання цієї статті, є свідченням швидкого розвитку технологій у цій галузі. Гомес погоджується: «Один раз із 20 LLM вигадав той факт, що він, очевидно, все ще зависокий. Але я справді, дуже впевнений, що ми вперше створили таку систему. Очікування людей досить високі. , тому мета була від «Комп’ютери тупі, вони можуть робити лише математику» до «Людина, ймовірно, могла б зробити краще». Ми достатньо подолали розрив, щоб критика зосередилася на тому, що можуть робити люди».
Ми особливо раді наступним чотирьом інноваціям, які знаходяться на переломній точці зміни того, як підприємці створюють продукти та керують компаніями. У довгостроковій перспективі потенціал ще більший. Амодей прогнозує: «У якийсь момент ми можемо мати модель, яка зможе зчитувати всі біологічні дані та знайти ліки від раку.» Реальність така, що найкращі нові програми можуть бути ще невідомими. У Character.AI Shazeer дозволяє користувачам розробляти такі варіанти використання: «Ми побачимо, що буде розблоковано багато нових програм. Мені важко сказати, що це за програми. Будуть мільйони програм, і користувачів буде більше, ніж Інженери краще розуміють, як використовувати технології». Ми не можемо дочекатися, щоб побачити, як ці досягнення вплинуть на те, як ми живемо та працюємо як підприємці та компанії, оскільки ці нові інструменти та можливості дають нам більше можливостей.
*Дякую Метту Борнштейну, Гвідо Аппенцеллеру та Райко Радовановичу за їхні коментарі та відгуки під час написання. *
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
A16Z: 4 прориви в генеративному ШІ
Великі мовні моделі (LLM) стали гарячою темою в технологічній індустрії, надаючи нам неймовірний досвід — від написання тижневого коду за лічені секунди до створення більш чуйних розмов, ніж ми ведемо з людьми. Навчаючись на трильйонах токенів даних із використанням десятків тисяч графічних процесорів, магістри LLM демонструють надзвичайне розуміння природної мови та трансформують такі галузі, як копірайтинг і кодування, штовхаючи нас у нову та захоплюючу еру генеративного ШІ. Як і будь-яка нова технологія, генеративний штучний інтелект викликає неабияку частку критики. Хоча ця критика частково відображає обмеження поточних можливостей LLM, ми розглядаємо ці перешкоди як можливості для подальших інновацій, а не як фундаментальні недоліки технології.
Щоб краще зрозуміти останні технологічні прориви в LLMs і підготувати засновників і операторів до майбутнього, ми поспілкувалися з деякими з провідних дослідників генеративного штучного інтелекту, які активно створюють і тренують деякі з найбільших і найсучасніших моделей, зокрема Даріо Амодей, генеральний директор з Anthropic, Ейдан Гомес, генеральний директор Cohere, Ноам Шазір, генеральний директор Character.AI, і Йоав Шохам з AI21 Labs. Ці розмови визначили 4 ключові інноваційні напрямки майбутнього: орієнтування, пам’ять, «руки та ноги» та мультимодальність. У цій статті ми обговорюємо, як ці ключові інновації розвиватимуться протягом наступних 6-12 місяців і як засновники, зацікавлені в інтеграції ШІ у власний бізнес, можуть скористатися цими новими розробками. **
гід
Багато засновників висловлюють занепокоєння щодо використання LLM у своїх продуктах і робочих процесах через можливість галюцинацій і упередженості відтворення від цих моделей. Щоб вирішити ці проблеми, деякі провідні компанії, що займаються моделюванням, працюють над удосконаленням техніки керування — методом кращого контролю результатів моделі на виході LLM, що дозволяє моделям краще розуміти та виконувати складні вимоги користувача. У цьому відношенні Ноам Шазір згадав про схожість між LLM і дітьми: «Це питання, як краще завантажувати [моделі]... Проблема, яку ми маємо з LLM, полягає в тому, що нам потрібен правильний спосіб сказати їм, як слідувати Діючи за нашими вимоги. Маленькі діти такі самі – вони іноді щось вигадують і не мають чіткого розуміння фантазії та реальності". Хоча після появи постачальників моделей та інструментів, таких як Guardrails і LMQL, з точки зору здатності до орієнтації [1] Було досягнуто значного прогресу, і дослідники все ще досягають прогресу, що, на нашу думку, має вирішальне значення для кращого виробництва LLM для кінцевих користувачів.
Покращена орієнтація особливо важлива в корпоративних компаніях, де наслідки непередбачуваної поведінки можуть дорого коштувати. Амодей зазначив, що непередбачуваність LLM може викликати у людей дискомфорт, і як постачальник API, він хоче мати можливість «сказати клієнтам «ні, моделі цього не роблять» або, принаймні, рідко роблять». Удосконалюючи LLM. вихід, засновники можуть більш впевнено переконатися, що продуктивність моделі відповідає потребам клієнтів. Покращена орієнтація також прокладе шлях для широкого впровадження в інших галузях, які вимагають більшої точності та надійності, таких як рекламна індустрія, де ставки на розміщення реклами високі. Amodei також вважає, що покращену орієнтацію можна застосувати до «випадків юридичного використання, медичних випадків, зберігання фінансової інформації та управління фінансовими ставками, а також сценаріїв, коли вам потрібно захистити бренд вашої компанії. Ви не хочете, щоб технологія, яку ви інтегруєте, бути непередбачуваним або важко передбачити чи охарактеризувати. «Краще орієнтуючись, LLM також зможуть виконувати складніші завдання з невеликою кількістю підказок, тому що вони зможуть краще зрозуміти загальний намір».
Досягнення в орієнтації LLM також можуть відкрити нові можливості в чутливих споживчих програмах, де користувачі очікують індивідуальних і точних відповідей. У той час як користувачі можуть терпіти менш точні результати під час розмови чи творчої взаємодії з LLM, коли користувачі використовують LLM для допомоги у повсякденних завданнях, скерування важливих рішень або підсилення професіоналів, таких як лайф-коучі, терапевти та лікарі, вони хочуть точніших результатів. Було зазначено, що очікується, що LLM замінять добре налагоджені споживчі програми, такі як пошук, але перш ніж це стане реальною можливістю, нам можуть знадобитися кращі вказівки для покращення результатів моделі та зміцнення довіри користувачів.
пам'ять
Програми для копірайтингу та генерації реклами, керовані магістрами LLM, досягли великого успіху, швидко набираючи популярності серед маркетологів, рекламодавців і підприємців. Однак результати більшості поточних LLM є відносно узагальненими, що ускладнює їх використання для випадків використання, які потребують персоналізації та розуміння контексту. Хоча розробка підказок і точне налаштування можуть забезпечити певний ступінь персоналізації, розробка підказок є менш масштабованою, а тонке налаштування часто є дорогим, оскільки вимагає певного рівня перепідготовки та зазвичай вимагає тісної співпраці з більшістю LLM із закритим кодом. Тонка настройка моделі для кожного окремого користувача зазвичай неможлива або бажана.
Контекстне навчання є святим Граалем, щоб це сталося, де магістратури беруть інформацію з контенту, створеного вашою компанією, жаргону вашої компанії та конкретного контексту для створення більш детального результату, орієнтованого на конкретний випадок використання. Для досягнення цієї мети LLMs потребують розширених можливостей пам’яті. Пам'ять LLM складається з двох основних компонентів: контекстних вікон і пошуку. Контекстне вікно — це текст, який модель може обробляти та використовувати для керування виводом, на додаток до корпусу даних, на якому вона навчалася. Пошук відноситься до пошуку та посилання на відповідну інформацію та документи («контекстні дані») з корпусу даних, відмінного від навчального корпусу даних моделі. На даний момент більшість LLM мають обмежені вікна контексту і не можуть отримати додаткову інформацію, таким чином генеруючи вихідні дані, які не мають персоналізації. Однак завдяки більшим вікнам контексту та покращеному пошуку LLM можуть безпосередньо надавати більш детальні вихідні дані, що стосуються конкретного випадку використання.
Зокрема, завдяки розширенню контекстного вікна модель зможе обробляти більші обсяги тексту та краще зберігати контекст, у тому числі підтримувати узгодженість діалогу. Це ще більше значно покращить здатність моделі виконувати завдання, які вимагають глибшого розуміння більш довгих вхідних даних, таких як резюмування довгих текстів або генерування зв’язних і контекстуально точних відповідей під час довгих розмов. Що стосується контекстних вікон, ми побачили значні покращення – GPT-4 має контекстні вікна 8k і 32k токенів, порівняно з 4k і 16k токенів для GPT-3.5 і ChatGPT, і Клод нещодавно переніс його контекстне вікно розширюється до приголомшливих 100k жетони [2] .
Одне розширення контекстного вікна недостатньо покращує пам’ять, оскільки вартість і час виведення масштабуються квазілінійно або навіть квадратично з довжиною підказки. [3] Механізм пошуку доповнює та вдосконалює оригінальний навчальний корпус LLM за допомогою контекстних даних, пов’язаних із підказкою. Оскільки LLM навчаються на основі інформації, яку часто важко оновлювати, пошук має дві головні переваги, за словами Шохама: «По-перше, це дозволяє отримати доступ до джерел інформації, яких у вас не було під час навчання. По-друге, це дозволяє Ви можете зосередити мовну модель на інформації, яка, на вашу думку, має відношення до завдання." Векторні бази даних, такі як Pinecone, стали фактичним стандартом для ефективного отримання релевантної інформації та служать рівнем пам’яті для LLM, полегшуючи моделі швидкий і точний пошук і посилання на величезну кількість інформації правильні дані в .
Збільшення контекстних вікон і пошуку буде особливо важливим у корпоративних випадках використання, таких як навігація великими базами знань або складними базами даних. Компанії зможуть краще використовувати свої власні дані, такі як внутрішні знання, історичні запити підтримки клієнтів або фінансові результати, як вхідні дані для LLM без тонкого налаштування. Поліпшення пам’яті LLM принесе покращення та можливості глибокого налаштування в таких сферах, як навчання, звітність, внутрішній пошук, аналітика даних і бізнес-аналітика, а також підтримка клієнтів.
У споживацькому просторі покращені контекстні вікна та пошук забезпечать потужні можливості персоналізації, які революціонізують досвід користувача. За словами Ноама Шазіра, "Одним із великих проривів стане розробка моделі з дуже великим об’ємом пам’яті, яку можна налаштувати для кожного користувача, але при цьому залишатися економічно ефективним у масштабі. Ви хочете, щоб ваш терапевт знав кожен ваш аспект життя; ви хочете, щоб ваші вчителі знали те, що ви вже знаєте; ви хочете, щоб ваші наставники з життя могли порадити вам, що відбувається. Їм усім потрібен контекст». «Надавши моделі доступ до даних, які мають унікальне значення для вас, як-от ваша електронна пошта, календар або прямі повідомлення, — сказав він, — модель дізнається про ваші стосунки з іншими, щоб допомогти вам найкращим чином за обставин. ."
*Ключовий прорив: LLM зможуть розглядати великі обсяги релевантної інформації та надавати більш особисті, індивідуальні та корисні результати. *
** «Руки та ноги»: надає моделі можливість використовувати інструменти**
Справжня сила LLM полягає в тому, щоб зробити природну мову засобом для дій. LLM мають глибоке розуміння загальних і добре задокументованих систем, але вони не можуть забезпечити дотримання будь-якої інформації, отриманої з цих систем. Наприклад, ChatGPT від OpenAI, Claude від Anthropic і Lily від Character AI можуть детально описати, як забронювати рейс, але вони не можуть самостійно забронювати авіаквитки (хоча технологічний прогрес, як-от плагіни ChatGPT, розсуває цю межу). "Цей мозок теоретично володіє всіма цими знаннями, йому лише бракує відображення від імен до кнопок, - сказав Амодей. - Щоб з'єднати ці кабелі, не потрібно багато тренуватися. У вас є безтілесний мозок, який знає, як рухатися, але він ще не прикріплений до рук і ніг».
З часом ми бачили, як компанії вдосконалюють здатність магістрів права використовувати інструменти. Відомі компанії, такі як Bing і Google, і стартапи, такі як Perplexity і You.com, запустили пошукові API. AI21 Labs представила Jurassic-X, яка усуває багато недоліків автономних LLM, поєднуючи моделі з набором заздалегідь визначених інструментів, включаючи калькулятори, API погоди, API Wikipedia та бази даних. OpenAI запустив бета-версію плагіна для ChatGPT, який дозволяє ChatGPT взаємодіяти з такими інструментами, як Expedia, OpenTable, Wolfram, Instacart, Speak, веб-браузерами та інтерпретаторами коду, прорив, який, як вважають, нагадує момент «App Store» Apple. Нещодавно OpenAI представив виклики функцій у GPT-3.5 і GPT-4 [4] , що дозволяє розробникам пов’язувати можливості GPT із будь-якими зовнішніми інструментами.
Можливість додавання рук і ніг обіцяє створити низку варіантів використання для різноманітних компаній і типів користувачів шляхом переходу від видобутку знань до орієнтації на дії. Для споживачів магістри магістра права можуть незабаром пропонувати рецепти, а потім замовляти потрібні вам інгредієнти або запропонувати місце для сніданку та забронювати для вас столик. У корпоративному просторі засновники можуть полегшити використання своїх програм, підключивши LLM. Як зазначає Амодей: «Для функцій, які дуже важко використовувати з точки зору інтерфейсу користувача, нам може знадобитися лише описати їх природною мовою, щоб досягти складних операцій.» Наприклад, для таких програм, як Salesforce, інтеграція LLM має дозволити користувачам використовувати природну мову для внесення оновлень, а модель автоматично вносити ці зміни, що значно скорочує час, необхідний для підтримки вашої CRM. як cohere [5] і адепт [6] Такі стартапи працюють над інтеграцією LLM в такі складні інструменти.
Гомес вважає, що хоча ймовірність того, що магістратури зможуть використовувати такі програми, як Excel, стає дедалі більшою за 2 роки, «потрібно ще багато вдосконалити. У нас буде перше покоління моделей, які зможуть використовувати інструменти, і це буде переконливо". Але крихка. Зрештою ми матимемо систему мрії, де ми можемо передати будь-яке програмне забезпечення моделі з описом на зразок "ось що робить інструмент, ось як ним користуватися", і це буде спроможні використовувати його ... як тільки ми зможемо надати магістрам права спеціальні та загальні інструменти, автоматизація, яку він приносить, стане вершиною нашої галузі».
*Ключовий прорив: LLM зможуть ефективніше взаємодіяти з інструментами, які ми використовуємо сьогодні. *
мультимодальний
Незважаючи на те, що інтерфейс чату захоплюючий та інтуїтивно зрозумілий для багатьох користувачів, люди можуть чути та розмовляти мовою так часто, як вони пишуть або читають її, або більше. Як зазначає Амодей: «Існує обмеження на те, що може робити система штучного інтелекту, тому що не все є текстом». Модель з мультимодальними можливостями може безперебійно обробляти та генерувати вміст у кількох аудіо- чи візуальних форматах, розширюючи цю взаємодію за межі мови. Такі моделі, як GPT-4, Character.AI і ImageBind від Meta, вже здатні обробляти та генерувати зображення, аудіо та інші модальності, але їхні можливості в цій області відносно базові, хоча прогрес швидкий. За словами Гомеса, сьогодні наші моделі буквально сліпі, і це потрібно змінити. Ми створили багато графічних інтерфейсів користувача (GUI), які мали бачити користувачі.
У міру розвитку LLM, щоб краще розуміти та взаємодіяти з різними модальностями, вони зможуть використовувати існуючі програми, які покладаються на GUI, такі як браузери. Вони також можуть надати споживачам більш привабливий, послідовний і цілісний досвід, дозволяючи взаємодії користувачів виходити за рамки інтерфейсів чату. «Багато чудових інтеграцій мультимодальних моделей може зробити речі більш привабливими та більш пов’язаними з користувачами», — зауважив Шазір. Він також сказав: «Я думаю, що більшість основного інтелекту зараз надходить із тексту, але аудіо та відео можуть зробити ці речі». від відеочату з інструкторами зі штучного інтелекту до ітерації та написання сценаріїв телевізійних драм у співпраці зі штучним інтелектом, мультимодальність має потенціал трансформувати розваги, навчання та розвиток, а також генерацію контенту для різноманітних споживчих і корпоративних випадків використання.
Мультимодальність тісно пов’язана з використанням інструментів. Незважаючи на те, що LLM спочатку можуть взаємодіяти із зовнішнім програмним забезпеченням через API, мультимодальність дозволить LLM використовувати інструменти, призначені для споживання людиною, але без індивідуальної інтеграції, такі як традиційні системи планування ресурсів підприємства (ERP), настільні програми, медичні пристрої або виробниче обладнання. Ми вже побачили захоплюючий прогрес у цьому відношенні: наприклад, модель Google Med-PaLM-2 може синтезувати мамографічні та рентгенівські зображення. А в довгостроковій перспективі мультимодальність (особливо інтеграція з комп’ютерним зором) може розширити LLMs на нашу власну фізичну реальність через робототехніку, автономні транспортні засоби та інші програми, які потребують взаємодії з фізичним світом у реальному часі.
*Ключовий прорив: мультимодальні моделі здатні міркувати про зображення, відео та навіть фізичне середовище без значних налаштувань. *
Незважаючи на деякі практичні обмеження LLM, дослідники внесли дивовижні покращення в ці моделі за короткий проміжок часу. Той факт, що ми кілька разів оновлювали його на момент написання цієї статті, є свідченням швидкого розвитку технологій у цій галузі. Гомес погоджується: «Один раз із 20 LLM вигадав той факт, що він, очевидно, все ще зависокий. Але я справді, дуже впевнений, що ми вперше створили таку систему. Очікування людей досить високі. , тому мета була від «Комп’ютери тупі, вони можуть робити лише математику» до «Людина, ймовірно, могла б зробити краще». Ми достатньо подолали розрив, щоб критика зосередилася на тому, що можуть робити люди».
Ми особливо раді наступним чотирьом інноваціям, які знаходяться на переломній точці зміни того, як підприємці створюють продукти та керують компаніями. У довгостроковій перспективі потенціал ще більший. Амодей прогнозує: «У якийсь момент ми можемо мати модель, яка зможе зчитувати всі біологічні дані та знайти ліки від раку.» Реальність така, що найкращі нові програми можуть бути ще невідомими. У Character.AI Shazeer дозволяє користувачам розробляти такі варіанти використання: «Ми побачимо, що буде розблоковано багато нових програм. Мені важко сказати, що це за програми. Будуть мільйони програм, і користувачів буде більше, ніж Інженери краще розуміють, як використовувати технології». Ми не можемо дочекатися, щоб побачити, як ці досягнення вплинуть на те, як ми живемо та працюємо як підприємці та компанії, оскільки ці нові інструменти та можливості дають нам більше можливостей.
*Дякую Метту Борнштейну, Гвідо Аппенцеллеру та Райко Радовановичу за їхні коментарі та відгуки під час написання. *