Большие языковые модели (LLM) стали горячей темой в технологической индустрии, давая нам удивительный опыт — от написания недельного кода за считанные секунды до создания более чутких разговоров, чем у нас с людьми. Обученные на триллионах токенов данных с использованием десятков тысяч графических процессоров, LLM демонстрируют замечательное понимание естественного языка и трансформируют такие области, как копирайтинг и кодирование, подталкивая нас к новой и захватывающей эре генеративного ИИ. Как и любая новая технология, генеративный ИИ подвергается справедливой критике. Хотя эта критика частично отражает ограничения текущих возможностей LLM, мы рассматриваем эти препятствия как возможности для дальнейших инноваций, а не как фундаментальные недостатки технологии.
Чтобы лучше понять недавние технологические прорывы в LLM и подготовить основателей и операторов к будущему, мы поговорили с некоторыми из ведущих исследователей генеративного ИИ, которые активно создают и обучают некоторые из самых крупных и передовых моделей. В их число входит Дарио Амодеи, генеральный директор из Anthropic, Эйдан Гомес, генеральный директор Cohere, Ноам Шазир, генеральный директор Character.AI, и Йоав Шохам из AI21 Labs. Эти беседы определили 4 ключевых направления инноваций на будущее: руководство, память, «руки и ноги» и мультимодальность. В этой статье мы обсудим, как эти ключевые инновации будут развиваться в течение следующих 6–12 месяцев, и как основатели, заинтересованные в интеграции ИИ в свой бизнес, могут воспользоваться этими новыми разработками. **
гид
Многие основатели выражают обеспокоенность по поводу использования LLM в своих продуктах и рабочих процессах из-за возможности галлюцинаций и предвзятости воспроизведения этих моделей. Чтобы решить эти проблемы, некоторые ведущие компании, занимающиеся моделированием, работают над улучшением методов управления — метода лучшего контроля результатов модели в выходных данных LLM, позволяющего моделям лучше понимать и выполнять сложные требования пользователя. Ноам Шазир упомянул сходство между LLM и детьми в этом отношении: «Вопрос в том, как лучше загружать [модели]... Проблема, с которой мы сталкиваемся с LLM, заключается в том, что нам нужен правильный способ рассказать им, как следовать действиям в соответствии с нашими требования. Маленькие дети такие же - они иногда выдумывают и не имеют четкого понимания фантазии и реальности». Хотя после появления поставщиков моделей и инструментов, таких как Guardrails и LMQL, с точки зрения способности ориентироваться [1] Был достигнут заметный прогресс, и исследователи все еще добиваются прогресса, который, по нашему мнению, имеет решающее значение для улучшения продуктов LLM для конечных пользователей.
Улучшение ориентации особенно важно в корпоративных компаниях, где последствия непредсказуемого поведения могут дорого обойтись. Амодей отметил, что непредсказуемость LLM может вызывать у людей дискомфорт, и как поставщик API он хочет иметь возможность «говорить клиентам: «Нет, модели этого не делают» или, по крайней мере, делают это редко». выход, основатели могут более уверенно гарантировать, что производительность модели соответствует потребностям клиентов. Улучшенная ориентация также проложит путь к широкому внедрению в других отраслях, требующих большей точности и надежности, таких как рекламная индустрия, где ставки на размещение рекламы высоки. Амодей также считает, что улучшенная ориентация может применяться к «юридическим случаям использования, случаям использования в медицине, хранению финансовой информации и управлению финансовыми ставками, а также сценариям, когда вам необходимо защитить бренд вашей компании. Вы не хотите, чтобы технология, которую вы интегрируете, была непредсказуемы или трудно предсказать или охарактеризовать. «Благодаря лучшей ориентации, LLM также смогут выполнять более сложные задачи с небольшим количеством инженерных подсказок, потому что они смогут лучше понять общее намерение».
Достижения в ориентации LLM также могут открыть новые возможности в чувствительных потребительских приложениях, где пользователи ожидают индивидуальных и точных ответов. В то время как пользователи могут мириться с менее точными выводами при разговоре или творческом взаимодействии с LLM, когда пользователи используют LLM для помощи в повседневных задачах, принятия важных решений или повышения квалификации специалистов, таких как лайф-коучи, терапевты и врачи, им нужен более точный результат. Было указано, что ожидается, что LLM заменят хорошо зарекомендовавшие себя потребительские приложения, такие как поиск, но прежде чем это станет реальной возможностью, нам может потребоваться более эффективное руководство для улучшения результатов модели и укрепления доверия пользователей.
Ключевой прорыв: пользователи могут лучше настраивать вывод LLMS. *
Память
Приложения для копирайтинга и создания рекламы, управляемые LLM, достигли большого успеха и быстро завоевали популярность среди маркетологов, рекламодателей и предпринимателей. Однако выходные данные большинства современных LLM относительно обобщены, что затрудняет их использование в случаях, требующих персонализации и понимания контекста. В то время как разработка подсказок и точная настройка могут обеспечить определенную степень персонализации, разработка подсказок менее масштабируема, а точная настройка часто является дорогостоящей, поскольку требует некоторой степени переобучения и обычно требует тесного сотрудничества с большинством LLM с закрытым исходным кодом. Точная настройка модели для каждого отдельного пользователя обычно невозможна или нежелательна.
Контекстное обучение — это святой Грааль, чтобы это произошло, когда LLM берут информацию из контента, созданного вашей компанией, жаргона вашей компании и конкретного контекста, чтобы создавать более детализированные выходные данные для конкретных случаев использования. Для достижения этой цели LLM нуждаются в расширенных возможностях памяти. Память LLM состоит из двух основных компонентов: контекстных окон и поиска. Контекстное окно — это текст, который модель может обрабатывать и использовать для управления выводом в дополнение к корпусу данных, на которых она обучалась. Поиск относится к поиску и ссылке на соответствующую информацию и документы («контекстные данные») из массива данных, отличного от корпуса обучающих данных модели. В настоящее время большинство LLM имеют ограниченные контекстные окна и не могут изначально извлекать дополнительную информацию, таким образом генерируя выходные данные, которым не хватает персонализации. Однако благодаря более крупным окнам контекста и улучшенному поиску LLM могут напрямую предоставлять более детализированные выходные данные для конкретных случаев использования.
В частности, за счет расширения контекстного окна модель сможет обрабатывать большие объемы текста и лучше сохранять контекст, в том числе поддерживать связность диалога. Это еще больше улучшит возможности модели в задачах, которые требуют более глубокого понимания более длинных входных данных, таких как обобщение длинных текстов или создание связных и контекстуально точных ответов во время длинных разговоров. Что касается окон контекста, мы увидели значительные улучшения — GPT-4 имеет окна контекста с токенами 8k и 32k, по сравнению с токенами 4k и 16k для GPT-3.5 и ChatGPT, и Клод недавно переместил его окно контекста, расширяющееся до ошеломляющих 100k. жетоны [2] 。
Расширение контекстного окна само по себе не улучшает память в достаточной степени, поскольку стоимость и время вывода масштабируются квазилинейно или даже квадратично с длиной подсказки. [3] Механизм поиска дополняет и уточняет исходный обучающий корпус LLM контекстными данными, связанными с репликой. По словам Шохама, поскольку LLM обучаются на массиве информации, которую часто трудно обновлять, поиск имеет два основных преимущества: «Во-первых, он позволяет вам получить доступ к источникам информации, которых у вас не было во время обучения. Во-вторых, он позволяет вам сфокусировать языковую модель на информации, которая, по вашему мнению, имеет отношение к задаче». Векторные базы данных, такие как Pinecone, стали стандартом де-факто для эффективного извлечения релевантной информации и служат уровнем памяти для LLM, упрощая модели для быстро и точно искать и ссылаться на огромные объемы информации, правильные данные в формате .
Увеличенные контекстные окна и поиск будут особенно важны в сценариях корпоративного использования, таких как навигация по большим базам знаний или сложным базам данных. Компании смогут лучше использовать свои собственные данные, такие как внутренние знания, исторические запросы в службу поддержки клиентов или финансовые результаты, в качестве входных данных для LLM без тонкой настройки. Улучшение памяти LLM принесет улучшения и возможности глубокой настройки в таких областях, как обучение, отчетность, внутренний поиск, анализ данных и бизнес-аналитика, а также поддержка клиентов.
В потребительском пространстве улучшенные контекстные окна и поиск обеспечат мощные возможности персонализации, которые произведут революцию в пользовательском опыте. По словам Ноама Шазира, "Одним из больших прорывов будет разработка модели с очень большой емкостью памяти, которую можно настроить для каждого пользователя, оставаясь при этом рентабельной в любом масштабе. Вы хотите, чтобы ваш терапевт знал все аспекты вашей жизни". жизни; вы хотите, чтобы ваши учителя знали то, что вы уже знаете; вы хотите, чтобы ваши тренеры по жизни могли дать вам совет о том, что происходит. Всем им нужен контекст». «Предоставив модели доступ к данным, которые имеют непосредственное отношение к вам, таким как ваша электронная почта, календарь или прямые сообщения, — сказал он, — модель узнает о ваших отношениях с разными людьми, чтобы помочь вам наилучшим образом в данных обстоятельствах. ."
*Ключевой прорыв: LLM смогут рассматривать большие объемы соответствующей информации и предоставлять более личные, индивидуальные и полезные результаты. *
** «Руки и ноги»: дает модели возможность использовать инструменты**
Реальная сила LLM заключается в превращении естественного языка в средство действия. LLM хорошо разбираются в распространенных и хорошо задокументированных системах, но они не могут применять любую информацию, извлеченную из этих систем. Например, ChatGPT от OpenAI, Claude от Anthropic и Lily от Character AI могут подробно описать, как забронировать рейс, но они не могут бронировать рейсы самостоятельно (хотя технологические достижения, такие как плагины ChatGPT, раздвигают эту границу). "Теоретически этот мозг обладает всеми этими знаниями, ему просто не хватает связи между именами и кнопками, - сказал Амодей. - Чтобы соединить эти кабели, не нужно долго тренироваться. У вас есть бестелесный мозг, который знает, как двигаться, но он еще не прикреплен к рукам и ногам».
Со временем мы видели, как компании улучшали способность LLM использовать инструменты. Устоявшиеся компании, такие как Bing и Google, и такие стартапы, как Perplexity и You.com, запустили поисковые API. AI21 Labs представила Jurassic-X, которая устраняет многие недостатки автономных LLM, комбинируя модели с набором предопределенных инструментов, включая калькуляторы, API погоды, API Википедии и базы данных. OpenAI запустила бета-версию плагина для ChatGPT, который позволяет ChatGPT взаимодействовать с такими инструментами, как Expedia, OpenTable, Wolfram, Instacart, Speak, веб-браузерами и интерпретаторами кода, что, как считается, напоминает момент Apple «App Store». Недавно OpenAI представил вызовы функций в GPT-3.5 и GPT-4. [4] , что позволяет разработчикам связать возможности GPT с любыми внешними инструментами.
Возможность добавления рук и ног обещает обеспечить широкий спектр вариантов использования в самых разных компаниях и типах пользователей, переходя от извлечения знаний к ориентации на действия. Для потребителей LLM скоро смогут предлагать рецепты, а затем заказывать необходимые ингредиенты или предлагать место для позднего завтрака и резервировать для вас столик. В корпоративном пространстве основатели могут упростить использование своих приложений, подключив LLM. Как указывает Амодей: «Для функций, которые очень сложно использовать с точки зрения пользовательского интерфейса, нам может потребоваться только описать их на естественном языке для выполнения сложных операций». использовать естественный язык для внесения обновлений, а модель автоматически вносит эти изменения, что значительно сокращает время, необходимое для обслуживания вашей CRM. как сплоченный [5] и Адепт [6] Такие стартапы работают над интеграцией LLM в такие сложные инструменты.
По словам Гомеса, хотя все более вероятно, что LLM смогут использовать такие приложения, как Excel, в течение 2 лет, «все еще необходимо сделать много доработок. У нас будет первое поколение моделей, которые смогут использовать инструменты, и это будет убедительно». Но хрупко. В конце концов у нас будет система мечты, в которой мы можем передать любое программное обеспечение модели с некоторым описанием типа «вот что инструмент делает, вот как его использовать», и это сможет использовать его ... как только мы сможем предоставить LLM специальные и общие инструменты, автоматизация, которую он принесет, станет вершиной нашей области».
*Ключевой прорыв: LLM смогут более эффективно взаимодействовать с инструментами, которые мы используем сегодня. *
мультимодальный
В то время как интерфейсы чата интересны и интуитивно понятны многим пользователям, люди могут слышать и говорить на языке так же часто, как пишут или читают его, или чаще. Как указывает Амодей: «Существует предел возможностей системы ИИ, потому что не все является текстом». Модель с мультимодальными возможностями может беспрепятственно обрабатывать и генерировать контент в нескольких аудио- или визуальных форматах, расширяя это взаимодействие за пределы языка. Такие модели, как GPT-4, Character.AI и ImageBind от Meta, уже способны обрабатывать и генерировать изображения, аудио и другие модальности, но их возможности в этой области относительно базовые, хотя прогресс идет быстро. По словам Гомеса, наши модели сегодня буквально слепы, и это нужно менять. Мы создали множество графических пользовательских интерфейсов (GUI), которые должны были быть видны пользователю.
По мере того, как LLM будут развиваться, чтобы лучше понимать и взаимодействовать с несколькими модальностями, они смогут использовать существующие приложения, основанные на графическом интерфейсе, такие как браузеры. Они также могут предоставить потребителям более привлекательный, последовательный и целостный опыт, позволяя пользователям взаимодействовать с ними за пределами чат-интерфейсов. «Широкая интеграция мультимодальных моделей может сделать вещи более привлекательными и более связанными с пользователями, — отметил Шазир. более интересны». От видеочатов с преподавателями ИИ до повторения и написания сценариев телесериалов в сотрудничестве с ИИ — мультимодальность может трансформировать развлечения, обучение и развитие, а также создание контента для различных вариантов использования для потребителей и предприятий.
Мультимодальность тесно связана с использованием инструментов. Хотя изначально LLM могут взаимодействовать с внешним программным обеспечением через API, мультимодальность позволит LLM использовать инструменты, предназначенные для потребления человеком, но без специальной интеграции, такие как традиционные системы планирования ресурсов предприятия (ERP), настольные приложения, медицинские устройства или производственное оборудование. Мы уже наблюдаем значительный прогресс в этом отношении: например, модель Google Med-PaLM-2 может синтезировать маммографические и рентгеновские изображения. А в долгосрочной перспективе мультимодальность (особенно интеграция с компьютерным зрением) может распространить LLM на нашу собственную физическую реальность с помощью робототехники, автономных транспортных средств и других приложений, требующих взаимодействия с физическим миром в реальном времени.
Ключевой прорыв: мультимодальные модели могут анализировать изображения, видео и даже физическую среду без значительной настройки. *
Несмотря на некоторые практические ограничения LLM, исследователи за короткий промежуток времени добились поразительных улучшений этих моделей. Тот факт, что мы обновляли его несколько раз на момент написания этой статьи, свидетельствует о быстром развитии технологий в этой области. Гомес соглашается: «Один раз из 20 LLM компенсировал тот факт, что это, очевидно, все еще слишком высоко. Но я действительно, очень уверен, что мы впервые создали подобную систему. Ожидания людей довольно высоки. , так что цель была от «Компьютеры тупые, они могут только заниматься математикой» до «Человек, вероятно, мог бы работать лучше».
Мы особенно воодушевлены следующими четырьмя инновациями, которые находятся на переломном этапе изменения способов, с помощью которых предприниматели создают продукты и управляют компаниями. В долгосрочной перспективе потенциал еще больше. Амодей предсказывает: «В какой-то момент у нас может появиться модель, которая сможет прочитать все биологические данные и найти лекарство от рака». В Character.AI Shazeer позволяет пользователям разрабатывать следующие варианты использования: «Мы увидим много разблокированных новых приложений. Мне трудно сказать, что это за приложения. Будут миллионы приложений, и число пользователей превысит число немногие». Инженеры лучше разбираются в том, как использовать технологии». Нам не терпится увидеть, как эти достижения повлияют на то, как мы живем и работаем как предприниматели и компании, поскольку эти новые инструменты и возможности расширяют наши возможности.
*Спасибо Matt Bornstein, Guido Appenzeller и Rajko Radovanović за их комментарии и отзывы в процессе написания. *
Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
A16Z: 4 прорыва в области генеративного ИИ
Большие языковые модели (LLM) стали горячей темой в технологической индустрии, давая нам удивительный опыт — от написания недельного кода за считанные секунды до создания более чутких разговоров, чем у нас с людьми. Обученные на триллионах токенов данных с использованием десятков тысяч графических процессоров, LLM демонстрируют замечательное понимание естественного языка и трансформируют такие области, как копирайтинг и кодирование, подталкивая нас к новой и захватывающей эре генеративного ИИ. Как и любая новая технология, генеративный ИИ подвергается справедливой критике. Хотя эта критика частично отражает ограничения текущих возможностей LLM, мы рассматриваем эти препятствия как возможности для дальнейших инноваций, а не как фундаментальные недостатки технологии.
Чтобы лучше понять недавние технологические прорывы в LLM и подготовить основателей и операторов к будущему, мы поговорили с некоторыми из ведущих исследователей генеративного ИИ, которые активно создают и обучают некоторые из самых крупных и передовых моделей. В их число входит Дарио Амодеи, генеральный директор из Anthropic, Эйдан Гомес, генеральный директор Cohere, Ноам Шазир, генеральный директор Character.AI, и Йоав Шохам из AI21 Labs. Эти беседы определили 4 ключевых направления инноваций на будущее: руководство, память, «руки и ноги» и мультимодальность. В этой статье мы обсудим, как эти ключевые инновации будут развиваться в течение следующих 6–12 месяцев, и как основатели, заинтересованные в интеграции ИИ в свой бизнес, могут воспользоваться этими новыми разработками. **
гид
Многие основатели выражают обеспокоенность по поводу использования LLM в своих продуктах и рабочих процессах из-за возможности галлюцинаций и предвзятости воспроизведения этих моделей. Чтобы решить эти проблемы, некоторые ведущие компании, занимающиеся моделированием, работают над улучшением методов управления — метода лучшего контроля результатов модели в выходных данных LLM, позволяющего моделям лучше понимать и выполнять сложные требования пользователя. Ноам Шазир упомянул сходство между LLM и детьми в этом отношении: «Вопрос в том, как лучше загружать [модели]... Проблема, с которой мы сталкиваемся с LLM, заключается в том, что нам нужен правильный способ рассказать им, как следовать действиям в соответствии с нашими требования. Маленькие дети такие же - они иногда выдумывают и не имеют четкого понимания фантазии и реальности». Хотя после появления поставщиков моделей и инструментов, таких как Guardrails и LMQL, с точки зрения способности ориентироваться [1] Был достигнут заметный прогресс, и исследователи все еще добиваются прогресса, который, по нашему мнению, имеет решающее значение для улучшения продуктов LLM для конечных пользователей.
Улучшение ориентации особенно важно в корпоративных компаниях, где последствия непредсказуемого поведения могут дорого обойтись. Амодей отметил, что непредсказуемость LLM может вызывать у людей дискомфорт, и как поставщик API он хочет иметь возможность «говорить клиентам: «Нет, модели этого не делают» или, по крайней мере, делают это редко». выход, основатели могут более уверенно гарантировать, что производительность модели соответствует потребностям клиентов. Улучшенная ориентация также проложит путь к широкому внедрению в других отраслях, требующих большей точности и надежности, таких как рекламная индустрия, где ставки на размещение рекламы высоки. Амодей также считает, что улучшенная ориентация может применяться к «юридическим случаям использования, случаям использования в медицине, хранению финансовой информации и управлению финансовыми ставками, а также сценариям, когда вам необходимо защитить бренд вашей компании. Вы не хотите, чтобы технология, которую вы интегрируете, была непредсказуемы или трудно предсказать или охарактеризовать. «Благодаря лучшей ориентации, LLM также смогут выполнять более сложные задачи с небольшим количеством инженерных подсказок, потому что они смогут лучше понять общее намерение».
Достижения в ориентации LLM также могут открыть новые возможности в чувствительных потребительских приложениях, где пользователи ожидают индивидуальных и точных ответов. В то время как пользователи могут мириться с менее точными выводами при разговоре или творческом взаимодействии с LLM, когда пользователи используют LLM для помощи в повседневных задачах, принятия важных решений или повышения квалификации специалистов, таких как лайф-коучи, терапевты и врачи, им нужен более точный результат. Было указано, что ожидается, что LLM заменят хорошо зарекомендовавшие себя потребительские приложения, такие как поиск, но прежде чем это станет реальной возможностью, нам может потребоваться более эффективное руководство для улучшения результатов модели и укрепления доверия пользователей.
Память
Приложения для копирайтинга и создания рекламы, управляемые LLM, достигли большого успеха и быстро завоевали популярность среди маркетологов, рекламодателей и предпринимателей. Однако выходные данные большинства современных LLM относительно обобщены, что затрудняет их использование в случаях, требующих персонализации и понимания контекста. В то время как разработка подсказок и точная настройка могут обеспечить определенную степень персонализации, разработка подсказок менее масштабируема, а точная настройка часто является дорогостоящей, поскольку требует некоторой степени переобучения и обычно требует тесного сотрудничества с большинством LLM с закрытым исходным кодом. Точная настройка модели для каждого отдельного пользователя обычно невозможна или нежелательна.
Контекстное обучение — это святой Грааль, чтобы это произошло, когда LLM берут информацию из контента, созданного вашей компанией, жаргона вашей компании и конкретного контекста, чтобы создавать более детализированные выходные данные для конкретных случаев использования. Для достижения этой цели LLM нуждаются в расширенных возможностях памяти. Память LLM состоит из двух основных компонентов: контекстных окон и поиска. Контекстное окно — это текст, который модель может обрабатывать и использовать для управления выводом в дополнение к корпусу данных, на которых она обучалась. Поиск относится к поиску и ссылке на соответствующую информацию и документы («контекстные данные») из массива данных, отличного от корпуса обучающих данных модели. В настоящее время большинство LLM имеют ограниченные контекстные окна и не могут изначально извлекать дополнительную информацию, таким образом генерируя выходные данные, которым не хватает персонализации. Однако благодаря более крупным окнам контекста и улучшенному поиску LLM могут напрямую предоставлять более детализированные выходные данные для конкретных случаев использования.
В частности, за счет расширения контекстного окна модель сможет обрабатывать большие объемы текста и лучше сохранять контекст, в том числе поддерживать связность диалога. Это еще больше улучшит возможности модели в задачах, которые требуют более глубокого понимания более длинных входных данных, таких как обобщение длинных текстов или создание связных и контекстуально точных ответов во время длинных разговоров. Что касается окон контекста, мы увидели значительные улучшения — GPT-4 имеет окна контекста с токенами 8k и 32k, по сравнению с токенами 4k и 16k для GPT-3.5 и ChatGPT, и Клод недавно переместил его окно контекста, расширяющееся до ошеломляющих 100k. жетоны [2] 。
Расширение контекстного окна само по себе не улучшает память в достаточной степени, поскольку стоимость и время вывода масштабируются квазилинейно или даже квадратично с длиной подсказки. [3] Механизм поиска дополняет и уточняет исходный обучающий корпус LLM контекстными данными, связанными с репликой. По словам Шохама, поскольку LLM обучаются на массиве информации, которую часто трудно обновлять, поиск имеет два основных преимущества: «Во-первых, он позволяет вам получить доступ к источникам информации, которых у вас не было во время обучения. Во-вторых, он позволяет вам сфокусировать языковую модель на информации, которая, по вашему мнению, имеет отношение к задаче». Векторные базы данных, такие как Pinecone, стали стандартом де-факто для эффективного извлечения релевантной информации и служат уровнем памяти для LLM, упрощая модели для быстро и точно искать и ссылаться на огромные объемы информации, правильные данные в формате .
Увеличенные контекстные окна и поиск будут особенно важны в сценариях корпоративного использования, таких как навигация по большим базам знаний или сложным базам данных. Компании смогут лучше использовать свои собственные данные, такие как внутренние знания, исторические запросы в службу поддержки клиентов или финансовые результаты, в качестве входных данных для LLM без тонкой настройки. Улучшение памяти LLM принесет улучшения и возможности глубокой настройки в таких областях, как обучение, отчетность, внутренний поиск, анализ данных и бизнес-аналитика, а также поддержка клиентов.
В потребительском пространстве улучшенные контекстные окна и поиск обеспечат мощные возможности персонализации, которые произведут революцию в пользовательском опыте. По словам Ноама Шазира, "Одним из больших прорывов будет разработка модели с очень большой емкостью памяти, которую можно настроить для каждого пользователя, оставаясь при этом рентабельной в любом масштабе. Вы хотите, чтобы ваш терапевт знал все аспекты вашей жизни". жизни; вы хотите, чтобы ваши учителя знали то, что вы уже знаете; вы хотите, чтобы ваши тренеры по жизни могли дать вам совет о том, что происходит. Всем им нужен контекст». «Предоставив модели доступ к данным, которые имеют непосредственное отношение к вам, таким как ваша электронная почта, календарь или прямые сообщения, — сказал он, — модель узнает о ваших отношениях с разными людьми, чтобы помочь вам наилучшим образом в данных обстоятельствах. ."
*Ключевой прорыв: LLM смогут рассматривать большие объемы соответствующей информации и предоставлять более личные, индивидуальные и полезные результаты. *
** «Руки и ноги»: дает модели возможность использовать инструменты**
Реальная сила LLM заключается в превращении естественного языка в средство действия. LLM хорошо разбираются в распространенных и хорошо задокументированных системах, но они не могут применять любую информацию, извлеченную из этих систем. Например, ChatGPT от OpenAI, Claude от Anthropic и Lily от Character AI могут подробно описать, как забронировать рейс, но они не могут бронировать рейсы самостоятельно (хотя технологические достижения, такие как плагины ChatGPT, раздвигают эту границу). "Теоретически этот мозг обладает всеми этими знаниями, ему просто не хватает связи между именами и кнопками, - сказал Амодей. - Чтобы соединить эти кабели, не нужно долго тренироваться. У вас есть бестелесный мозг, который знает, как двигаться, но он еще не прикреплен к рукам и ногам».
Со временем мы видели, как компании улучшали способность LLM использовать инструменты. Устоявшиеся компании, такие как Bing и Google, и такие стартапы, как Perplexity и You.com, запустили поисковые API. AI21 Labs представила Jurassic-X, которая устраняет многие недостатки автономных LLM, комбинируя модели с набором предопределенных инструментов, включая калькуляторы, API погоды, API Википедии и базы данных. OpenAI запустила бета-версию плагина для ChatGPT, который позволяет ChatGPT взаимодействовать с такими инструментами, как Expedia, OpenTable, Wolfram, Instacart, Speak, веб-браузерами и интерпретаторами кода, что, как считается, напоминает момент Apple «App Store». Недавно OpenAI представил вызовы функций в GPT-3.5 и GPT-4. [4] , что позволяет разработчикам связать возможности GPT с любыми внешними инструментами.
Возможность добавления рук и ног обещает обеспечить широкий спектр вариантов использования в самых разных компаниях и типах пользователей, переходя от извлечения знаний к ориентации на действия. Для потребителей LLM скоро смогут предлагать рецепты, а затем заказывать необходимые ингредиенты или предлагать место для позднего завтрака и резервировать для вас столик. В корпоративном пространстве основатели могут упростить использование своих приложений, подключив LLM. Как указывает Амодей: «Для функций, которые очень сложно использовать с точки зрения пользовательского интерфейса, нам может потребоваться только описать их на естественном языке для выполнения сложных операций». использовать естественный язык для внесения обновлений, а модель автоматически вносит эти изменения, что значительно сокращает время, необходимое для обслуживания вашей CRM. как сплоченный [5] и Адепт [6] Такие стартапы работают над интеграцией LLM в такие сложные инструменты.
По словам Гомеса, хотя все более вероятно, что LLM смогут использовать такие приложения, как Excel, в течение 2 лет, «все еще необходимо сделать много доработок. У нас будет первое поколение моделей, которые смогут использовать инструменты, и это будет убедительно». Но хрупко. В конце концов у нас будет система мечты, в которой мы можем передать любое программное обеспечение модели с некоторым описанием типа «вот что инструмент делает, вот как его использовать», и это сможет использовать его ... как только мы сможем предоставить LLM специальные и общие инструменты, автоматизация, которую он принесет, станет вершиной нашей области».
*Ключевой прорыв: LLM смогут более эффективно взаимодействовать с инструментами, которые мы используем сегодня. *
мультимодальный
В то время как интерфейсы чата интересны и интуитивно понятны многим пользователям, люди могут слышать и говорить на языке так же часто, как пишут или читают его, или чаще. Как указывает Амодей: «Существует предел возможностей системы ИИ, потому что не все является текстом». Модель с мультимодальными возможностями может беспрепятственно обрабатывать и генерировать контент в нескольких аудио- или визуальных форматах, расширяя это взаимодействие за пределы языка. Такие модели, как GPT-4, Character.AI и ImageBind от Meta, уже способны обрабатывать и генерировать изображения, аудио и другие модальности, но их возможности в этой области относительно базовые, хотя прогресс идет быстро. По словам Гомеса, наши модели сегодня буквально слепы, и это нужно менять. Мы создали множество графических пользовательских интерфейсов (GUI), которые должны были быть видны пользователю.
По мере того, как LLM будут развиваться, чтобы лучше понимать и взаимодействовать с несколькими модальностями, они смогут использовать существующие приложения, основанные на графическом интерфейсе, такие как браузеры. Они также могут предоставить потребителям более привлекательный, последовательный и целостный опыт, позволяя пользователям взаимодействовать с ними за пределами чат-интерфейсов. «Широкая интеграция мультимодальных моделей может сделать вещи более привлекательными и более связанными с пользователями, — отметил Шазир. более интересны». От видеочатов с преподавателями ИИ до повторения и написания сценариев телесериалов в сотрудничестве с ИИ — мультимодальность может трансформировать развлечения, обучение и развитие, а также создание контента для различных вариантов использования для потребителей и предприятий.
Мультимодальность тесно связана с использованием инструментов. Хотя изначально LLM могут взаимодействовать с внешним программным обеспечением через API, мультимодальность позволит LLM использовать инструменты, предназначенные для потребления человеком, но без специальной интеграции, такие как традиционные системы планирования ресурсов предприятия (ERP), настольные приложения, медицинские устройства или производственное оборудование. Мы уже наблюдаем значительный прогресс в этом отношении: например, модель Google Med-PaLM-2 может синтезировать маммографические и рентгеновские изображения. А в долгосрочной перспективе мультимодальность (особенно интеграция с компьютерным зрением) может распространить LLM на нашу собственную физическую реальность с помощью робототехники, автономных транспортных средств и других приложений, требующих взаимодействия с физическим миром в реальном времени.
Несмотря на некоторые практические ограничения LLM, исследователи за короткий промежуток времени добились поразительных улучшений этих моделей. Тот факт, что мы обновляли его несколько раз на момент написания этой статьи, свидетельствует о быстром развитии технологий в этой области. Гомес соглашается: «Один раз из 20 LLM компенсировал тот факт, что это, очевидно, все еще слишком высоко. Но я действительно, очень уверен, что мы впервые создали подобную систему. Ожидания людей довольно высоки. , так что цель была от «Компьютеры тупые, они могут только заниматься математикой» до «Человек, вероятно, мог бы работать лучше».
Мы особенно воодушевлены следующими четырьмя инновациями, которые находятся на переломном этапе изменения способов, с помощью которых предприниматели создают продукты и управляют компаниями. В долгосрочной перспективе потенциал еще больше. Амодей предсказывает: «В какой-то момент у нас может появиться модель, которая сможет прочитать все биологические данные и найти лекарство от рака». В Character.AI Shazeer позволяет пользователям разрабатывать следующие варианты использования: «Мы увидим много разблокированных новых приложений. Мне трудно сказать, что это за приложения. Будут миллионы приложений, и число пользователей превысит число немногие». Инженеры лучше разбираются в том, как использовать технологии». Нам не терпится увидеть, как эти достижения повлияют на то, как мы живем и работаем как предприниматели и компании, поскольку эти новые инструменты и возможности расширяют наши возможности.
*Спасибо Matt Bornstein, Guido Appenzeller и Rajko Radovanović за их комментарии и отзывы в процессе написания. *