大規模言語モデル (LLM) はテクノロジー業界で注目の話題となっており、1 週間分のコードを数秒で書くことから、人間との会話よりも共感的な会話を生成することまで、いくつかの素晴らしい体験を私たちに提供します。数万の GPU を使用して数兆のデータ トークンでトレーニングされた LLM は、驚くべき自然言語理解を示し、コピーライティングやコーディングなどの分野を変革し、私たちを新しくエキサイティングな生成 AI 時代へと押し上げます。他の新興テクノロジーと同様に、生成 AI にもそれなりの批判があります。これらの批判は LLM の現在の機能の限界を部分的に反映していますが、私たちはこれらの障害をテクノロジーの根本的な欠点としてではなく、さらなる革新の機会として見ています。LLM における最近の技術的進歩をより深く理解し、創設者やオペレーターが将来に備えるために、私たちは、最大かつ最先端のモデルの構築とトレーニングを積極的に行っている主要な生成 AI 研究者たちに話を聞きました。その中には、CEO のダリオ・アモデイも含まれます。 Anthropic 社の Aidan Gomez 氏、Cohere 社 CEO の Aidan Gomez 氏、Character.AI 社 CEO の Noam Shazeer 氏、AI21 Labs の Yoav Shoham 氏です。これらの会話では、将来に向けた 4 つの重要なイノベーションの方向性、つまりガイダンス、記憶、「手足」、マルチモダリティが特定されました。この記事では、これらの主要なイノベーションが今後 6 ~ 12 か月でどのように進化するか、また AI を自社のビジネスに統合することに関心のある創業者がこれらの新しい展開をどのように活用できるかについて説明します。 ****ガイド**多くの創業者は、これらのモデルによる幻覚や生殖バイアスの可能性があるため、自社の製品やワークフローで LLM を使用することに懸念を表明しています。これらの問題に対処するために、一部の大手モデリング会社はステアリング技術の改善に取り組んでいます。これは、LLM の出力におけるモデルの結果をより適切に制御する方法であり、モデルが複雑なユーザー要件をよりよく理解して実行できるようになります。 Noam Shazeer 氏は、この点で LLM と子供の類似点について言及しました。「問題は、[モデルを] より適切にブートストラップする方法です。LLM に関して私たちが抱えている問題は、LLM に、私たちの行動に従う方法を伝える正しい方法が必要であるということです。 「要求を要求します。小さな子供も同じです。彼らは時々物事をでっち上げたり、空想と現実を明確に理解していないことがあります。」 [1] 目覚ましい進歩があり、研究者たちは今も進歩を続けています。これはエンドユーザー向けに LLM をより適切に製品化するために重要であると私たちは考えています。方向性の向上は、予測不可能な行動の結果が多大な損害をもたらす可能性がある大企業において特に重要です。 Amodei 氏は、LLM の予測不可能性が人々を不快にさせる可能性があると指摘し、API プロバイダーとして、「顧客に『いいえ、モデルはこれを実行しません』、または少なくともめったに実行しないと言えるようにしたいと考えています。」この出力により、創業者はモデルのパフォーマンスが顧客のニーズと一致していることをより自信を持って確認できるようになります。オリエンテーションの改善は、広告掲載の賭け金が高い広告業界など、より高い精度と信頼性を必要とする他の業界でも広く採用される道を切り開くことになります。アモデイ氏はまた、改善された方向性は「法的ユースケース、医療ユースケース、財務情報の保存と金銭的賭けの管理、および会社のブランドを保護する必要があるシナリオに適用できる可能性がある」と考えている。統合しているテクノロジーが次のようなものになることは望ましくない「LLM は、方向性が向上することで、全体的な意図をよりよく理解できるようになるため、少量のヒント エンジニアリングでより複雑なタスクを実行できるようになります。」LLM の方向性の進歩は、ユーザーがカスタマイズされた正確な応答を期待する、機密性の高い消費者向けアプリケーションにおいて新たな可能性を開く可能性もあります。ユーザーは、LLM との会話や創造的な対話に従事するときは、精度の低い出力を許容するかもしれませんが、ユーザーが日常業務を支援したり、重要な意思決定をガイドしたり、ライフ コーチ、セラピスト、医師などの専門家を強化するために LLM を使用するときは、より正確な出力を求めます。 LLM は、検索などの確立された消費者向けアプリケーションを置き換えると期待されていると指摘されていますが、これが現実的な可能性になる前に、モデルの出力を改善し、ユーザーの信頼を構築するためのより良いガイダンスが必要になる可能性があります。* 重要な画期的なポイント: ユーザーは LLMS の出力をより適切にカスタマイズできるようになります。 ***メモリー**LLM を活用したコピーライティングおよび広告生成アプリケーションは大きな成功を収め、マーケター、広告主、起業家の間で急速に人気が高まっています。ただし、現在のほとんどの LLM の出力は比較的一般化されているため、パーソナライゼーションやコンテキストの理解を必要とするユースケースに LLM を使用するのは困難です。ヒント エンジニアリングと微調整はある程度のパーソナライゼーションを提供できますが、ヒント エンジニアリングは拡張性が低く、微調整にはある程度のレベルの再トレーニングが必要であり、通常、ほとんどのクローズド ソース LLM との緊密な連携が必要なため、コストがかかることがよくあります。個々のユーザーに合わせてモデルを微調整することは、通常は実現不可能または望ましくありません。コンテキスト学習はこれを実現するための聖杯であり、LLM は企業が生成したコンテンツ、企業固有の専門用語、および特定のコンテキストから情報を取得して、より詳細でユースケース固有の出力を作成します。この目標を達成するには、LLM のメモリ機能を強化する必要があります。 LLM メモリには、コンテキスト ウィンドウと取得という 2 つの主要なコンポーネントがあります。コンテキスト ウィンドウは、モデルがトレーニングされたデータのコーパスに加えて、モデルが処理して出力をガイドするために使用できるテキストです。取得とは、モデルのトレーニング データ コーパス以外のデータ本体から、関連する情報およびドキュメント (「コンテキスト データ」) を取得および参照することを指します。現在、ほとんどの LLM のコンテキスト ウィンドウは限られており、追加情報をネイティブに取得できないため、パーソナライズのない出力が生成されます。ただし、コンテキスト ウィンドウが大きくなり、検索が向上したため、LLM はより詳細なユースケース固有の出力を直接提供できます。特に、コンテキスト ウィンドウを拡張することにより、モデルはより大量のテキストを処理し、対話の一貫性の維持などのコンテキストをより適切に保存できるようになります。これにより、長いテキストの要約や、長い会話中に一貫性があり文脈に沿って正確な応答を生成するなど、長い入力をより深く理解する必要があるタスクにおけるモデルの能力がさらに大幅に向上します。コンテキスト ウィンドウに関しては、大幅な改善が見られました。GPT-3.5 と ChatGPT の 4k および 16k トークンと比較して、GPT-4 のコンテキスト ウィンドウは 8k および 32k トークンであり、Claude は最近移動しました。コンテキスト ウィンドウは驚異的な 100k に拡張されました。トークン [2] 。推論のコストと時間はヒントの長さに応じて準線形または二次関数的に増加するため、コンテキスト ウィンドウを拡張するだけではメモリは十分に改善されません。 [3] 検索メカニズムは、キューに関連するコンテキスト データを使用して LLM の元のトレーニング コーパスを拡張および洗練します。 LLM は一連の情報に基づいてトレーニングされ、多くの場合更新が難しいため、Shoham 氏によると、検索には 2 つの主な利点があります。「第一に、トレーニング時には入手できなかった情報ソースにアクセスできるようになります。第二に、 「タスクに関連すると思われる情報に言語モデルを集中させてください。」 Pinecone などのベクトル データベースは、関連情報を効率的に取得するための事実上の標準となっており、LLM のメモリ層として機能するため、モデルの大量の情報を迅速かつ正確に検索し、正しいデータを参照します。コンテキスト ウィンドウと検索の増加は、大規模なナレッジ ベースや複雑なデータベースのナビゲートなど、エンタープライズ ユース ケースで特に重要になります。企業は、内部知識、顧客サポート チケットの履歴、財務結果などの独自データを、微調整することなく LLM への入力としてより有効に活用できるようになります。 LLM のメモリを改善すると、トレーニング、レポート、内部検索、データ分析とビジネス インテリジェンス、顧客サポートなどの分野で改善と深いカスタマイズ機能がもたらされます。消費者分野では、コンテキスト ウィンドウと検索の改善により、ユーザー エクスペリエンスに革命をもたらす強力なパーソナライゼーション機能が可能になります。 Noam Shazeer 氏によると、「大きな進歩の 1 つは、大規模なコスト効率を維持しながら、各ユーザーに合わせてカスタマイズできる非常に高いメモリ容量を備えたモデルを開発することです。セラピストには、あなたのあらゆる側面を知ってもらいたいと考えています。」 「人生の中で、あなたは自分がすでに知っていることを教師に知ってもらいたいと思っています。ライフコーチに何が起こっているのかについてアドバイスできるようにしてほしいと思っています。彼らにはすべて背景が必要です。」エイダン・ゴメスもこの展開に興奮しています。 「メール、カレンダー、ダイレクトメッセージなど、あなたに固有の関連性のあるデータへのアクセスをモデルに与えることで、モデルはあなたとさまざまな人との関係を学習し、その状況下で最善の方法であなたを支援します」と同氏は述べた。 。」*重要な進歩: LLM は大量の関連情報を検討し、より個人的でカスタマイズされた有用な出力を提供できるようになります。 ***「腕と脚」: モデルにツールを使用できるようにします**LLM の真の力は、自然言語をアクションの媒体にすることにあります。 LLM は、よく文書化された一般的なシステムについて高度な理解を持っていますが、これらのシステムから抽出された情報を強制することはできません。たとえば、OpenAI の ChatGPT、Anthropic の Claude、Character AI の Lily は、フライトの予約方法を詳細に記述することができますが、単独でネイティブにフライトを予約することはできません (ただし、ChatGPT のプラグインのような技術の進歩により、この境界は押し広げられています)。 「理論的には、この脳はすべての知識を持っていますが、名前からボタンへのマッピングが欠けているだけです。これらのケーブルを接続するのに多くの訓練は必要ありません。動き方を知っている肉体のない脳を持っていますが、しかし、アモデイ氏は言いました」まだ腕と足に取り付けられていません。」時間の経過とともに、企業が LLM のツール使用能力を向上させるのを私たちは見てきました。 Bing や Google などの老舗企業や、Perplexity や You.com などの新興企業が検索 API を立ち上げました。 AI21 Labs は Jurassic-X を導入しました。これは、計算機、天気 API、Wikipedia API、データベースなどの事前に決定されたツールのセットとモデルを組み合わせることで、スタンドアロン LLM の欠点の多くに対処します。 OpenAIは、ChatGPTがExpedia、OpenTable、Wolfram、Instacart、Speak、ウェブブラウザ、コードインタプリタなどのツールと対話できるようにするChatGPT用プラグインのベータ版を発表したが、これはAppleの「App Store」の瞬間に似ていると考えられる画期的な出来事である。最近、OpenAI は GPT-3.5 および GPT-4 に関数呼び出しを導入しました。 [4] により、開発者は GPT の機能を外部ツールとリンクできるようになります。手足を追加する機能により、ナレッジマイニングからアクション指向に移行することで、さまざまな企業やユーザータイプにわたる幅広いユースケースが可能になることが期待されます。消費者にとって、LLM はすぐにレシピを提案して必要な食材を注文したり、ブランチスポットを提案してテーブルを予約したりできるようになるかもしれません。エンタープライズ分野では、創設者は LLM をプラグインすることでアプリケーションを使いやすくすることができます。 Amodei 氏が指摘するように、「ユーザー インターフェイスの観点から使用するのが非常に難しい機能の場合、複雑な操作を実現するには自然言語で記述するだけで十分です。」たとえば、Salesforce などのアプリケーションの場合、LLM 統合によりユーザーは次のことを可能にする必要があります。 Natural Language を使用して更新を行い、モデルにそれらの変更を自動的に行わせることで、CRM の保守にかかる時間を大幅に短縮できます。一貫しているように [5] そして達人 [6] このようなスタートアップ企業は、LLM を複雑なツールに統合することに取り組んでいます。ゴメス氏によると、LLM が 2 年以内に Excel などのアプリケーションを使用できるようになる可能性は高まっていますが、「多くの改善がまだ必要です。私たちは、 「しかし、脆弱です。最終的には、どんなソフトウェアでも、「ツールの機能はこれで、使い方はこれです」というような説明を付けてモデルに渡すことができる夢のシステムが完成します。 ...LLM に特定の一般的なツールを提供できれば、それがもたらす自動化は私たちの分野の頂点となるでしょう。」*重要な進歩: LLM は、現在使用されているツールとより効果的に対話できるようになります。 ***マルチモーダル**チャット インターフェイスは多くのユーザーにとって刺激的で直感的ですが、人間は言語を書いたり読んだりするのと同じくらい、あるいはそれ以上の頻度で言語を聞いたり話したりすることができます。アモデイ氏が指摘するように、「すべてがテキストであるわけではないため、AI システムができることには限界があります。」 マルチモーダル機能を備えたモデルは、複数のオーディオまたはビジュアル形式でコンテンツをシームレスに処理および生成でき、この対話を言語を超えて拡張できます。 GPT-4、Character.AI、Meta の ImageBind などのモデルは、画像、音声、その他のモダリティを処理および生成する機能をすでに備えていますが、この分野での機能は、進歩は速いものの比較的基本的なものです。ゴメスの言葉を借りれば、私たちのモデルは今日文字通り盲目であり、それを変える必要があります。私たちは、ユーザーが見ることを想定したグラフィカル ユーザー インターフェイス (GUI) を多数構築しました。LLM が進化して複数のモダリティをよりよく理解し、操作できるようになると、ブラウザなどの GUI に依存する既存のアプリケーションを使用できるようになります。また、より魅力的で一貫性のある総合的なエクスペリエンスを消費者に提供し、チャット インターフェイスを超えたユーザー インタラクションを可能にします。 「マルチモーダル モデルの多くの優れた統合により、物事をより魅力的にし、ユーザーとのつながりを高めることができます。」と Shazeer 氏は述べ、「現在、コアとなるインテリジェンスのほとんどはテキストから来ていると思いますが、オーディオとビデオはこれらの物事を実現できます」と述べました。 AI 家庭教師とのビデオ チャットから、AI と連携したテレビ ドラマの脚本の反復と作成に至るまで、マルチモダリティは、消費者や企業のさまざまなユースケースにわたって、エンターテインメント、学習と開発、コンテンツ生成を変革する可能性を秘めています。マルチモダリティはツールの使用と密接に関係しています。 LLM は最初は API を介して外部ソフトウェアと連携する可能性がありますが、マルチモダリティにより、LLM は従来のエンタープライズ リソース プランニング (ERP) システム、デスクトップ アプリケーション、医療機器、製造機械など、人間が使用するために設計されたツールをカスタム統合せずに使用できるようになります。この点に関しては、すでに素晴らしい進歩が見られています。たとえば、Google の Med-PaLM-2 モデルは、マンモグラフィー画像と X 線画像を合成できます。そして長期的には、マルチモダリティ (特にコンピューター ビジョンとの統合) により、ロボット工学、自動運転車、および物理世界とのリアルタイム インタラクションを必要とするその他のアプリケーションを通じて、LLM を私たち自身の物理的現実に拡張できる可能性があります。*重要な進歩: マルチモーダル モデルは、大幅なカスタマイズを行わずに、画像、ビデオ、さらには物理環境についても推論することができます。 *LLM にはいくつかの実際的な制限があるにもかかわらず、研究者は短期間でこれらのモデルに驚くべき改良を加えました。この記事を書いている時点で何度か更新しているという事実は、この分野の技術の急速な発展の証です。ゴメス氏もこれに同意します。「LLM が明らかにまだ高すぎるという事実を補ったのは 20 回に 1 回です。しかし、このようなシステムを構築したのはこれが初めてであると私は本当に自信を持っています。人々の期待はかなり高いです。したがって、目標は、『コンピュータは愚かで、数学しかできない』から、『人間ならもっとうまくできるだろう』ということです。私たちは、批評が人間に何ができるかに焦点を当てられるように、十分なギャップを埋めてきました。」私たちは、起業家が製品を構築し、会社を運営する方法を変える転換点にある次の 4 つのイノベーションに特に興奮しています。長期的には、その可能性はさらに大きくなります。アモデイ氏は、「ある時点で、すべての生物学的データを読み取り、がんの治療法を見つけ出すことができるモデルができるかもしれない。」と予測しているが、現実には、最適な新しいアプリケーションはまだ知られていないかもしれない。 Character.AI では、Shazeer を使用してユーザーが次のようなユースケースを開発できるようにしています。「これからたくさんの新しいアプリがロック解除されることになります。それらのアプリが何であるかを判断するのは難しいです。アプリは何百万にもなり、ユーザーの数はユーザーの数を上回ります。これらの新しいツールや機能が私たちに力を与えてくれるので、これらの進歩が起業家や企業としての生活や働き方にどのような影響を与えるのか、私たちは待ちきれません。*執筆プロセス中にコメントとフィードバックをくださった Matt Bornstein、Guido Appenzeller、Rajko Radovanović に感謝します。 *
A16Z: 生成 AI における 4 つのブレークスルー
大規模言語モデル (LLM) はテクノロジー業界で注目の話題となっており、1 週間分のコードを数秒で書くことから、人間との会話よりも共感的な会話を生成することまで、いくつかの素晴らしい体験を私たちに提供します。数万の GPU を使用して数兆のデータ トークンでトレーニングされた LLM は、驚くべき自然言語理解を示し、コピーライティングやコーディングなどの分野を変革し、私たちを新しくエキサイティングな生成 AI 時代へと押し上げます。他の新興テクノロジーと同様に、生成 AI にもそれなりの批判があります。これらの批判は LLM の現在の機能の限界を部分的に反映していますが、私たちはこれらの障害をテクノロジーの根本的な欠点としてではなく、さらなる革新の機会として見ています。
LLM における最近の技術的進歩をより深く理解し、創設者やオペレーターが将来に備えるために、私たちは、最大かつ最先端のモデルの構築とトレーニングを積極的に行っている主要な生成 AI 研究者たちに話を聞きました。その中には、CEO のダリオ・アモデイも含まれます。 Anthropic 社の Aidan Gomez 氏、Cohere 社 CEO の Aidan Gomez 氏、Character.AI 社 CEO の Noam Shazeer 氏、AI21 Labs の Yoav Shoham 氏です。これらの会話では、将来に向けた 4 つの重要なイノベーションの方向性、つまりガイダンス、記憶、「手足」、マルチモダリティが特定されました。この記事では、これらの主要なイノベーションが今後 6 ~ 12 か月でどのように進化するか、また AI を自社のビジネスに統合することに関心のある創業者がこれらの新しい展開をどのように活用できるかについて説明します。 **
ガイド
多くの創業者は、これらのモデルによる幻覚や生殖バイアスの可能性があるため、自社の製品やワークフローで LLM を使用することに懸念を表明しています。これらの問題に対処するために、一部の大手モデリング会社はステアリング技術の改善に取り組んでいます。これは、LLM の出力におけるモデルの結果をより適切に制御する方法であり、モデルが複雑なユーザー要件をよりよく理解して実行できるようになります。 Noam Shazeer 氏は、この点で LLM と子供の類似点について言及しました。「問題は、[モデルを] より適切にブートストラップする方法です。LLM に関して私たちが抱えている問題は、LLM に、私たちの行動に従う方法を伝える正しい方法が必要であるということです。 「要求を要求します。小さな子供も同じです。彼らは時々物事をでっち上げたり、空想と現実を明確に理解していないことがあります。」 [1] 目覚ましい進歩があり、研究者たちは今も進歩を続けています。これはエンドユーザー向けに LLM をより適切に製品化するために重要であると私たちは考えています。
方向性の向上は、予測不可能な行動の結果が多大な損害をもたらす可能性がある大企業において特に重要です。 Amodei 氏は、LLM の予測不可能性が人々を不快にさせる可能性があると指摘し、API プロバイダーとして、「顧客に『いいえ、モデルはこれを実行しません』、または少なくともめったに実行しないと言えるようにしたいと考えています。」この出力により、創業者はモデルのパフォーマンスが顧客のニーズと一致していることをより自信を持って確認できるようになります。オリエンテーションの改善は、広告掲載の賭け金が高い広告業界など、より高い精度と信頼性を必要とする他の業界でも広く採用される道を切り開くことになります。アモデイ氏はまた、改善された方向性は「法的ユースケース、医療ユースケース、財務情報の保存と金銭的賭けの管理、および会社のブランドを保護する必要があるシナリオに適用できる可能性がある」と考えている。統合しているテクノロジーが次のようなものになることは望ましくない「LLM は、方向性が向上することで、全体的な意図をよりよく理解できるようになるため、少量のヒント エンジニアリングでより複雑なタスクを実行できるようになります。」
LLM の方向性の進歩は、ユーザーがカスタマイズされた正確な応答を期待する、機密性の高い消費者向けアプリケーションにおいて新たな可能性を開く可能性もあります。ユーザーは、LLM との会話や創造的な対話に従事するときは、精度の低い出力を許容するかもしれませんが、ユーザーが日常業務を支援したり、重要な意思決定をガイドしたり、ライフ コーチ、セラピスト、医師などの専門家を強化するために LLM を使用するときは、より正確な出力を求めます。 LLM は、検索などの確立された消費者向けアプリケーションを置き換えると期待されていると指摘されていますが、これが現実的な可能性になる前に、モデルの出力を改善し、ユーザーの信頼を構築するためのより良いガイダンスが必要になる可能性があります。
メモリー
LLM を活用したコピーライティングおよび広告生成アプリケーションは大きな成功を収め、マーケター、広告主、起業家の間で急速に人気が高まっています。ただし、現在のほとんどの LLM の出力は比較的一般化されているため、パーソナライゼーションやコンテキストの理解を必要とするユースケースに LLM を使用するのは困難です。ヒント エンジニアリングと微調整はある程度のパーソナライゼーションを提供できますが、ヒント エンジニアリングは拡張性が低く、微調整にはある程度のレベルの再トレーニングが必要であり、通常、ほとんどのクローズド ソース LLM との緊密な連携が必要なため、コストがかかることがよくあります。個々のユーザーに合わせてモデルを微調整することは、通常は実現不可能または望ましくありません。
コンテキスト学習はこれを実現するための聖杯であり、LLM は企業が生成したコンテンツ、企業固有の専門用語、および特定のコンテキストから情報を取得して、より詳細でユースケース固有の出力を作成します。この目標を達成するには、LLM のメモリ機能を強化する必要があります。 LLM メモリには、コンテキスト ウィンドウと取得という 2 つの主要なコンポーネントがあります。コンテキスト ウィンドウは、モデルがトレーニングされたデータのコーパスに加えて、モデルが処理して出力をガイドするために使用できるテキストです。取得とは、モデルのトレーニング データ コーパス以外のデータ本体から、関連する情報およびドキュメント (「コンテキスト データ」) を取得および参照することを指します。現在、ほとんどの LLM のコンテキスト ウィンドウは限られており、追加情報をネイティブに取得できないため、パーソナライズのない出力が生成されます。ただし、コンテキスト ウィンドウが大きくなり、検索が向上したため、LLM はより詳細なユースケース固有の出力を直接提供できます。
特に、コンテキスト ウィンドウを拡張することにより、モデルはより大量のテキストを処理し、対話の一貫性の維持などのコンテキストをより適切に保存できるようになります。これにより、長いテキストの要約や、長い会話中に一貫性があり文脈に沿って正確な応答を生成するなど、長い入力をより深く理解する必要があるタスクにおけるモデルの能力がさらに大幅に向上します。コンテキスト ウィンドウに関しては、大幅な改善が見られました。GPT-3.5 と ChatGPT の 4k および 16k トークンと比較して、GPT-4 のコンテキスト ウィンドウは 8k および 32k トークンであり、Claude は最近移動しました。コンテキスト ウィンドウは驚異的な 100k に拡張されました。トークン [2] 。
推論のコストと時間はヒントの長さに応じて準線形または二次関数的に増加するため、コンテキスト ウィンドウを拡張するだけではメモリは十分に改善されません。 [3] 検索メカニズムは、キューに関連するコンテキスト データを使用して LLM の元のトレーニング コーパスを拡張および洗練します。 LLM は一連の情報に基づいてトレーニングされ、多くの場合更新が難しいため、Shoham 氏によると、検索には 2 つの主な利点があります。「第一に、トレーニング時には入手できなかった情報ソースにアクセスできるようになります。第二に、 「タスクに関連すると思われる情報に言語モデルを集中させてください。」 Pinecone などのベクトル データベースは、関連情報を効率的に取得するための事実上の標準となっており、LLM のメモリ層として機能するため、モデルの大量の情報を迅速かつ正確に検索し、正しいデータを参照します。
コンテキスト ウィンドウと検索の増加は、大規模なナレッジ ベースや複雑なデータベースのナビゲートなど、エンタープライズ ユース ケースで特に重要になります。企業は、内部知識、顧客サポート チケットの履歴、財務結果などの独自データを、微調整することなく LLM への入力としてより有効に活用できるようになります。 LLM のメモリを改善すると、トレーニング、レポート、内部検索、データ分析とビジネス インテリジェンス、顧客サポートなどの分野で改善と深いカスタマイズ機能がもたらされます。
消費者分野では、コンテキスト ウィンドウと検索の改善により、ユーザー エクスペリエンスに革命をもたらす強力なパーソナライゼーション機能が可能になります。 Noam Shazeer 氏によると、「大きな進歩の 1 つは、大規模なコスト効率を維持しながら、各ユーザーに合わせてカスタマイズできる非常に高いメモリ容量を備えたモデルを開発することです。セラピストには、あなたのあらゆる側面を知ってもらいたいと考えています。」 「人生の中で、あなたは自分がすでに知っていることを教師に知ってもらいたいと思っています。ライフコーチに何が起こっているのかについてアドバイスできるようにしてほしいと思っています。彼らにはすべて背景が必要です。」エイダン・ゴメスもこの展開に興奮しています。 「メール、カレンダー、ダイレクトメッセージなど、あなたに固有の関連性のあるデータへのアクセスをモデルに与えることで、モデルはあなたとさまざまな人との関係を学習し、その状況下で最善の方法であなたを支援します」と同氏は述べた。 。」
*重要な進歩: LLM は大量の関連情報を検討し、より個人的でカスタマイズされた有用な出力を提供できるようになります。 *
「腕と脚」: モデルにツールを使用できるようにします
LLM の真の力は、自然言語をアクションの媒体にすることにあります。 LLM は、よく文書化された一般的なシステムについて高度な理解を持っていますが、これらのシステムから抽出された情報を強制することはできません。たとえば、OpenAI の ChatGPT、Anthropic の Claude、Character AI の Lily は、フライトの予約方法を詳細に記述することができますが、単独でネイティブにフライトを予約することはできません (ただし、ChatGPT のプラグインのような技術の進歩により、この境界は押し広げられています)。 「理論的には、この脳はすべての知識を持っていますが、名前からボタンへのマッピングが欠けているだけです。これらのケーブルを接続するのに多くの訓練は必要ありません。動き方を知っている肉体のない脳を持っていますが、しかし、アモデイ氏は言いました」まだ腕と足に取り付けられていません。」
時間の経過とともに、企業が LLM のツール使用能力を向上させるのを私たちは見てきました。 Bing や Google などの老舗企業や、Perplexity や You.com などの新興企業が検索 API を立ち上げました。 AI21 Labs は Jurassic-X を導入しました。これは、計算機、天気 API、Wikipedia API、データベースなどの事前に決定されたツールのセットとモデルを組み合わせることで、スタンドアロン LLM の欠点の多くに対処します。 OpenAIは、ChatGPTがExpedia、OpenTable、Wolfram、Instacart、Speak、ウェブブラウザ、コードインタプリタなどのツールと対話できるようにするChatGPT用プラグインのベータ版を発表したが、これはAppleの「App Store」の瞬間に似ていると考えられる画期的な出来事である。最近、OpenAI は GPT-3.5 および GPT-4 に関数呼び出しを導入しました。 [4] により、開発者は GPT の機能を外部ツールとリンクできるようになります。
手足を追加する機能により、ナレッジマイニングからアクション指向に移行することで、さまざまな企業やユーザータイプにわたる幅広いユースケースが可能になることが期待されます。消費者にとって、LLM はすぐにレシピを提案して必要な食材を注文したり、ブランチスポットを提案してテーブルを予約したりできるようになるかもしれません。エンタープライズ分野では、創設者は LLM をプラグインすることでアプリケーションを使いやすくすることができます。 Amodei 氏が指摘するように、「ユーザー インターフェイスの観点から使用するのが非常に難しい機能の場合、複雑な操作を実現するには自然言語で記述するだけで十分です。」たとえば、Salesforce などのアプリケーションの場合、LLM 統合によりユーザーは次のことを可能にする必要があります。 Natural Language を使用して更新を行い、モデルにそれらの変更を自動的に行わせることで、CRM の保守にかかる時間を大幅に短縮できます。一貫しているように [5] そして達人 [6] このようなスタートアップ企業は、LLM を複雑なツールに統合することに取り組んでいます。
ゴメス氏によると、LLM が 2 年以内に Excel などのアプリケーションを使用できるようになる可能性は高まっていますが、「多くの改善がまだ必要です。私たちは、 「しかし、脆弱です。最終的には、どんなソフトウェアでも、「ツールの機能はこれで、使い方はこれです」というような説明を付けてモデルに渡すことができる夢のシステムが完成します。 ...LLM に特定の一般的なツールを提供できれば、それがもたらす自動化は私たちの分野の頂点となるでしょう。」
*重要な進歩: LLM は、現在使用されているツールとより効果的に対話できるようになります。 *
マルチモーダル
チャット インターフェイスは多くのユーザーにとって刺激的で直感的ですが、人間は言語を書いたり読んだりするのと同じくらい、あるいはそれ以上の頻度で言語を聞いたり話したりすることができます。アモデイ氏が指摘するように、「すべてがテキストであるわけではないため、AI システムができることには限界があります。」 マルチモーダル機能を備えたモデルは、複数のオーディオまたはビジュアル形式でコンテンツをシームレスに処理および生成でき、この対話を言語を超えて拡張できます。 GPT-4、Character.AI、Meta の ImageBind などのモデルは、画像、音声、その他のモダリティを処理および生成する機能をすでに備えていますが、この分野での機能は、進歩は速いものの比較的基本的なものです。ゴメスの言葉を借りれば、私たちのモデルは今日文字通り盲目であり、それを変える必要があります。私たちは、ユーザーが見ることを想定したグラフィカル ユーザー インターフェイス (GUI) を多数構築しました。
LLM が進化して複数のモダリティをよりよく理解し、操作できるようになると、ブラウザなどの GUI に依存する既存のアプリケーションを使用できるようになります。また、より魅力的で一貫性のある総合的なエクスペリエンスを消費者に提供し、チャット インターフェイスを超えたユーザー インタラクションを可能にします。 「マルチモーダル モデルの多くの優れた統合により、物事をより魅力的にし、ユーザーとのつながりを高めることができます。」と Shazeer 氏は述べ、「現在、コアとなるインテリジェンスのほとんどはテキストから来ていると思いますが、オーディオとビデオはこれらの物事を実現できます」と述べました。 AI 家庭教師とのビデオ チャットから、AI と連携したテレビ ドラマの脚本の反復と作成に至るまで、マルチモダリティは、消費者や企業のさまざまなユースケースにわたって、エンターテインメント、学習と開発、コンテンツ生成を変革する可能性を秘めています。
マルチモダリティはツールの使用と密接に関係しています。 LLM は最初は API を介して外部ソフトウェアと連携する可能性がありますが、マルチモダリティにより、LLM は従来のエンタープライズ リソース プランニング (ERP) システム、デスクトップ アプリケーション、医療機器、製造機械など、人間が使用するために設計されたツールをカスタム統合せずに使用できるようになります。この点に関しては、すでに素晴らしい進歩が見られています。たとえば、Google の Med-PaLM-2 モデルは、マンモグラフィー画像と X 線画像を合成できます。そして長期的には、マルチモダリティ (特にコンピューター ビジョンとの統合) により、ロボット工学、自動運転車、および物理世界とのリアルタイム インタラクションを必要とするその他のアプリケーションを通じて、LLM を私たち自身の物理的現実に拡張できる可能性があります。
*重要な進歩: マルチモーダル モデルは、大幅なカスタマイズを行わずに、画像、ビデオ、さらには物理環境についても推論することができます。 *
LLM にはいくつかの実際的な制限があるにもかかわらず、研究者は短期間でこれらのモデルに驚くべき改良を加えました。この記事を書いている時点で何度か更新しているという事実は、この分野の技術の急速な発展の証です。ゴメス氏もこれに同意します。「LLM が明らかにまだ高すぎるという事実を補ったのは 20 回に 1 回です。しかし、このようなシステムを構築したのはこれが初めてであると私は本当に自信を持っています。人々の期待はかなり高いです。したがって、目標は、『コンピュータは愚かで、数学しかできない』から、『人間ならもっとうまくできるだろう』ということです。私たちは、批評が人間に何ができるかに焦点を当てられるように、十分なギャップを埋めてきました。」
私たちは、起業家が製品を構築し、会社を運営する方法を変える転換点にある次の 4 つのイノベーションに特に興奮しています。長期的には、その可能性はさらに大きくなります。アモデイ氏は、「ある時点で、すべての生物学的データを読み取り、がんの治療法を見つけ出すことができるモデルができるかもしれない。」と予測しているが、現実には、最適な新しいアプリケーションはまだ知られていないかもしれない。 Character.AI では、Shazeer を使用してユーザーが次のようなユースケースを開発できるようにしています。「これからたくさんの新しいアプリがロック解除されることになります。それらのアプリが何であるかを判断するのは難しいです。アプリは何百万にもなり、ユーザーの数はユーザーの数を上回ります。これらの新しいツールや機能が私たちに力を与えてくれるので、これらの進歩が起業家や企業としての生活や働き方にどのような影響を与えるのか、私たちは待ちきれません。
*執筆プロセス中にコメントとフィードバックをくださった Matt Bornstein、Guido Appenzeller、Rajko Radovanović に感謝します。 *