Les grands modèles de langage (LLM) sont devenus un sujet brûlant dans l'industrie technologique, nous offrant des expériences incroyables - de l'écriture d'une semaine de code en quelques secondes à la génération de conversations plus empathiques que nous n'en avons avec les humains. Formés sur des milliards de jetons de données à l'aide de dizaines de milliers de GPU, les LLM font preuve d'une remarquable compréhension du langage naturel et transforment des domaines tels que la rédaction et le codage, nous poussant dans une nouvelle et passionnante ère de l'IA générative. Comme toute technologie émergente, l'IA générative a sa juste part de critiques. Bien que ces critiques reflètent en partie les limites des capacités actuelles des LLM, nous considérons ces obstacles comme des opportunités d'innovations supplémentaires plutôt que comme des lacunes fondamentales de la technologie.
Pour mieux comprendre les récentes percées technologiques dans les LLM et préparer les fondateurs et les opérateurs pour l'avenir, nous avons parlé à certains des principaux chercheurs en IA générative qui construisent et forment activement certains des modèles les plus grands et les plus avant-gardistes, notamment Dario Amodei, PDG d'Anthropic, Aidan Gomez, PDG de Cohere, Noam Shazeer, PDG de Character.AI, et Yoav Shoham de AI21 Labs. Ces conversations ont permis d'identifier 4 axes d'innovation clés pour l'avenir : guidage, mémoire, « mains et pieds » et multimodalité. Dans cet article, nous expliquons comment ces innovations clés évolueront au cours des 6 à 12 prochains mois et comment, pour les fondateurs intéressés par l'intégration de l'IA dans leur propre entreprise, ils peuvent tirer parti de ces nouveaux développements. **
guide
De nombreux fondateurs expriment leur inquiétude quant à l'utilisation des LLM dans leurs produits et flux de travail en raison du potentiel d'hallucinations et de biais de reproduction de ces modèles. Pour résoudre ces problèmes, certaines grandes sociétés de modélisation travaillent à l'amélioration des techniques de pilotage, une méthode pour mieux contrôler les résultats des modèles dans la sortie des LLM, permettant aux modèles de mieux comprendre et exécuter les exigences complexes des utilisateurs. Noam Shazeer a mentionné les similitudes entre les LLM et les enfants à cet égard : "C'est une question de savoir comment mieux amorcer [les modèles]... Le problème que nous avons avec les LLM est que nous avons besoin de la bonne façon de leur dire comment suivre Agir sur notre Les petits enfants sont les mêmes - ils inventent parfois des choses et n'ont pas une compréhension claire de la fantaisie et de la réalité. " Bien qu'après l'émergence de fournisseurs de modèles et d'outils comme Guardrails et LMQL, en termes de capacité d'orientation [1] Des progrès remarquables ont été réalisés et les chercheurs progressent encore, ce qui, selon nous, est essentiel pour mieux produire les LLM pour les utilisateurs finaux.
Une meilleure orientation est particulièrement importante dans les grandes entreprises, où les conséquences d'un comportement imprévisible peuvent être coûteuses. Amodei a souligné que l'imprévisibilité des LLM peut mettre les gens mal à l'aise, et en tant que fournisseur d'API, il veut pouvoir "dire aux clients" non, les modèles ne font pas cela ", ou du moins le font rarement". sortie, les fondateurs peuvent s'assurer avec plus de confiance que les performances du modèle correspondent aux besoins des clients. Une meilleure orientation ouvrira également la voie à une adoption généralisée dans d'autres secteurs qui nécessitent une précision et une fiabilité accrues, comme le secteur de la publicité, où les enjeux pour le placement d'annonces sont élevés. Amodei pense également que l'orientation améliorée pourrait s'appliquer aux "cas d'utilisation légaux, aux cas d'utilisation médicale, au stockage d'informations financières et à la gestion des paris financiers, et aux scénarios où vous devez protéger la marque de votre entreprise. Vous ne voulez pas que la technologie que vous intégrez soit imprévisible ou difficile à prévoir ou à caractériser. "En étant mieux orientés, les LLM seront également capables d'accomplir des tâches plus complexes avec une petite quantité d'ingénierie d'indice, car ils seront en mesure de mieux comprendre l'intention globale."
Les progrès dans l'orientation des LLM ont également le potentiel d'ouvrir de nouvelles possibilités dans les applications grand public sensibles où les utilisateurs attendent des réponses personnalisées et précises. Alors que les utilisateurs peuvent tolérer une sortie moins précise lorsqu'ils s'engagent dans des interactions conversationnelles ou créatives avec des LLM, lorsque les utilisateurs utilisent des LLM pour aider dans les tâches quotidiennes, guider des décisions importantes ou augmenter les professionnels tels que les coachs de vie, les thérapeutes et les médecins, ils veulent une sortie plus précise. Il a été souligné que les LLM devraient remplacer les applications grand public bien établies telles que la recherche, mais avant que cela ne devienne une possibilité réelle, nous pourrions avoir besoin de meilleurs conseils pour améliorer la sortie du modèle et renforcer la confiance des utilisateurs.
Point clé : les utilisateurs peuvent mieux personnaliser la sortie de LLMS. *
mémoire
Les applications de rédaction et de génération d'annonces pilotées par les LLM ont remporté un grand succès, gagnant rapidement en popularité parmi les spécialistes du marketing, les annonceurs et les entrepreneurs. Cependant, la sortie de la plupart des LLM actuels est relativement généralisée, ce qui rend difficile leur utilisation pour des cas d'utilisation qui nécessitent une personnalisation et une compréhension contextuelle. Bien que l'ingénierie et le réglage fin des indices puissent fournir un certain degré de personnalisation, l'ingénierie des indices est moins évolutive et le réglage fin est souvent coûteux car il nécessite un certain niveau de recyclage et nécessite généralement une coopération étroite avec la plupart des LLM à source fermée. Il n'est généralement pas possible ou souhaitable d'affiner un modèle pour chaque utilisateur individuel.
L'apprentissage contextuel est le Saint Graal pour y parvenir, où les LLM prennent des informations à partir du contenu généré par votre entreprise, du jargon spécifique à votre entreprise et d'un contexte spécifique pour créer une sortie plus granulaire et spécifique à un cas d'utilisation. Pour atteindre cet objectif, les LLM ont besoin de capacités de mémoire améliorées. La mémoire LLM a deux composants principaux : les fenêtres contextuelles et la récupération. Une fenêtre contextuelle est un texte qu'un modèle peut traiter et utiliser pour guider sa sortie, en plus du corpus de données sur lequel il a été formé. La récupération fait référence à la récupération et au référencement d'informations et de documents pertinents ("données contextuelles") à partir d'un ensemble de données autre que le corpus de données d'apprentissage du modèle. Actuellement, la plupart des LLM ont des fenêtres contextuelles limitées et ne peuvent pas récupérer nativement des informations supplémentaires, générant ainsi une sortie qui manque de personnalisation. Cependant, avec des fenêtres de contexte plus grandes et une récupération améliorée, les LLM peuvent directement fournir des sorties plus granulaires et spécifiques à un cas d'utilisation.
En particulier, en élargissant la fenêtre de contexte, le modèle pourra gérer de plus gros volumes de texte et mieux préserver le contexte, y compris en maintenant la cohérence dans le dialogue. Cela améliorera encore considérablement la capacité du modèle dans les tâches qui nécessitent une compréhension plus approfondie des entrées plus longues, telles que la synthèse de longs textes ou la génération de réponses cohérentes et contextuellement précises lors de longues conversations. En termes de fenêtres contextuelles, nous avons constaté des améliorations significatives - GPT-4 a des fenêtres contextuelles de 8 000 et 32 000 jetons, contre 4 000 et 16 000 jetons pour GPT-3.5 et ChatGPT, et Claude a récemment déménagé Sa fenêtre contextuelle s'étend jusqu'à 100 000 jetons [2] 。
L'expansion de la fenêtre de contexte seule n'améliore pas suffisamment la mémoire, car le coût et le temps d'inférence évoluent de manière quasi linéaire ou même quadratique avec la longueur de l'indice. [3] Le mécanisme de récupération augmente et affine le corpus de formation original du LLM avec des données contextuelles liées à l'indice. Étant donné que les LLM sont formés sur un corpus d'informations et sont souvent difficiles à mettre à jour, la récupération présente deux avantages principaux, selon Shoham : "Premièrement, cela vous permet d'accéder à des sources d'informations que vous n'aviez pas au moment de la formation. vous permet de concentrer le modèle de langage sur les informations que vous jugez pertinentes pour la tâche." Les bases de données vectorielles telles que Pinecone sont devenues la norme de facto pour récupérer efficacement les informations pertinentes et servent de couche de mémoire pour les LLM, ce qui facilite la tâche des modèles. rechercher et référencer rapidement et avec précision d'énormes quantités d'informations corriger les données dans .
L'augmentation des fenêtres contextuelles et de la récupération sera particulièrement importante dans les cas d'utilisation en entreprise, tels que la navigation dans de grandes bases de connaissances ou des bases de données complexes. Les entreprises pourront mieux tirer parti de leurs données propriétaires, telles que les connaissances internes, les tickets d'assistance client historiques ou les résultats financiers, en tant qu'entrées pour les LLM sans ajustement. L'amélioration de la mémoire des LLM apportera des améliorations et des capacités de personnalisation approfondies dans des domaines tels que la formation, le reporting, la recherche interne, l'analyse de données et l'informatique décisionnelle, ainsi que le support client.
Dans l'espace grand public, des fenêtres contextuelles et une récupération améliorées permettront de puissantes capacités de personnalisation qui révolutionneront l'expérience utilisateur. Selon Noam Shazeer, "L'une des grandes percées sera de développer un modèle doté d'une capacité de mémoire très élevée pouvant être personnalisée pour chaque utilisateur tout en restant rentable à grande échelle. Vous voulez que votre thérapeute connaisse chaque aspect de votre vous voulez que vos professeurs sachent ce que vous savez déjà, vous voulez que vos coachs de vie puissent vous conseiller sur ce qui se passe. Ils ont tous besoin de contexte. "En donnant au modèle l'accès aux données qui vous concernent de manière unique, comme votre e-mail, votre calendrier ou vos messages directs", a-t-il déclaré, "le modèle apprendra vos relations avec les différents pour vous aider de la meilleure façon possible dans les circonstances. ."
Percée clé : les LLM seront en mesure de prendre en compte de grandes quantités d'informations pertinentes et de fournir des résultats plus personnels, personnalisés et utiles. *
** "Bras et jambes": donne au modèle la possibilité d'utiliser des outils **
Le véritable pouvoir des LLM réside dans le fait de faire du langage naturel un moyen d'action. Les LLM ont une compréhension sophistiquée des systèmes communs et bien documentés, mais ils ne peuvent appliquer aucune information extraite de ces systèmes. Par exemple, ChatGPT d'OpenAI, Claude d'Anthropic et Lily de Character AI peuvent décrire en détail comment réserver un vol, mais ils ne peuvent pas réserver de vols de manière native par eux-mêmes (bien que les avancées technologiques comme les plugins de ChatGPT repoussent cette limite). "Ce cerveau a théoriquement toutes ces connaissances, il manque juste le mappage des noms aux boutons", a déclaré Amodei. "Il ne faut pas beaucoup de formation pour connecter ces câbles. Vous avez un cerveau désincarné qui sait comment bouger, mais il n'est pas encore attaché aux bras et aux jambes."
Au fil du temps, nous avons vu des entreprises améliorer la capacité des LLM à utiliser les outils. Des entreprises établies comme Bing et Google et des startups comme Perplexity et You.com ont lancé des API de recherche. AI21 Labs a introduit Jurassic-X, qui résout bon nombre des lacunes des LLM autonomes en combinant des modèles avec un ensemble d'outils prédéterminés, notamment des calculatrices, des API météo, des API Wikipedia et des bases de données. OpenAI a lancé une version bêta d'un plugin pour ChatGPT qui permet à ChatGPT d'interagir avec des outils tels qu'Expedia, OpenTable, Wolfram, Instacart, Speak, des navigateurs Web et des interpréteurs de code, une percée qui ressemblerait au moment "App Store" d'Apple. Récemment, OpenAI a introduit des appels de fonction dans GPT-3.5 et GPT-4 [4] , permettant aux développeurs de lier les fonctionnalités de GPT à n'importe quel outil externe.
La possibilité d'ajouter des bras et des jambes promet de permettre une gamme de cas d'utilisation dans une grande variété d'entreprises et de types d'utilisateurs en passant de l'exploration des connaissances à l'orientation vers l'action. Pour les consommateurs, les LLM pourraient bientôt être en mesure de suggérer des recettes puis de commander les ingrédients dont vous avez besoin, ou de suggérer un endroit pour bruncher et de vous réserver une table. Dans l'espace entreprise, les fondateurs peuvent rendre leurs applications plus faciles à utiliser en branchant des LLM. Comme le souligne Amodei : "Pour les fonctions très difficiles à utiliser du point de vue de l'interface utilisateur, nous n'aurons peut-être besoin que de les décrire en langage naturel pour réaliser des opérations complexes." Par exemple, pour des applications telles que Salesforce, l'intégration LLM devrait permettre aux utilisateurs utiliser le langage naturel pour effectuer des mises à jour et faire en sorte que le modèle effectue automatiquement ces modifications, ce qui réduit considérablement le temps nécessaire à la maintenance de votre CRM. comme cohérent [5] et adepte [6] Ces startups travaillent à l'intégration de LLM dans des outils aussi complexes.
Gomez estime que s'il est de plus en plus probable que les LLM pourront utiliser des applications telles qu'Excel d'ici 2 ans, "beaucoup de raffinement doivent encore être faits. Nous aurons la première génération de modèles qui pourront utiliser des outils, et ce sera convaincant. " Mais fragile. Au final, nous aurons le système de rêve où nous pourrons donner n'importe quel logiciel au modèle avec une description comme "voici ce que fait l'outil, voici comment l'utiliser" et ce sera capable de l'utiliser ... une fois que nous pourrons fournir aux LLM des outils spécifiques et généraux, l'automatisation qu'elle apportera sera le summum de notre domaine."
*Percée clé : les LLM pourront interagir plus efficacement avec les outils que nous utilisons aujourd'hui. *
multimodal
Alors que les interfaces de chat sont passionnantes et intuitives pour de nombreux utilisateurs, les humains peuvent entendre et parler le langage aussi souvent qu'ils l'écrivent ou le lisent, ou plus. Comme le souligne Amodei : "Il y a une limite à ce qu'un système d'IA peut faire car tout n'est pas du texte." Un modèle doté de capacités multimodales peut traiter et générer de manière transparente du contenu dans plusieurs formats audio ou visuels, étendant cette interaction au-delà du langage. Des modèles comme GPT-4, Character.AI et Meta's ImageBind sont déjà capables de traiter et de générer des images, de l'audio et d'autres modalités, mais leurs capacités dans ce domaine sont relativement basiques, même si les progrès sont rapides. Selon les mots de Gomez, nos modèles sont littéralement aveugles aujourd'hui, et cela doit changer. Nous avons construit de nombreuses interfaces utilisateur graphiques (GUI) censées être vues par l'utilisateur.
Au fur et à mesure que les LLM évoluent pour mieux comprendre et interagir avec plusieurs modalités, ils pourront utiliser les applications existantes qui reposent sur des interfaces graphiques, telles que les navigateurs. Ils peuvent également offrir aux consommateurs une expérience plus engageante, cohérente et holistique, permettant aux interactions des utilisateurs d'aller au-delà des interfaces de chat. "Une grande intégration de modèles multimodaux peut rendre les choses plus attrayantes et plus connectées aux utilisateurs", a noté Shazeer. Il a également déclaré: "Je pense que la plupart des informations de base proviennent actuellement du texte, mais l'audio et la vidéo peuvent rendre ces choses. sont plus intéressants. » Du chat vidéo avec des tuteurs en IA à l'itération et à l'écriture de scénarios de séries télévisées en collaboration avec l'IA, la multimodalité a le potentiel de transformer le divertissement, l'apprentissage et le développement, ainsi que la génération de contenu dans une variété de cas d'utilisation pour les consommateurs et les entreprises.
La multimodalité est étroitement liée à l'utilisation des outils. Bien que les LLM puissent initialement s'interfacer avec des logiciels externes via des API, la multimodalité permettra aux LLM d'utiliser des outils conçus pour la consommation humaine mais sans intégration personnalisée, tels que les systèmes traditionnels de planification des ressources d'entreprise (ERP), les applications de bureau, les dispositifs médicaux ou les machines de fabrication. Nous avons déjà vu des progrès passionnants à cet égard : par exemple, le modèle Med-PaLM-2 de Google peut synthétiser des mammographies et des images radiographiques. Et à plus long terme, la multimodalité (en particulier l'intégration avec la vision par ordinateur) pourrait étendre les LLM à notre propre réalité physique grâce à la robotique, aux véhicules autonomes et à d'autres applications nécessitant une interaction en temps réel avec le monde physique.
Percée clé : les modèles multimodaux sont capables de raisonner sur des images, des vidéos et même des environnements physiques sans personnalisation importante. *
Malgré certaines limitations pratiques des LLM, les chercheurs ont apporté des améliorations étonnantes à ces modèles en peu de temps. Le fait que nous l'ayons mis à jour plusieurs fois au moment d'écrire ces lignes témoigne du développement rapide de la technologie dans ce domaine. Gomez est d'accord: "Une fois sur 20, le LLM a compensé le fait que c'était évidemment trop élevé. Mais je suis vraiment, vraiment convaincu que c'est la première fois que nous construisons un système comme celui-ci. Les attentes des gens sont assez élevées, donc l'objectif a été de "Les ordinateurs sont stupides, ils ne peuvent que faire des maths" à "Un humain peut probablement le faire mieux". Nous avons suffisamment comblé le fossé pour que la critique se concentre sur ce qu'un humain peut faire."
Nous sommes particulièrement enthousiasmés par les quatre innovations suivantes qui sont sur le point de changer la façon dont les entrepreneurs créent des produits et gèrent des entreprises. À long terme, le potentiel est encore plus grand. Amodei prédit : « À un moment donné, nous aurons peut-être un modèle capable de lire toutes les données biologiques et de trouver un remède contre le cancer. » La réalité est que les meilleures nouvelles applications peuvent encore être inconnues. Chez Character.AI, Shazeer permet aux utilisateurs de développer ces cas d'utilisation : "Nous allons voir beaucoup de nouvelles applications déverrouillées. Il m'est difficile de dire ce que sont ces applications. Il y aura des millions d'applications, et les utilisateurs seront plus nombreux que les autres. peu. " Les ingénieurs savent mieux utiliser la technologie. " Nous sommes impatients de voir comment ces progrès auront un impact sur notre façon de vivre et de travailler en tant qu'entrepreneurs et entreprises, car ces nouveaux outils et capacités nous permettent.
*Merci à Matt Bornstein, Guido Appenzeller et Rajko Radovanović pour leurs commentaires et réactions pendant le processus d'écriture. *
Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
A16Z : 4 percées dans l'IA générative
Les grands modèles de langage (LLM) sont devenus un sujet brûlant dans l'industrie technologique, nous offrant des expériences incroyables - de l'écriture d'une semaine de code en quelques secondes à la génération de conversations plus empathiques que nous n'en avons avec les humains. Formés sur des milliards de jetons de données à l'aide de dizaines de milliers de GPU, les LLM font preuve d'une remarquable compréhension du langage naturel et transforment des domaines tels que la rédaction et le codage, nous poussant dans une nouvelle et passionnante ère de l'IA générative. Comme toute technologie émergente, l'IA générative a sa juste part de critiques. Bien que ces critiques reflètent en partie les limites des capacités actuelles des LLM, nous considérons ces obstacles comme des opportunités d'innovations supplémentaires plutôt que comme des lacunes fondamentales de la technologie.
Pour mieux comprendre les récentes percées technologiques dans les LLM et préparer les fondateurs et les opérateurs pour l'avenir, nous avons parlé à certains des principaux chercheurs en IA générative qui construisent et forment activement certains des modèles les plus grands et les plus avant-gardistes, notamment Dario Amodei, PDG d'Anthropic, Aidan Gomez, PDG de Cohere, Noam Shazeer, PDG de Character.AI, et Yoav Shoham de AI21 Labs. Ces conversations ont permis d'identifier 4 axes d'innovation clés pour l'avenir : guidage, mémoire, « mains et pieds » et multimodalité. Dans cet article, nous expliquons comment ces innovations clés évolueront au cours des 6 à 12 prochains mois et comment, pour les fondateurs intéressés par l'intégration de l'IA dans leur propre entreprise, ils peuvent tirer parti de ces nouveaux développements. **
guide
De nombreux fondateurs expriment leur inquiétude quant à l'utilisation des LLM dans leurs produits et flux de travail en raison du potentiel d'hallucinations et de biais de reproduction de ces modèles. Pour résoudre ces problèmes, certaines grandes sociétés de modélisation travaillent à l'amélioration des techniques de pilotage, une méthode pour mieux contrôler les résultats des modèles dans la sortie des LLM, permettant aux modèles de mieux comprendre et exécuter les exigences complexes des utilisateurs. Noam Shazeer a mentionné les similitudes entre les LLM et les enfants à cet égard : "C'est une question de savoir comment mieux amorcer [les modèles]... Le problème que nous avons avec les LLM est que nous avons besoin de la bonne façon de leur dire comment suivre Agir sur notre Les petits enfants sont les mêmes - ils inventent parfois des choses et n'ont pas une compréhension claire de la fantaisie et de la réalité. " Bien qu'après l'émergence de fournisseurs de modèles et d'outils comme Guardrails et LMQL, en termes de capacité d'orientation [1] Des progrès remarquables ont été réalisés et les chercheurs progressent encore, ce qui, selon nous, est essentiel pour mieux produire les LLM pour les utilisateurs finaux.
Une meilleure orientation est particulièrement importante dans les grandes entreprises, où les conséquences d'un comportement imprévisible peuvent être coûteuses. Amodei a souligné que l'imprévisibilité des LLM peut mettre les gens mal à l'aise, et en tant que fournisseur d'API, il veut pouvoir "dire aux clients" non, les modèles ne font pas cela ", ou du moins le font rarement". sortie, les fondateurs peuvent s'assurer avec plus de confiance que les performances du modèle correspondent aux besoins des clients. Une meilleure orientation ouvrira également la voie à une adoption généralisée dans d'autres secteurs qui nécessitent une précision et une fiabilité accrues, comme le secteur de la publicité, où les enjeux pour le placement d'annonces sont élevés. Amodei pense également que l'orientation améliorée pourrait s'appliquer aux "cas d'utilisation légaux, aux cas d'utilisation médicale, au stockage d'informations financières et à la gestion des paris financiers, et aux scénarios où vous devez protéger la marque de votre entreprise. Vous ne voulez pas que la technologie que vous intégrez soit imprévisible ou difficile à prévoir ou à caractériser. "En étant mieux orientés, les LLM seront également capables d'accomplir des tâches plus complexes avec une petite quantité d'ingénierie d'indice, car ils seront en mesure de mieux comprendre l'intention globale."
Les progrès dans l'orientation des LLM ont également le potentiel d'ouvrir de nouvelles possibilités dans les applications grand public sensibles où les utilisateurs attendent des réponses personnalisées et précises. Alors que les utilisateurs peuvent tolérer une sortie moins précise lorsqu'ils s'engagent dans des interactions conversationnelles ou créatives avec des LLM, lorsque les utilisateurs utilisent des LLM pour aider dans les tâches quotidiennes, guider des décisions importantes ou augmenter les professionnels tels que les coachs de vie, les thérapeutes et les médecins, ils veulent une sortie plus précise. Il a été souligné que les LLM devraient remplacer les applications grand public bien établies telles que la recherche, mais avant que cela ne devienne une possibilité réelle, nous pourrions avoir besoin de meilleurs conseils pour améliorer la sortie du modèle et renforcer la confiance des utilisateurs.
mémoire
Les applications de rédaction et de génération d'annonces pilotées par les LLM ont remporté un grand succès, gagnant rapidement en popularité parmi les spécialistes du marketing, les annonceurs et les entrepreneurs. Cependant, la sortie de la plupart des LLM actuels est relativement généralisée, ce qui rend difficile leur utilisation pour des cas d'utilisation qui nécessitent une personnalisation et une compréhension contextuelle. Bien que l'ingénierie et le réglage fin des indices puissent fournir un certain degré de personnalisation, l'ingénierie des indices est moins évolutive et le réglage fin est souvent coûteux car il nécessite un certain niveau de recyclage et nécessite généralement une coopération étroite avec la plupart des LLM à source fermée. Il n'est généralement pas possible ou souhaitable d'affiner un modèle pour chaque utilisateur individuel.
L'apprentissage contextuel est le Saint Graal pour y parvenir, où les LLM prennent des informations à partir du contenu généré par votre entreprise, du jargon spécifique à votre entreprise et d'un contexte spécifique pour créer une sortie plus granulaire et spécifique à un cas d'utilisation. Pour atteindre cet objectif, les LLM ont besoin de capacités de mémoire améliorées. La mémoire LLM a deux composants principaux : les fenêtres contextuelles et la récupération. Une fenêtre contextuelle est un texte qu'un modèle peut traiter et utiliser pour guider sa sortie, en plus du corpus de données sur lequel il a été formé. La récupération fait référence à la récupération et au référencement d'informations et de documents pertinents ("données contextuelles") à partir d'un ensemble de données autre que le corpus de données d'apprentissage du modèle. Actuellement, la plupart des LLM ont des fenêtres contextuelles limitées et ne peuvent pas récupérer nativement des informations supplémentaires, générant ainsi une sortie qui manque de personnalisation. Cependant, avec des fenêtres de contexte plus grandes et une récupération améliorée, les LLM peuvent directement fournir des sorties plus granulaires et spécifiques à un cas d'utilisation.
En particulier, en élargissant la fenêtre de contexte, le modèle pourra gérer de plus gros volumes de texte et mieux préserver le contexte, y compris en maintenant la cohérence dans le dialogue. Cela améliorera encore considérablement la capacité du modèle dans les tâches qui nécessitent une compréhension plus approfondie des entrées plus longues, telles que la synthèse de longs textes ou la génération de réponses cohérentes et contextuellement précises lors de longues conversations. En termes de fenêtres contextuelles, nous avons constaté des améliorations significatives - GPT-4 a des fenêtres contextuelles de 8 000 et 32 000 jetons, contre 4 000 et 16 000 jetons pour GPT-3.5 et ChatGPT, et Claude a récemment déménagé Sa fenêtre contextuelle s'étend jusqu'à 100 000 jetons [2] 。
L'expansion de la fenêtre de contexte seule n'améliore pas suffisamment la mémoire, car le coût et le temps d'inférence évoluent de manière quasi linéaire ou même quadratique avec la longueur de l'indice. [3] Le mécanisme de récupération augmente et affine le corpus de formation original du LLM avec des données contextuelles liées à l'indice. Étant donné que les LLM sont formés sur un corpus d'informations et sont souvent difficiles à mettre à jour, la récupération présente deux avantages principaux, selon Shoham : "Premièrement, cela vous permet d'accéder à des sources d'informations que vous n'aviez pas au moment de la formation. vous permet de concentrer le modèle de langage sur les informations que vous jugez pertinentes pour la tâche." Les bases de données vectorielles telles que Pinecone sont devenues la norme de facto pour récupérer efficacement les informations pertinentes et servent de couche de mémoire pour les LLM, ce qui facilite la tâche des modèles. rechercher et référencer rapidement et avec précision d'énormes quantités d'informations corriger les données dans .
L'augmentation des fenêtres contextuelles et de la récupération sera particulièrement importante dans les cas d'utilisation en entreprise, tels que la navigation dans de grandes bases de connaissances ou des bases de données complexes. Les entreprises pourront mieux tirer parti de leurs données propriétaires, telles que les connaissances internes, les tickets d'assistance client historiques ou les résultats financiers, en tant qu'entrées pour les LLM sans ajustement. L'amélioration de la mémoire des LLM apportera des améliorations et des capacités de personnalisation approfondies dans des domaines tels que la formation, le reporting, la recherche interne, l'analyse de données et l'informatique décisionnelle, ainsi que le support client.
Dans l'espace grand public, des fenêtres contextuelles et une récupération améliorées permettront de puissantes capacités de personnalisation qui révolutionneront l'expérience utilisateur. Selon Noam Shazeer, "L'une des grandes percées sera de développer un modèle doté d'une capacité de mémoire très élevée pouvant être personnalisée pour chaque utilisateur tout en restant rentable à grande échelle. Vous voulez que votre thérapeute connaisse chaque aspect de votre vous voulez que vos professeurs sachent ce que vous savez déjà, vous voulez que vos coachs de vie puissent vous conseiller sur ce qui se passe. Ils ont tous besoin de contexte. "En donnant au modèle l'accès aux données qui vous concernent de manière unique, comme votre e-mail, votre calendrier ou vos messages directs", a-t-il déclaré, "le modèle apprendra vos relations avec les différents pour vous aider de la meilleure façon possible dans les circonstances. ."
** "Bras et jambes": donne au modèle la possibilité d'utiliser des outils **
Le véritable pouvoir des LLM réside dans le fait de faire du langage naturel un moyen d'action. Les LLM ont une compréhension sophistiquée des systèmes communs et bien documentés, mais ils ne peuvent appliquer aucune information extraite de ces systèmes. Par exemple, ChatGPT d'OpenAI, Claude d'Anthropic et Lily de Character AI peuvent décrire en détail comment réserver un vol, mais ils ne peuvent pas réserver de vols de manière native par eux-mêmes (bien que les avancées technologiques comme les plugins de ChatGPT repoussent cette limite). "Ce cerveau a théoriquement toutes ces connaissances, il manque juste le mappage des noms aux boutons", a déclaré Amodei. "Il ne faut pas beaucoup de formation pour connecter ces câbles. Vous avez un cerveau désincarné qui sait comment bouger, mais il n'est pas encore attaché aux bras et aux jambes."
Au fil du temps, nous avons vu des entreprises améliorer la capacité des LLM à utiliser les outils. Des entreprises établies comme Bing et Google et des startups comme Perplexity et You.com ont lancé des API de recherche. AI21 Labs a introduit Jurassic-X, qui résout bon nombre des lacunes des LLM autonomes en combinant des modèles avec un ensemble d'outils prédéterminés, notamment des calculatrices, des API météo, des API Wikipedia et des bases de données. OpenAI a lancé une version bêta d'un plugin pour ChatGPT qui permet à ChatGPT d'interagir avec des outils tels qu'Expedia, OpenTable, Wolfram, Instacart, Speak, des navigateurs Web et des interpréteurs de code, une percée qui ressemblerait au moment "App Store" d'Apple. Récemment, OpenAI a introduit des appels de fonction dans GPT-3.5 et GPT-4 [4] , permettant aux développeurs de lier les fonctionnalités de GPT à n'importe quel outil externe.
La possibilité d'ajouter des bras et des jambes promet de permettre une gamme de cas d'utilisation dans une grande variété d'entreprises et de types d'utilisateurs en passant de l'exploration des connaissances à l'orientation vers l'action. Pour les consommateurs, les LLM pourraient bientôt être en mesure de suggérer des recettes puis de commander les ingrédients dont vous avez besoin, ou de suggérer un endroit pour bruncher et de vous réserver une table. Dans l'espace entreprise, les fondateurs peuvent rendre leurs applications plus faciles à utiliser en branchant des LLM. Comme le souligne Amodei : "Pour les fonctions très difficiles à utiliser du point de vue de l'interface utilisateur, nous n'aurons peut-être besoin que de les décrire en langage naturel pour réaliser des opérations complexes." Par exemple, pour des applications telles que Salesforce, l'intégration LLM devrait permettre aux utilisateurs utiliser le langage naturel pour effectuer des mises à jour et faire en sorte que le modèle effectue automatiquement ces modifications, ce qui réduit considérablement le temps nécessaire à la maintenance de votre CRM. comme cohérent [5] et adepte [6] Ces startups travaillent à l'intégration de LLM dans des outils aussi complexes.
Gomez estime que s'il est de plus en plus probable que les LLM pourront utiliser des applications telles qu'Excel d'ici 2 ans, "beaucoup de raffinement doivent encore être faits. Nous aurons la première génération de modèles qui pourront utiliser des outils, et ce sera convaincant. " Mais fragile. Au final, nous aurons le système de rêve où nous pourrons donner n'importe quel logiciel au modèle avec une description comme "voici ce que fait l'outil, voici comment l'utiliser" et ce sera capable de l'utiliser ... une fois que nous pourrons fournir aux LLM des outils spécifiques et généraux, l'automatisation qu'elle apportera sera le summum de notre domaine."
*Percée clé : les LLM pourront interagir plus efficacement avec les outils que nous utilisons aujourd'hui. *
multimodal
Alors que les interfaces de chat sont passionnantes et intuitives pour de nombreux utilisateurs, les humains peuvent entendre et parler le langage aussi souvent qu'ils l'écrivent ou le lisent, ou plus. Comme le souligne Amodei : "Il y a une limite à ce qu'un système d'IA peut faire car tout n'est pas du texte." Un modèle doté de capacités multimodales peut traiter et générer de manière transparente du contenu dans plusieurs formats audio ou visuels, étendant cette interaction au-delà du langage. Des modèles comme GPT-4, Character.AI et Meta's ImageBind sont déjà capables de traiter et de générer des images, de l'audio et d'autres modalités, mais leurs capacités dans ce domaine sont relativement basiques, même si les progrès sont rapides. Selon les mots de Gomez, nos modèles sont littéralement aveugles aujourd'hui, et cela doit changer. Nous avons construit de nombreuses interfaces utilisateur graphiques (GUI) censées être vues par l'utilisateur.
Au fur et à mesure que les LLM évoluent pour mieux comprendre et interagir avec plusieurs modalités, ils pourront utiliser les applications existantes qui reposent sur des interfaces graphiques, telles que les navigateurs. Ils peuvent également offrir aux consommateurs une expérience plus engageante, cohérente et holistique, permettant aux interactions des utilisateurs d'aller au-delà des interfaces de chat. "Une grande intégration de modèles multimodaux peut rendre les choses plus attrayantes et plus connectées aux utilisateurs", a noté Shazeer. Il a également déclaré: "Je pense que la plupart des informations de base proviennent actuellement du texte, mais l'audio et la vidéo peuvent rendre ces choses. sont plus intéressants. » Du chat vidéo avec des tuteurs en IA à l'itération et à l'écriture de scénarios de séries télévisées en collaboration avec l'IA, la multimodalité a le potentiel de transformer le divertissement, l'apprentissage et le développement, ainsi que la génération de contenu dans une variété de cas d'utilisation pour les consommateurs et les entreprises.
La multimodalité est étroitement liée à l'utilisation des outils. Bien que les LLM puissent initialement s'interfacer avec des logiciels externes via des API, la multimodalité permettra aux LLM d'utiliser des outils conçus pour la consommation humaine mais sans intégration personnalisée, tels que les systèmes traditionnels de planification des ressources d'entreprise (ERP), les applications de bureau, les dispositifs médicaux ou les machines de fabrication. Nous avons déjà vu des progrès passionnants à cet égard : par exemple, le modèle Med-PaLM-2 de Google peut synthétiser des mammographies et des images radiographiques. Et à plus long terme, la multimodalité (en particulier l'intégration avec la vision par ordinateur) pourrait étendre les LLM à notre propre réalité physique grâce à la robotique, aux véhicules autonomes et à d'autres applications nécessitant une interaction en temps réel avec le monde physique.
Malgré certaines limitations pratiques des LLM, les chercheurs ont apporté des améliorations étonnantes à ces modèles en peu de temps. Le fait que nous l'ayons mis à jour plusieurs fois au moment d'écrire ces lignes témoigne du développement rapide de la technologie dans ce domaine. Gomez est d'accord: "Une fois sur 20, le LLM a compensé le fait que c'était évidemment trop élevé. Mais je suis vraiment, vraiment convaincu que c'est la première fois que nous construisons un système comme celui-ci. Les attentes des gens sont assez élevées, donc l'objectif a été de "Les ordinateurs sont stupides, ils ne peuvent que faire des maths" à "Un humain peut probablement le faire mieux". Nous avons suffisamment comblé le fossé pour que la critique se concentre sur ce qu'un humain peut faire."
Nous sommes particulièrement enthousiasmés par les quatre innovations suivantes qui sont sur le point de changer la façon dont les entrepreneurs créent des produits et gèrent des entreprises. À long terme, le potentiel est encore plus grand. Amodei prédit : « À un moment donné, nous aurons peut-être un modèle capable de lire toutes les données biologiques et de trouver un remède contre le cancer. » La réalité est que les meilleures nouvelles applications peuvent encore être inconnues. Chez Character.AI, Shazeer permet aux utilisateurs de développer ces cas d'utilisation : "Nous allons voir beaucoup de nouvelles applications déverrouillées. Il m'est difficile de dire ce que sont ces applications. Il y aura des millions d'applications, et les utilisateurs seront plus nombreux que les autres. peu. " Les ingénieurs savent mieux utiliser la technologie. " Nous sommes impatients de voir comment ces progrès auront un impact sur notre façon de vivre et de travailler en tant qu'entrepreneurs et entreprises, car ces nouveaux outils et capacités nous permettent.
*Merci à Matt Bornstein, Guido Appenzeller et Rajko Radovanović pour leurs commentaires et réactions pendant le processus d'écriture. *