Los modelos de lenguaje extenso (LLM) se han convertido en un tema candente en la industria de la tecnología, brindándonos algunas experiencias increíbles, desde escribir el código de una semana en segundos hasta generar conversaciones más empáticas que las que tenemos con los humanos. Entrenados en trillones de tokens de datos que utilizan decenas de miles de GPU, los LLM demuestran una notable comprensión del lenguaje natural y transforman campos como la redacción y la codificación, empujándonos hacia una nueva y emocionante era de IA generativa. Como cualquier tecnología emergente, la IA generativa tiene una buena cantidad de críticas. Aunque estas críticas reflejan en parte las limitaciones de las capacidades actuales de los LLM, vemos estos obstáculos como oportunidades para una mayor innovación en lugar de deficiencias fundamentales de la tecnología.
Para comprender mejor los avances tecnológicos recientes en LLM y preparar a los fundadores y operadores para el futuro, hablamos con algunos de los principales investigadores de IA generativa que están construyendo y entrenando activamente algunos de los modelos más grandes y de vanguardia. Estos incluyen a Dario Amodei, CEO de Anthropic, Aidan Gomez, CEO de Cohere, Noam Shazeer, CEO de Character.AI y Yoav Shoham de AI21 Labs. Estas conversaciones identificaron 4 direcciones clave de innovación para el futuro: orientación, memoria, "manos y pies" y multimodalidad. En este artículo, analizamos cómo evolucionarán estas innovaciones clave en los próximos 6 a 12 meses y cómo, los fundadores interesados en integrar la IA en sus propios negocios, pueden aprovechar estos nuevos desarrollos. **
guía
Muchos fundadores expresan su preocupación por el uso de LLM en sus productos y flujos de trabajo debido al potencial de alucinaciones y sesgos de reproducción de estos modelos. Para abordar estos problemas, algunas empresas de modelado líderes están trabajando para mejorar las técnicas de dirección, un método para controlar mejor los resultados del modelo en la salida de los LLM, lo que permite que los modelos comprendan y ejecuten mejor los requisitos complejos de los usuarios. Noam Shazeer mencionó las similitudes entre los LLM y los niños a este respecto: "Es una cuestión de cómo mejorar [los modelos] de arranque... El problema que tenemos con los LLM es que necesitamos la forma correcta de decirles cómo seguir Actuando en nuestra Los niños pequeños son iguales: a veces inventan cosas y no tienen una comprensión clara de la fantasía y la realidad ". Aunque después de la aparición de proveedores de modelos y herramientas como Guardrails y LMQL, en términos de capacidad de orientación [1] Se ha logrado un progreso notable y los investigadores aún están progresando, lo que creemos que es fundamental para producir mejor los LLM para los usuarios finales.
La orientación mejorada es especialmente importante en las empresas empresariales, donde las consecuencias de un comportamiento impredecible pueden ser costosas. Amodei señaló que la imprevisibilidad de los LLM puede hacer que las personas se sientan incómodas y, como proveedor de API, quiere poder "decir a los clientes 'no, los modelos no hacen esto', o al menos rara vez lo hacen". resultado, los fundadores pueden garantizar con más confianza que el rendimiento del modelo se ajusta a las necesidades de los clientes. La orientación mejorada también allanará el camino para una adopción generalizada en otras industrias que requieren una mayor precisión y confiabilidad, como la industria de la publicidad, donde hay mucho en juego para la colocación de anuncios. Amodei también cree que la orientación mejorada podría aplicarse a "casos de uso legal, casos de uso médico, almacenamiento de información financiera y gestión de apuestas financieras, y escenarios en los que necesita proteger la marca de su empresa. No desea que la tecnología que está integrando sea impredecible o difícil de predecir o caracterizar "Al estar mejor orientados, los LLM también podrán realizar tareas más complejas con una pequeña cantidad de ingeniería indirecta, porque podrán comprender mejor la intención general".
Los avances en la orientación de los LLM también tienen el potencial de abrir nuevas posibilidades en aplicaciones de consumidores sensibles donde los usuarios esperan respuestas personalizadas y precisas. Si bien los usuarios pueden tolerar resultados menos precisos cuando participan en interacciones conversacionales o creativas con LLM, cuando los usuarios usan LLM para ayudar con las tareas cotidianas, guiar decisiones importantes o ayudar a profesionales como entrenadores de vida, terapeutas y médicos, quieren resultados más precisos. Se ha señalado que se espera que los LLM reemplacen las aplicaciones de consumo bien establecidas, como la búsqueda, pero antes de que esto se convierta en una posibilidad real, es posible que necesitemos una mejor orientación para mejorar el resultado del modelo y generar confianza en el usuario.
Punto clave de avance: los usuarios pueden personalizar mejor la salida de LLMS. *
memoria
Las aplicaciones de redacción publicitaria y generación de anuncios impulsadas por LLM han logrado un gran éxito y han ganado popularidad rápidamente entre los especialistas en marketing, anunciantes y empresarios. Sin embargo, el resultado de la mayoría de los LLM actuales está relativamente generalizado, lo que dificulta su uso para casos de uso que requieren personalización y comprensión contextual. Si bien la ingeniería de sugerencias y el ajuste fino pueden proporcionar un grado de personalización, la ingeniería de sugerencias es menos escalable y el ajuste fino a menudo es costoso, ya que requiere cierto nivel de capacitación y, por lo general, requiere una estrecha cooperación con la mayoría de los LLM de código cerrado. Por lo general, no es factible ni deseable ajustar un modelo para cada usuario individual.
El aprendizaje contextual es el santo grial para que esto suceda, donde los LLM toman información del contenido generado por su empresa, la jerga específica de su empresa y el contexto específico para crear resultados más granulares y específicos para casos de uso. Para lograr este objetivo, los LLM necesitan capacidades de memoria mejoradas. La memoria LLM tiene dos componentes principales: ventanas de contexto y recuperación. Una ventana de contexto es texto que un modelo puede procesar y usar para guiar su salida, además del corpus de datos en el que se entrenó. La recuperación se refiere a la recuperación y referencia de información y documentos relevantes ("datos contextuales") de un cuerpo de datos que no sea el corpus de datos de entrenamiento del modelo. Actualmente, la mayoría de los LLM tienen ventanas de contexto limitadas y no pueden recuperar información adicional de forma nativa, lo que genera resultados que carecen de personalización. Sin embargo, con ventanas de contexto más grandes y recuperación mejorada, los LLM pueden proporcionar directamente resultados más granulares y específicos de casos de uso.
En particular, al expandir la ventana de contexto, el modelo podrá manejar volúmenes de texto más grandes y preservar mejor el contexto, incluido el mantenimiento de la coherencia en el diálogo. Esto mejorará significativamente aún más la capacidad del modelo en tareas que requieren una comprensión más profunda de entradas más largas, como resumir textos largos o generar respuestas coherentes y contextualmente precisas durante conversaciones largas. En términos de ventanas de contexto, hemos visto mejoras significativas: GPT-4 tiene ventanas de contexto de tokens de 8k y 32k, en comparación con tokens de 4k y 16k para GPT-3.5 y ChatGPT, y Claude recientemente movió Su ventana de contexto se extiende a 100k asombrosos fichas [2] 。
Expandir la ventana de contexto por sí sola no mejora la memoria lo suficiente, ya que el costo y el tiempo de la inferencia se escalan casi linealmente o incluso cuadráticamente con la longitud de la pista. [3] El mecanismo de recuperación aumenta y refina el corpus de entrenamiento original del LLM con datos contextuales relacionados con la señal. Dado que los LLM están capacitados en un cuerpo de información y, a menudo, son difíciles de actualizar, la recuperación tiene dos beneficios principales, según Shoham: "Primero, le permite acceder a fuentes de información que no tenía en el momento de la capacitación. Segundo, le permite Enfoca el modelo de lenguaje en la información que crees que es relevante para la tarea". Las bases de datos vectoriales como Pinecone se han convertido en el estándar de facto para recuperar información relevante de manera eficiente y sirven como capa de memoria para los LLM, lo que facilita que los modelos busque y haga referencia de forma rápida y precisa a grandes cantidades de información, datos correctos en formato .
El aumento de las ventanas de contexto y la recuperación serán especialmente importantes en los casos de uso empresarial, como navegar en grandes bases de conocimiento o bases de datos complejas. Las empresas podrán aprovechar mejor sus datos de propiedad, como el conocimiento interno, los tickets históricos de atención al cliente o los resultados financieros, como entrada para los LLM sin ajustes. Mejorar la memoria de los LLM traerá mejoras y capacidades de personalización profundas en áreas como capacitación, informes, búsqueda interna, análisis de datos e inteligencia comercial, y atención al cliente.
En el espacio del consumidor, las ventanas contextuales mejoradas y la recuperación permitirán poderosas capacidades de personalización que revolucionarán la experiencia del usuario. Según Noam Shazeer, "Uno de los grandes avances será desarrollar un modelo que tenga una capacidad de memoria muy alta que se pueda personalizar para cada usuario sin dejar de ser rentable a escala. Desea que su terapeuta conozca todos los aspectos de su vida; quieres que tus maestros sepan lo que tú ya sabes; quieres que tus entrenadores de vida puedan aconsejarte sobre lo que está pasando. Todos necesitan contexto". Aidan Gomez también está entusiasmado con este desarrollo. "Al darle al modelo acceso a datos que son únicamente relevantes para usted, como su correo electrónico, calendario o mensajes directos", dijo, "el modelo aprenderá sobre sus relaciones con diferentes para ayudarlo de la mejor manera posible bajo las circunstancias". ."
Avance clave: los LLM podrán considerar grandes cantidades de información relevante y proporcionar resultados más personales, personalizados y útiles. *
** "Brazos y Piernas": Da al modelo la habilidad de usar herramientas**
El verdadero poder de los LLM radica en hacer del lenguaje natural un medio para la acción. Los LLM tienen una comprensión sofisticada de los sistemas comunes y bien documentados, pero no pueden hacer cumplir ninguna información extraída de estos sistemas. Por ejemplo, ChatGPT de OpenAI, Claude de Anthropic y Lily de Character AI pueden describir en detalle cómo reservar un vuelo, pero no pueden reservar vuelos de forma nativa por sí mismos (aunque los avances tecnológicos como los complementos de ChatGPT están superando este límite). "En teoría, este cerebro tiene todo este conocimiento, solo le falta el mapeo de los nombres a los botones”, dijo Amodei. “No se necesita mucho entrenamiento para conectar estos cables. Tienes un cerebro incorpóreo que sabe cómo moverse, pero aún no está unido a los brazos y las piernas".
Con el tiempo, hemos visto a las empresas mejorar la capacidad de los LLM para usar las herramientas. Empresas establecidas como Bing y Google y nuevas empresas como Perplexity y You.com lanzaron API de búsqueda. AI21 Labs presentó Jurassic-X, que aborda muchas de las deficiencias de los LLM independientes mediante la combinación de modelos con un conjunto de herramientas predeterminadas, incluidas calculadoras, API meteorológicas, API de Wikipedia y bases de datos. OpenAI lanzó una versión beta de un complemento para ChatGPT que permite que ChatGPT interactúe con herramientas como Expedia, OpenTable, Wolfram, Instacart, Speak, navegadores web e intérpretes de código, un avance que se cree que se parece al momento de la "App Store" de Apple. Recientemente, OpenAI introdujo llamadas de función en GPT-3.5 y GPT-4 [4] , lo que permite a los desarrolladores vincular las capacidades de GPT con cualquier herramienta externa.
La capacidad de agregar brazos y piernas promete permitir una variedad de casos de uso en una amplia variedad de empresas y tipos de usuarios al pasar de la extracción de conocimientos a la orientación a la acción. Para los consumidores, los LLM pronto podrán sugerir recetas y luego ordenar los ingredientes que necesitan, o sugerir un lugar para almorzar y reservar una mesa para usted. En el espacio empresarial, los fundadores pueden hacer que sus aplicaciones sean más fáciles de usar conectando LLM. Como señala Amodei: "Para las funciones que son muy difíciles de usar desde la perspectiva de la interfaz de usuario, es posible que solo necesitemos describirlas en lenguaje natural para lograr operaciones complejas". Por ejemplo, para aplicaciones como Salesforce, la integración LLM debería permitir a los usuarios usar el lenguaje natural para realizar actualizaciones y hacer que el modelo realice automáticamente esos cambios, reduciendo drásticamente el tiempo que lleva mantener su CRM. como coherente [5] y Adepto [6] Estas nuevas empresas están trabajando para integrar los LLM en herramientas tan complejas.
Gomez cree que si bien es cada vez más probable que los LLM puedan usar aplicaciones como Excel dentro de 2 años, "todavía queda mucho por hacer. Tendremos la primera generación de modelos que podrán usar herramientas, y eso será convincente". Pero frágil. Al final tendremos el sistema de sueños donde podemos pasar cualquier software al modelo con alguna descripción como 'esto es lo que hace la herramienta, así es como se usa' y será capaz de usarlo... una vez que podamos proporcionar a los LLM herramientas específicas y generales, la automatización que trae será el pináculo de nuestro campo".
Avance clave: los LLM podrán interactuar de manera más efectiva con las herramientas que usamos hoy. *
multimodal
Si bien las interfaces de chat son emocionantes e intuitivas para muchos usuarios, los humanos pueden escuchar y hablar el idioma con la misma frecuencia con la que lo escriben o lo leen, o más. Como señala Amodei: “Hay un límite para lo que un sistema de IA puede hacer porque no todo es texto.” Un modelo con capacidades multimodales puede procesar y generar contenido sin problemas en múltiples formatos de audio o visuales, extendiendo esta interacción más allá del idioma. Modelos como GPT-4, Character.AI e ImageBind de Meta ya son capaces de procesar y generar imágenes, audio y otras modalidades, pero sus capacidades en esta área son relativamente básicas, aunque el progreso es rápido. En palabras de Gómez, nuestros modelos están literalmente ciegos hoy, y eso debe cambiar. Creamos muchas interfaces gráficas de usuario (GUI) que se suponía que el usuario debía ver.
A medida que los LLM evolucionen para comprender e interactuar mejor con múltiples modalidades, podrán utilizar las aplicaciones existentes que dependen de las GUI, como los navegadores. También pueden brindar a los consumidores una experiencia más atractiva, coherente y holística, lo que permite que las interacciones de los usuarios vayan más allá de las interfaces de chat. "Una gran integración de modelos multimodales puede hacer que las cosas sean más atractivas y más conectadas con los usuarios”, señaló Shazeer. También dijo: "Creo que la mayor parte de la inteligencia central en este momento proviene del texto, pero el audio y el video pueden hacer que estas cosas son más interesantes.” Desde chats de video con tutores de IA hasta iteración y escritura de guiones de dramas de televisión en colaboración con IA, la multimodalidad tiene el potencial de transformar el entretenimiento, el aprendizaje y el desarrollo, y la generación de contenido en una variedad de casos de uso de consumidores y empresas.
La multimodalidad está íntimamente relacionada con el uso de herramientas. Si bien los LLM pueden interactuar inicialmente con software externo a través de API, la multimodalidad permitirá que los LLM utilicen herramientas diseñadas para el consumo humano pero sin integración personalizada, como los sistemas tradicionales de planificación de recursos empresariales (ERP), aplicaciones de escritorio, dispositivos médicos o maquinaria de fabricación. Ya hemos visto un progreso emocionante en este sentido: por ejemplo, el modelo Med-PaLM-2 de Google puede sintetizar imágenes de mamografía y rayos X. Y a más largo plazo, la multimodalidad (especialmente la integración con la visión por computadora) podría extender los LLM a nuestra propia realidad física a través de robótica, vehículos autónomos y otras aplicaciones que requieren una interacción en tiempo real con el mundo físico.
Avance clave: los modelos multimodales pueden razonar sobre imágenes, videos e incluso entornos físicos sin una personalización significativa. *
A pesar de algunas limitaciones prácticas de los LLM, los investigadores han logrado mejoras asombrosas en estos modelos en un corto período de tiempo. El hecho de que lo hayamos actualizado varias veces a partir de este escrito es un testimonio del rápido desarrollo de la tecnología en este campo. Gomez está de acuerdo: "Una vez de cada 20, el LLM inventó el hecho de que obviamente es demasiado alto. Pero estoy muy, muy seguro de que esta es la primera vez que construimos un sistema como este. Las expectativas de la gente son bastante altas, por lo que el objetivo ha sido De 'Las computadoras son tontas, solo pueden hacer matemáticas' a 'Un humano probablemente pueda hacerlo mejor'. Hemos acortado la brecha lo suficiente como para que la crítica se haya centrado en lo que un humano puede hacer".
Estamos particularmente entusiasmados con las siguientes cuatro innovaciones que están en el punto de inflexión para cambiar la forma en que los empresarios crean productos y dirigen empresas. A la larga, el potencial es aún mayor. Amodei predice: "En algún momento, es posible que tengamos un modelo que pueda leer todos los datos biológicos y descubrir una cura para el cáncer". En Character.AI, Shazeer permite a los usuarios desarrollar estos casos de uso: "Vamos a ver muchas aplicaciones nuevas desbloqueadas. Es difícil para mí decir cuáles son esas aplicaciones. Habrá millones de aplicaciones, y los usuarios superan en número a los pocos". Los ingenieros son mejores para descubrir cómo usar la tecnología". Estamos ansiosos por ver cómo estos avances afectarán la forma en que vivimos y trabajamos como empresarios y empresas, ya que estas nuevas herramientas y capacidades nos empoderan.
*Gracias a Matt Bornstein, Guido Appenzeller y Rajko Radovanović por sus comentarios y opiniones durante el proceso de escritura. *
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
A16Z: 4 avances en IA generativa
Los modelos de lenguaje extenso (LLM) se han convertido en un tema candente en la industria de la tecnología, brindándonos algunas experiencias increíbles, desde escribir el código de una semana en segundos hasta generar conversaciones más empáticas que las que tenemos con los humanos. Entrenados en trillones de tokens de datos que utilizan decenas de miles de GPU, los LLM demuestran una notable comprensión del lenguaje natural y transforman campos como la redacción y la codificación, empujándonos hacia una nueva y emocionante era de IA generativa. Como cualquier tecnología emergente, la IA generativa tiene una buena cantidad de críticas. Aunque estas críticas reflejan en parte las limitaciones de las capacidades actuales de los LLM, vemos estos obstáculos como oportunidades para una mayor innovación en lugar de deficiencias fundamentales de la tecnología.
Para comprender mejor los avances tecnológicos recientes en LLM y preparar a los fundadores y operadores para el futuro, hablamos con algunos de los principales investigadores de IA generativa que están construyendo y entrenando activamente algunos de los modelos más grandes y de vanguardia. Estos incluyen a Dario Amodei, CEO de Anthropic, Aidan Gomez, CEO de Cohere, Noam Shazeer, CEO de Character.AI y Yoav Shoham de AI21 Labs. Estas conversaciones identificaron 4 direcciones clave de innovación para el futuro: orientación, memoria, "manos y pies" y multimodalidad. En este artículo, analizamos cómo evolucionarán estas innovaciones clave en los próximos 6 a 12 meses y cómo, los fundadores interesados en integrar la IA en sus propios negocios, pueden aprovechar estos nuevos desarrollos. **
guía
Muchos fundadores expresan su preocupación por el uso de LLM en sus productos y flujos de trabajo debido al potencial de alucinaciones y sesgos de reproducción de estos modelos. Para abordar estos problemas, algunas empresas de modelado líderes están trabajando para mejorar las técnicas de dirección, un método para controlar mejor los resultados del modelo en la salida de los LLM, lo que permite que los modelos comprendan y ejecuten mejor los requisitos complejos de los usuarios. Noam Shazeer mencionó las similitudes entre los LLM y los niños a este respecto: "Es una cuestión de cómo mejorar [los modelos] de arranque... El problema que tenemos con los LLM es que necesitamos la forma correcta de decirles cómo seguir Actuando en nuestra Los niños pequeños son iguales: a veces inventan cosas y no tienen una comprensión clara de la fantasía y la realidad ". Aunque después de la aparición de proveedores de modelos y herramientas como Guardrails y LMQL, en términos de capacidad de orientación [1] Se ha logrado un progreso notable y los investigadores aún están progresando, lo que creemos que es fundamental para producir mejor los LLM para los usuarios finales.
La orientación mejorada es especialmente importante en las empresas empresariales, donde las consecuencias de un comportamiento impredecible pueden ser costosas. Amodei señaló que la imprevisibilidad de los LLM puede hacer que las personas se sientan incómodas y, como proveedor de API, quiere poder "decir a los clientes 'no, los modelos no hacen esto', o al menos rara vez lo hacen". resultado, los fundadores pueden garantizar con más confianza que el rendimiento del modelo se ajusta a las necesidades de los clientes. La orientación mejorada también allanará el camino para una adopción generalizada en otras industrias que requieren una mayor precisión y confiabilidad, como la industria de la publicidad, donde hay mucho en juego para la colocación de anuncios. Amodei también cree que la orientación mejorada podría aplicarse a "casos de uso legal, casos de uso médico, almacenamiento de información financiera y gestión de apuestas financieras, y escenarios en los que necesita proteger la marca de su empresa. No desea que la tecnología que está integrando sea impredecible o difícil de predecir o caracterizar "Al estar mejor orientados, los LLM también podrán realizar tareas más complejas con una pequeña cantidad de ingeniería indirecta, porque podrán comprender mejor la intención general".
Los avances en la orientación de los LLM también tienen el potencial de abrir nuevas posibilidades en aplicaciones de consumidores sensibles donde los usuarios esperan respuestas personalizadas y precisas. Si bien los usuarios pueden tolerar resultados menos precisos cuando participan en interacciones conversacionales o creativas con LLM, cuando los usuarios usan LLM para ayudar con las tareas cotidianas, guiar decisiones importantes o ayudar a profesionales como entrenadores de vida, terapeutas y médicos, quieren resultados más precisos. Se ha señalado que se espera que los LLM reemplacen las aplicaciones de consumo bien establecidas, como la búsqueda, pero antes de que esto se convierta en una posibilidad real, es posible que necesitemos una mejor orientación para mejorar el resultado del modelo y generar confianza en el usuario.
memoria
Las aplicaciones de redacción publicitaria y generación de anuncios impulsadas por LLM han logrado un gran éxito y han ganado popularidad rápidamente entre los especialistas en marketing, anunciantes y empresarios. Sin embargo, el resultado de la mayoría de los LLM actuales está relativamente generalizado, lo que dificulta su uso para casos de uso que requieren personalización y comprensión contextual. Si bien la ingeniería de sugerencias y el ajuste fino pueden proporcionar un grado de personalización, la ingeniería de sugerencias es menos escalable y el ajuste fino a menudo es costoso, ya que requiere cierto nivel de capacitación y, por lo general, requiere una estrecha cooperación con la mayoría de los LLM de código cerrado. Por lo general, no es factible ni deseable ajustar un modelo para cada usuario individual.
El aprendizaje contextual es el santo grial para que esto suceda, donde los LLM toman información del contenido generado por su empresa, la jerga específica de su empresa y el contexto específico para crear resultados más granulares y específicos para casos de uso. Para lograr este objetivo, los LLM necesitan capacidades de memoria mejoradas. La memoria LLM tiene dos componentes principales: ventanas de contexto y recuperación. Una ventana de contexto es texto que un modelo puede procesar y usar para guiar su salida, además del corpus de datos en el que se entrenó. La recuperación se refiere a la recuperación y referencia de información y documentos relevantes ("datos contextuales") de un cuerpo de datos que no sea el corpus de datos de entrenamiento del modelo. Actualmente, la mayoría de los LLM tienen ventanas de contexto limitadas y no pueden recuperar información adicional de forma nativa, lo que genera resultados que carecen de personalización. Sin embargo, con ventanas de contexto más grandes y recuperación mejorada, los LLM pueden proporcionar directamente resultados más granulares y específicos de casos de uso.
En particular, al expandir la ventana de contexto, el modelo podrá manejar volúmenes de texto más grandes y preservar mejor el contexto, incluido el mantenimiento de la coherencia en el diálogo. Esto mejorará significativamente aún más la capacidad del modelo en tareas que requieren una comprensión más profunda de entradas más largas, como resumir textos largos o generar respuestas coherentes y contextualmente precisas durante conversaciones largas. En términos de ventanas de contexto, hemos visto mejoras significativas: GPT-4 tiene ventanas de contexto de tokens de 8k y 32k, en comparación con tokens de 4k y 16k para GPT-3.5 y ChatGPT, y Claude recientemente movió Su ventana de contexto se extiende a 100k asombrosos fichas [2] 。
Expandir la ventana de contexto por sí sola no mejora la memoria lo suficiente, ya que el costo y el tiempo de la inferencia se escalan casi linealmente o incluso cuadráticamente con la longitud de la pista. [3] El mecanismo de recuperación aumenta y refina el corpus de entrenamiento original del LLM con datos contextuales relacionados con la señal. Dado que los LLM están capacitados en un cuerpo de información y, a menudo, son difíciles de actualizar, la recuperación tiene dos beneficios principales, según Shoham: "Primero, le permite acceder a fuentes de información que no tenía en el momento de la capacitación. Segundo, le permite Enfoca el modelo de lenguaje en la información que crees que es relevante para la tarea". Las bases de datos vectoriales como Pinecone se han convertido en el estándar de facto para recuperar información relevante de manera eficiente y sirven como capa de memoria para los LLM, lo que facilita que los modelos busque y haga referencia de forma rápida y precisa a grandes cantidades de información, datos correctos en formato .
El aumento de las ventanas de contexto y la recuperación serán especialmente importantes en los casos de uso empresarial, como navegar en grandes bases de conocimiento o bases de datos complejas. Las empresas podrán aprovechar mejor sus datos de propiedad, como el conocimiento interno, los tickets históricos de atención al cliente o los resultados financieros, como entrada para los LLM sin ajustes. Mejorar la memoria de los LLM traerá mejoras y capacidades de personalización profundas en áreas como capacitación, informes, búsqueda interna, análisis de datos e inteligencia comercial, y atención al cliente.
En el espacio del consumidor, las ventanas contextuales mejoradas y la recuperación permitirán poderosas capacidades de personalización que revolucionarán la experiencia del usuario. Según Noam Shazeer, "Uno de los grandes avances será desarrollar un modelo que tenga una capacidad de memoria muy alta que se pueda personalizar para cada usuario sin dejar de ser rentable a escala. Desea que su terapeuta conozca todos los aspectos de su vida; quieres que tus maestros sepan lo que tú ya sabes; quieres que tus entrenadores de vida puedan aconsejarte sobre lo que está pasando. Todos necesitan contexto". Aidan Gomez también está entusiasmado con este desarrollo. "Al darle al modelo acceso a datos que son únicamente relevantes para usted, como su correo electrónico, calendario o mensajes directos", dijo, "el modelo aprenderá sobre sus relaciones con diferentes para ayudarlo de la mejor manera posible bajo las circunstancias". ."
** "Brazos y Piernas": Da al modelo la habilidad de usar herramientas**
El verdadero poder de los LLM radica en hacer del lenguaje natural un medio para la acción. Los LLM tienen una comprensión sofisticada de los sistemas comunes y bien documentados, pero no pueden hacer cumplir ninguna información extraída de estos sistemas. Por ejemplo, ChatGPT de OpenAI, Claude de Anthropic y Lily de Character AI pueden describir en detalle cómo reservar un vuelo, pero no pueden reservar vuelos de forma nativa por sí mismos (aunque los avances tecnológicos como los complementos de ChatGPT están superando este límite). "En teoría, este cerebro tiene todo este conocimiento, solo le falta el mapeo de los nombres a los botones”, dijo Amodei. “No se necesita mucho entrenamiento para conectar estos cables. Tienes un cerebro incorpóreo que sabe cómo moverse, pero aún no está unido a los brazos y las piernas".
Con el tiempo, hemos visto a las empresas mejorar la capacidad de los LLM para usar las herramientas. Empresas establecidas como Bing y Google y nuevas empresas como Perplexity y You.com lanzaron API de búsqueda. AI21 Labs presentó Jurassic-X, que aborda muchas de las deficiencias de los LLM independientes mediante la combinación de modelos con un conjunto de herramientas predeterminadas, incluidas calculadoras, API meteorológicas, API de Wikipedia y bases de datos. OpenAI lanzó una versión beta de un complemento para ChatGPT que permite que ChatGPT interactúe con herramientas como Expedia, OpenTable, Wolfram, Instacart, Speak, navegadores web e intérpretes de código, un avance que se cree que se parece al momento de la "App Store" de Apple. Recientemente, OpenAI introdujo llamadas de función en GPT-3.5 y GPT-4 [4] , lo que permite a los desarrolladores vincular las capacidades de GPT con cualquier herramienta externa.
La capacidad de agregar brazos y piernas promete permitir una variedad de casos de uso en una amplia variedad de empresas y tipos de usuarios al pasar de la extracción de conocimientos a la orientación a la acción. Para los consumidores, los LLM pronto podrán sugerir recetas y luego ordenar los ingredientes que necesitan, o sugerir un lugar para almorzar y reservar una mesa para usted. En el espacio empresarial, los fundadores pueden hacer que sus aplicaciones sean más fáciles de usar conectando LLM. Como señala Amodei: "Para las funciones que son muy difíciles de usar desde la perspectiva de la interfaz de usuario, es posible que solo necesitemos describirlas en lenguaje natural para lograr operaciones complejas". Por ejemplo, para aplicaciones como Salesforce, la integración LLM debería permitir a los usuarios usar el lenguaje natural para realizar actualizaciones y hacer que el modelo realice automáticamente esos cambios, reduciendo drásticamente el tiempo que lleva mantener su CRM. como coherente [5] y Adepto [6] Estas nuevas empresas están trabajando para integrar los LLM en herramientas tan complejas.
Gomez cree que si bien es cada vez más probable que los LLM puedan usar aplicaciones como Excel dentro de 2 años, "todavía queda mucho por hacer. Tendremos la primera generación de modelos que podrán usar herramientas, y eso será convincente". Pero frágil. Al final tendremos el sistema de sueños donde podemos pasar cualquier software al modelo con alguna descripción como 'esto es lo que hace la herramienta, así es como se usa' y será capaz de usarlo... una vez que podamos proporcionar a los LLM herramientas específicas y generales, la automatización que trae será el pináculo de nuestro campo".
multimodal
Si bien las interfaces de chat son emocionantes e intuitivas para muchos usuarios, los humanos pueden escuchar y hablar el idioma con la misma frecuencia con la que lo escriben o lo leen, o más. Como señala Amodei: “Hay un límite para lo que un sistema de IA puede hacer porque no todo es texto.” Un modelo con capacidades multimodales puede procesar y generar contenido sin problemas en múltiples formatos de audio o visuales, extendiendo esta interacción más allá del idioma. Modelos como GPT-4, Character.AI e ImageBind de Meta ya son capaces de procesar y generar imágenes, audio y otras modalidades, pero sus capacidades en esta área son relativamente básicas, aunque el progreso es rápido. En palabras de Gómez, nuestros modelos están literalmente ciegos hoy, y eso debe cambiar. Creamos muchas interfaces gráficas de usuario (GUI) que se suponía que el usuario debía ver.
A medida que los LLM evolucionen para comprender e interactuar mejor con múltiples modalidades, podrán utilizar las aplicaciones existentes que dependen de las GUI, como los navegadores. También pueden brindar a los consumidores una experiencia más atractiva, coherente y holística, lo que permite que las interacciones de los usuarios vayan más allá de las interfaces de chat. "Una gran integración de modelos multimodales puede hacer que las cosas sean más atractivas y más conectadas con los usuarios”, señaló Shazeer. También dijo: "Creo que la mayor parte de la inteligencia central en este momento proviene del texto, pero el audio y el video pueden hacer que estas cosas son más interesantes.” Desde chats de video con tutores de IA hasta iteración y escritura de guiones de dramas de televisión en colaboración con IA, la multimodalidad tiene el potencial de transformar el entretenimiento, el aprendizaje y el desarrollo, y la generación de contenido en una variedad de casos de uso de consumidores y empresas.
La multimodalidad está íntimamente relacionada con el uso de herramientas. Si bien los LLM pueden interactuar inicialmente con software externo a través de API, la multimodalidad permitirá que los LLM utilicen herramientas diseñadas para el consumo humano pero sin integración personalizada, como los sistemas tradicionales de planificación de recursos empresariales (ERP), aplicaciones de escritorio, dispositivos médicos o maquinaria de fabricación. Ya hemos visto un progreso emocionante en este sentido: por ejemplo, el modelo Med-PaLM-2 de Google puede sintetizar imágenes de mamografía y rayos X. Y a más largo plazo, la multimodalidad (especialmente la integración con la visión por computadora) podría extender los LLM a nuestra propia realidad física a través de robótica, vehículos autónomos y otras aplicaciones que requieren una interacción en tiempo real con el mundo físico.
A pesar de algunas limitaciones prácticas de los LLM, los investigadores han logrado mejoras asombrosas en estos modelos en un corto período de tiempo. El hecho de que lo hayamos actualizado varias veces a partir de este escrito es un testimonio del rápido desarrollo de la tecnología en este campo. Gomez está de acuerdo: "Una vez de cada 20, el LLM inventó el hecho de que obviamente es demasiado alto. Pero estoy muy, muy seguro de que esta es la primera vez que construimos un sistema como este. Las expectativas de la gente son bastante altas, por lo que el objetivo ha sido De 'Las computadoras son tontas, solo pueden hacer matemáticas' a 'Un humano probablemente pueda hacerlo mejor'. Hemos acortado la brecha lo suficiente como para que la crítica se haya centrado en lo que un humano puede hacer".
Estamos particularmente entusiasmados con las siguientes cuatro innovaciones que están en el punto de inflexión para cambiar la forma en que los empresarios crean productos y dirigen empresas. A la larga, el potencial es aún mayor. Amodei predice: "En algún momento, es posible que tengamos un modelo que pueda leer todos los datos biológicos y descubrir una cura para el cáncer". En Character.AI, Shazeer permite a los usuarios desarrollar estos casos de uso: "Vamos a ver muchas aplicaciones nuevas desbloqueadas. Es difícil para mí decir cuáles son esas aplicaciones. Habrá millones de aplicaciones, y los usuarios superan en número a los pocos". Los ingenieros son mejores para descubrir cómo usar la tecnología". Estamos ansiosos por ver cómo estos avances afectarán la forma en que vivimos y trabajamos como empresarios y empresas, ya que estas nuevas herramientas y capacidades nos empoderan.
*Gracias a Matt Bornstein, Guido Appenzeller y Rajko Radovanović por sus comentarios y opiniones durante el proceso de escritura. *