A16Z: 4 avanços na IA generativa

Modelos de linguagem grande (LLMs) tornaram-se um tópico importante na indústria de tecnologia, proporcionando-nos algumas experiências incríveis — desde escrever o código de uma semana em segundos até gerar conversas mais empáticas do que temos com humanos. Treinados em trilhões de tokens de dados usando dezenas de milhares de GPUs, os LLMs demonstram notável compreensão da linguagem natural e transformam campos como direitos autorais e codificação, levando-nos a uma nova e excitante era de IA generativa. Como qualquer tecnologia emergente, a IA generativa tem seu quinhão de críticas. Embora essas críticas reflitam parcialmente as limitações das capacidades atuais dos LLMs, vemos esses obstáculos como oportunidades para mais inovações, e não como deficiências fundamentais da tecnologia.

Para entender melhor os avanços tecnológicos recentes em LLMs e preparar fundadores e operadores para o futuro, conversamos com alguns dos principais pesquisadores de IA generativa que estão construindo e treinando ativamente alguns dos maiores e mais avançados modelos, incluindo Dario Amodei, CEO da Anthropic, Aidan Gomez, CEO da Cohere, Noam Shazeer, CEO da Character.AI e Yoav Shoham da AI21 Labs. Essas conversas identificaram 4 direções principais de inovação para o futuro: orientação, memória, "mãos e pés" e multimodalidade. Neste artigo, discutimos como essas inovações importantes evoluirão nos próximos 6 a 12 meses e como, para os fundadores interessados em integrar a IA em seus próprios negócios, eles podem tirar proveito desses novos desenvolvimentos. **

guia

Muitos fundadores expressam preocupação com o uso de LLMs em seus produtos e fluxos de trabalho devido ao potencial de alucinações e viés de reprodução desses modelos. Para resolver esses problemas, algumas empresas líderes de modelagem estão trabalhando para melhorar as técnicas de direção - um método para controlar melhor os resultados do modelo na saída dos LLMs, permitindo que os modelos entendam e executem melhor os requisitos complexos do usuário. Noam Shazeer mencionou as semelhanças entre LLMs e crianças a esse respeito: "É uma questão de como melhor inicializar [modelos]... As crianças pequenas são iguais - às vezes inventam coisas e não têm uma compreensão clara da fantasia e da realidade." [1] Um progresso notável foi feito e os pesquisadores ainda estão progredindo, o que acreditamos ser fundamental para melhor produtizar os LLMs para os usuários finais.

A orientação aprimorada é especialmente importante em empresas corporativas, onde as consequências do comportamento imprevisível podem ser caras. Amodei apontou que a imprevisibilidade dos LLMs pode deixar as pessoas desconfortáveis e, como provedor de API, ele deseja poder "dizer aos clientes 'não, modelos não fazem isso' ou, pelo menos, raramente o fazem". saída, os fundadores podem garantir com mais confiança que o desempenho do modelo corresponda às necessidades dos clientes. A orientação aprimorada também abrirá caminho para a adoção generalizada em outros setores que exigem maior precisão e confiabilidade, como o setor de publicidade, onde os riscos para a colocação de anúncios são altos. Amodei também acredita que a orientação aprimorada pode se aplicar a "casos de uso legal, casos de uso médico, armazenamento de informações financeiras e gerenciamento de apostas financeiras e cenários em que você precisa proteger a marca de sua empresa. Você não quer que a tecnologia que está integrando seja imprevisível ou difícil de prever ou caracterizar. "Por serem melhor orientados, os LLMs também serão capazes de realizar tarefas mais complexas com uma pequena quantidade de engenharia de dicas, porque serão capazes de entender melhor a intenção geral."

Avanços na orientação de LLMs também têm o potencial de abrir novas possibilidades em aplicativos de consumo sensíveis, onde os usuários esperam respostas personalizadas e precisas. Embora os usuários possam tolerar resultados menos precisos ao se envolver em interações de conversação ou criativas com LLMs, quando os usuários usam LLMs para auxiliar nas tarefas diárias, orientar decisões importantes ou aumentar profissionais como treinadores de vida, terapeutas e médicos, eles desejam resultados mais precisos. Foi apontado que espera-se que os LLMs substituam os aplicativos de consumo bem estabelecidos, como a pesquisa, mas antes que isso se torne uma possibilidade real, podemos precisar de uma orientação melhor para melhorar a saída do modelo e construir a confiança do usuário.

  • Ponto de avanço chave: os usuários podem personalizar melhor a saída do LLMS. *

memória

Os aplicativos de redação e geração de anúncios conduzidos por LLMs alcançaram grande sucesso, ganhando popularidade rapidamente entre profissionais de marketing, anunciantes e empreendedores. No entanto, a saída da maioria dos LLMs atuais é relativamente generalizada, o que torna difícil usá-los para casos de uso que exigem personalização e compreensão contextual. Embora a engenharia de dicas e o ajuste fino possam fornecer um grau de personalização, a engenharia de dicas é menos escalável e o ajuste fino geralmente é caro, pois requer algum nível de retreinamento e geralmente requer cooperação próxima com a maioria dos LLMs de código fechado. O ajuste fino de um modelo para cada usuário individual geralmente não é viável ou desejável.

O aprendizado contextual é o santo graal para que isso aconteça, onde os LLMs obtêm informações do conteúdo gerado pela empresa, do jargão específico da empresa e do contexto específico para criar uma saída mais granular e específica do caso de uso. Para atingir esse objetivo, os LLMs precisam de recursos de memória aprimorados. A memória LLM tem dois componentes principais: janelas de contexto e recuperação. Uma janela de contexto é um texto que um modelo pode processar e usar para orientar sua saída, além do corpus de dados em que foi treinado. A recuperação refere-se à recuperação e referência de informações e documentos relevantes (“dados contextuais”) de um corpo de dados que não seja o corpus de dados de treinamento do modelo. Atualmente, a maioria dos LLMs tem janelas de contexto limitadas e não podem recuperar informações adicionais de forma nativa, gerando uma saída que carece de personalização. No entanto, com janelas de contexto maiores e recuperação aprimorada, os LLMs podem fornecer diretamente saídas mais granulares e específicas de casos de uso.

Em particular, ao expandir a janela de contexto, o modelo será capaz de lidar com volumes maiores de texto e preservar melhor o contexto, inclusive mantendo a coerência no diálogo. Isso melhorará ainda mais significativamente a capacidade do modelo em tarefas que exigem uma compreensão mais profunda de entradas mais longas, como resumir textos longos ou gerar respostas coerentes e contextualmente precisas durante conversas longas. Em termos de janelas de contexto, vimos melhorias significativas - GPT-4 tem janelas de contexto de tokens de 8k e 32k, em comparação com tokens de 4k e 16k para GPT-3.5 e ChatGPT, e Claude mudou recentemente Sua janela de contexto se estende a impressionantes 100k fichas [2] 。

Expandir a janela de contexto por si só não melhora suficientemente a memória, pois o custo e o tempo de inferência escalam quase linearmente ou até mesmo quadraticamente com o comprimento da dica. [3] O mecanismo de recuperação aumenta e refina o corpus de treinamento original do LLM com dados contextuais relacionados à sugestão. Como os LLMs são treinados em um corpo de informações e geralmente são difíceis de atualizar, a recuperação tem dois benefícios principais, de acordo com Shoham: "Primeiro, permite acessar fontes de informações que você não tinha no momento do treinamento. Segundo, permite você a focar o modelo de linguagem na informação que você acha que é relevante para a tarefa." Bancos de dados vetoriais como o Pinecone tornaram-se o padrão de fato para a recuperação eficiente de informações relevantes e servem como camada de memória para LLMs, tornando mais fácil para os modelos Pesquise com rapidez e precisão e faça referência a grandes quantidades de informações, dados corretos em formato .

As janelas de contexto aumentadas e a recuperação serão especialmente importantes em casos de uso corporativo, como navegar em grandes bases de conhecimento ou bancos de dados complexos. As empresas poderão aproveitar melhor seus dados proprietários, como conhecimento interno, tíquetes históricos de suporte ao cliente ou resultados financeiros, como entrada para LLMs sem ajuste fino. Melhorar a memória dos LLMs trará melhorias e recursos de personalização profunda em áreas como treinamento, relatórios, pesquisa interna, análise de dados e inteligência de negócios e suporte ao cliente.

No espaço do consumidor, janelas contextuais aprimoradas e recuperação permitirão recursos de personalização poderosos que revolucionarão a experiência do usuário. De acordo com Noam Shazeer, "Um dos grandes avanços será desenvolver um modelo que tenha uma capacidade de memória muito alta que possa ser personalizado para cada usuário e ainda seja econômico em escala. Você quer que seu terapeuta conheça todos os seus aspectos de vida; você quer que seus professores saibam o que você já sabe; você quer que seus life coaches possam aconselhá-lo sobre o que está acontecendo. Todos eles precisam de contexto.” Aidan Gomez também está entusiasmado com esse desenvolvimento. "Ao dar ao modelo acesso a dados que são exclusivamente relevantes para você, como seu e-mail, calendário ou mensagens diretas", disse ele, "o modelo aprenderá sobre seus relacionamentos com diferentes para ajudá-lo da melhor maneira possível nas circunstâncias. ."

*Avanço importante: os LLMs poderão considerar grandes quantidades de informações relevantes e fornecer resultados mais pessoais, personalizados e úteis. *

** "Braços e Pernas": Dá ao modelo a capacidade de usar ferramentas**

O verdadeiro poder dos LLMs está em tornar a linguagem natural um meio de ação. Os LLMs têm uma compreensão sofisticada de sistemas comuns e bem documentados, mas não podem impor nenhuma informação extraída desses sistemas. Por exemplo, o ChatGPT da OpenAI, o Claude da Anthropic e a Lily da Character AI podem descrever em detalhes como reservar um voo, mas eles não podem reservar voos de forma nativa sozinhos (embora avanços tecnológicos como os plug-ins do ChatGPT estejam ultrapassando esse limite). "Este cérebro teoricamente tem todo esse conhecimento, só falta o mapeamento de nomes para botões", disse Amodei. "Não é preciso muito treinamento para conectar esses cabos. Você tem um cérebro desencarnado que sabe como se mover, mas ainda não está preso aos braços e pernas."

Com o tempo, vimos empresas melhorarem a capacidade dos LLMs de usar as ferramentas. Empresas estabelecidas como Bing e Google e startups como Perplexity e You.com lançaram APIs de busca. O AI21 Labs apresentou o Jurassic-X, que aborda muitas das deficiências dos LLMs independentes, combinando modelos com um conjunto de ferramentas predeterminadas, incluindo calculadoras, APIs meteorológicas, APIs da Wikipédia e bancos de dados. A OpenAI lançou uma versão beta de um plug-in para ChatGPT que permite que o ChatGPT interaja com ferramentas como Expedia, OpenTable, Wolfram, Instacart, Speak, navegadores da web e interpretadores de código, um avanço que se acredita assemelhar-se ao momento "App Store" da Apple. Recentemente, OpenAI introduziu chamadas de função em GPT-3.5 e GPT-4 [4] , permitindo que os desenvolvedores vinculem os recursos do GPT a quaisquer ferramentas externas.

A capacidade de adicionar braços e pernas promete permitir uma variedade de casos de uso em uma ampla variedade de empresas e tipos de usuários, passando da mineração de conhecimento para a orientação à ação. Para os consumidores, os LLMs poderão em breve sugerir receitas e pedir os ingredientes de que você precisa, ou sugerir um brunch e reservar uma mesa para você. No espaço corporativo, os fundadores podem facilitar o uso de seus aplicativos conectando LLMs. Como aponta Amodei: "Para funções que são muito difíceis de usar do ponto de vista da interface do usuário, podemos precisar apenas descrevê-las em linguagem natural para obter operações complexas". para usar a linguagem natural para fazer atualizações e fazer com que o modelo faça essas alterações automaticamente, reduzindo drasticamente o tempo necessário para manter seu CRM. como coerente [5] e Adepto [6] Essas startups estão trabalhando na integração de LLMs em ferramentas tão complexas.

Gomez acredita que, embora seja cada vez mais provável que os LLMs possam usar aplicativos como o Excel dentro de 2 anos, "muito refinamento ainda precisa ser feito. Teremos a primeira geração de modelos que poderão usar ferramentas, e isso será atraente." Mas frágil. No final, teremos o sistema dos sonhos, onde podemos entregar qualquer software ao modelo com alguma descrição como 'aqui está o que a ferramenta faz, aqui está como usá-la' e será capaz de usá-lo ... uma vez que podemos fornecer LLMs com ferramentas específicas e gerais, a automação que ele traz será o auge do nosso campo."

*Avanço importante: os LLMs poderão interagir de forma mais eficaz com as ferramentas que usamos hoje. *

multimodal

Embora as interfaces de bate-papo sejam emocionantes e intuitivas para muitos usuários, os humanos podem ouvir e falar idiomas com a mesma frequência com que escrevem ou leem, ou mais. Como aponta Amodei: “Há um limite para o que um sistema de IA pode fazer porque nem tudo é texto.” Um modelo com recursos multimodais pode processar e gerar conteúdo em vários formatos visuais ou de áudio sem problemas, estendendo essa interação além da linguagem. Modelos como GPT-4, Character.AI e Meta's ImageBind já são capazes de processar e gerar imagens, áudio e outras modalidades, mas seus recursos nessa área são relativamente básicos, embora o progresso seja rápido. Nas palavras de Gomez, nossos modelos estão literalmente cegos hoje, e isso precisa mudar. Construímos muitas interfaces gráficas de usuário (GUIs) que deveriam ser vistas pelo usuário.

À medida que os LLMs evoluem para entender e interagir melhor com várias modalidades, eles poderão usar aplicativos existentes que dependem de GUIs, como navegadores. Eles também podem fornecer aos consumidores uma experiência mais envolvente, coerente e holística, permitindo que as interações do usuário vão além das interfaces de bate-papo. "Muita integração de modelos multimodais pode tornar as coisas mais envolventes e mais conectadas aos usuários", observou Shazeer. Ele também disse: "Acho que a maior parte da inteligência central agora vem do texto, mas o áudio e o vídeo podem tornar essas coisas são mais interessantes.” De bate-papo por vídeo com tutores de IA à iteração e escrita de roteiros de dramas de TV em colaboração com IA, a multimodalidade tem o potencial de transformar entretenimento, aprendizado e desenvolvimento e geração de conteúdo em uma variedade de casos de uso de consumidores e empresas.

A multimodalidade está intimamente relacionada ao uso de ferramentas. Embora os LLMs possam inicialmente interagir com software externo por meio de APIs, a multimodalidade permitirá que os LLMs usem ferramentas projetadas para consumo humano, mas sem integração personalizada, como sistemas tradicionais de planejamento de recursos empresariais (ERP), aplicativos de desktop, dispositivos médicos ou máquinas de fabricação. Já vimos um progresso empolgante nesse sentido: por exemplo, o modelo Med-PaLM-2 do Google pode sintetizar imagens de mamografia e raios-X. E a longo prazo, a multimodalidade (especialmente integração com visão computacional) poderia estender os LLMs para nossa própria realidade física por meio de robótica, veículos autônomos e outros aplicativos que exigem interação em tempo real com o mundo físico.

*Avanço importante: os modelos multimodais são capazes de raciocinar sobre imagens, vídeos e até mesmo ambientes físicos sem personalização significativa. *

Apesar de algumas limitações práticas dos LLMs, os pesquisadores fizeram melhorias surpreendentes nesses modelos em um curto espaço de tempo. O fato de tê-lo atualizado várias vezes até o momento em que este livro foi escrito é uma prova do rápido desenvolvimento da tecnologia nesse campo. Gomez concorda: "Uma vez em 20, o LLM inventou o fato de que obviamente ainda é muito alto. Mas estou muito, muito confiante de que esta é a primeira vez que construímos um sistema como este. As expectativas das pessoas são muito altas , então o objetivo foi de 'Computadores são burros, eles só podem fazer matemática' para 'Um humano provavelmente poderia fazer melhor'. Nós preenchemos a lacuna o suficiente para que a crítica se concentre no que os humanos podem fazer."

Estamos particularmente empolgados com as quatro inovações a seguir, que estão no ponto de inflexão para mudar a maneira como os empreendedores constroem produtos e administram empresas. A longo prazo, o potencial é ainda maior. Amodei prevê: “Em algum momento, podemos ter um modelo que pode ler todos os dados biológicos e descobrir uma cura para o câncer.” A realidade é que as melhores novas aplicações ainda podem ser desconhecidas. Na Character.AI, Shazeer permite que os usuários desenvolvam estes casos de uso: "Vamos ver muitos novos aplicativos desbloqueados. É difícil para mim dizer o que são esses aplicativos. Haverá milhões de aplicativos e os usuários superam o poucos." Os engenheiros são melhores em descobrir como usar a tecnologia." Mal podemos esperar para ver como esses avanços afetarão a maneira como vivemos e trabalhamos como empreendedores e empresas, pois essas novas ferramentas e recursos nos capacitam.

*Obrigado a Matt Bornstein, Guido Appenzeller e Rajko Radovanović por seus comentários e feedback durante o processo de redação. *

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • 1
  • Compartilhar
Comentário
0/400
GateUser-b2fd1107vip
· 03-18 19:31
1000x Vibes 🤑
Responder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)