¡Alguien finalmente aclaró el status quo de GPT! El último discurso de OpenAI Daniel es muy popular, y tiene que ser un genio seleccionado por Musk.

2023-05-29 08:56:22

Fuente: Qubit

Tras el lanzamiento de Windows Copilot, la popularidad de la conferencia Microsoft Build fue detonada por un discurso.

El ex director de IA de Tesla, Andrej Karpathy, creía en su discurso que árbol de pensamientos es similar a Monte Carlo Tree Search (MCTS) de AlphaGo.

Los internautas gritaron: ¡Esta es la guía más detallada e interesante sobre cómo usar el modelo de lenguaje grande y el modelo GPT-4!

Además, Karpathy reveló que, debido a la expansión del entrenamiento y los datos, LLAMA 65B es "significativamente más potente que GPT-3 175B", y presentó el gran modelo de arena anónima ChatBot Arena:

Claude puntúa entre ChatGPT 3.5 y ChatGPT 4.

Los internautas dijeron que los discursos de Karpathy siempre han sido geniales y esta vez, como siempre, el contenido no decepcionó a todos.

Lo que se hizo popular con el discurso también fue una nota compilada por internautas de Twitter basada en el discurso. Hay un total de 31 notas, y el número de reenvíos ha superado los 3000+:

Entonces, ¿qué se mencionó específicamente en este discurso tan visto?

¿Cómo entrenar al asistente GPT?

El discurso de Karpathy esta vez se divide principalmente en dos partes.

Primera parte, habló sobre cómo entrenar a un "asistente GPT".

Karpathy describe principalmente las cuatro etapas de formación de los asistentes de IA: formación previa, ajuste fino supervisado, modelado de recompensas y aprendizaje por refuerzo.

Cada etapa requiere un conjunto de datos.

En la etapa previa al entrenamiento, se requiere una gran cantidad de recursos informáticos para recopilar una gran cantidad de conjuntos de datos. Entrene un modelo base en un gran conjunto de datos no supervisado.

Karpathy lo complementa con más ejemplos:

Usando un conjunto de datos supervisado más pequeño, el ajuste fino de este modelo base con aprendizaje supervisado crea un modelo asistente que puede responder preguntas.

También mostró el proceso de evolución de algunos modelos.Creo que muchas personas han visto la imagen del "árbol de evolución" de arriba antes.

Karpathy cree que el mejor modelo de código abierto actualmente es la serie LLaMA de Meta (porque OpenAI no ha abierto nada sobre GPT-4).

Lo que debe señalarse claramente aquí es que el modelo base no es un modelo auxiliar.

Aunque el modelo base puede responder la pregunta, la respuesta que da no es confiable y es el modelo asistente el que puede usarse para responder la pregunta. Un modelo asistente capacitado en el modelo base, con un ajuste fino supervisado, superará al modelo base en la generación de respuestas y la comprensión de la estructura del texto.

El aprendizaje por refuerzo es otro proceso crítico cuando se entrenan modelos de lenguaje.

Al entrenar con datos de alta calidad etiquetados por humanos, el modelo de recompensa se puede usar para crear una función de pérdida para mejorar su rendimiento. Luego, el entrenamiento de refuerzo se lleva a cabo aumentando la etiqueta positiva y reduciendo la probabilidad de etiqueta negativa.

En tareas creativas, el uso del juicio humano es crucial para mejorar los modelos de IA, y agregar comentarios humanos puede entrenar modelos de manera más efectiva.

Después de un aprendizaje intensivo con retroalimentación humana, se puede obtener un modelo RLHF.

Después de entrenar el modelo, el siguiente paso es cómo usar estos modelos de manera efectiva para resolver problemas.

¿Cómo usar mejor el modelo?

En la Segunda parte, Karpathy se centra en sugerir estrategias, afinar, el ecosistema de herramientas en rápido crecimiento y la expansión futura.

Karpathy dio ejemplos específicos para ilustrar:

Cuando estamos escribiendo un artículo, llevamos a cabo muchas actividades mentales y debemos considerar si nuestra afirmación es correcta. Para GPT, esto es solo una secuencia de tokens.

Y pista() puede compensar esta diferencia cognitiva.

Karpathy explica con más detalle cómo funciona la pista Cadena de pensamientos.

Para los problemas de inferencia, si desea que Transformer funcione mejor en el procesamiento del lenguaje natural, debe dejar que procese la información paso a paso, en lugar de plantearle directamente un problema muy complicado.

Si le das algunos ejemplos, imitará la plantilla de este ejemplo, y los resultados finales generados serán mejores.

El modelo solo puede responder preguntas en su secuencia, y si lo que genera es incorrecto, puede solicitarle que se regenere.

Si no le pides que compruebe, no se comprobará solo.

Esto implica las preguntas 1 y 2.

Daniel Kahneman, premio Nobel de economía, propuso en "Thinking Fast and Slow" que el sistema cognitivo humano incluye dos subsistemas, 1 y 2. 1 se basa principalmente en la intuición, mientras que 2 es un sistema de análisis lógico.

En términos sencillos, 1 es un proceso rápido y automático, y 2 es una parte bien pensada.

Esto también se menciona en un artículo popular reciente "Árbol del pensamiento".

Reflexivo se refiere a no simplemente dar una respuesta a una pregunta, sino más bien a ser utilizado con el código de pegamento de Python, encadenando muchos juntos. El modelo debe mantener múltiples sugerencias y debe realizar algún algoritmo de búsqueda de árbol para encontrar qué sugerencias expandir.

Karpathy cree que esta línea de pensamiento es muy similar a AlphaGo:

Cuando AlphaGo está jugando Go, debe considerar dónde se colocará la siguiente pieza. Inicialmente aprendió imitando a los humanos. Pero además de eso, hace una búsqueda de árbol de Monte Carlo, lo que lleva a estrategias con múltiples posibilidades. Puede evaluar múltiples movimientos posibles y mantener solo aquellas estrategias que son mejores. Creo que es una especie de equivalente a AlphaGo.

En este sentido, Karpathy también mencionó AutoGPT:

No creo que funcione muy bien por el momento, y no lo recomiendo para uso práctico. Solo creo que con el tiempo podríamos inspirarnos en el lugar al que se dirige.

En segundo lugar, hay otro pequeño golpe que es la generación mejorada de recuperación (generación retri agumentada) y sugerencias efectivas.

El contenido del contexto de la ventana es la memoria de trabajo de los transformadores en tiempo de ejecución, y si puede poner información relacionada con la tarea en el contexto, funcionará muy bien porque tiene acceso inmediato a esta información.

En resumen, los datos relacionados se pueden indexar para que se pueda acceder a los modelos de manera eficiente.

Funcionaría mejor si Transformers también tuviera un documento principal para consultar.

Finalmente, Karpathy habló brevemente sobre la restricción y el ajuste fino en modelos de lenguaje extenso. Los modelos de lenguaje grande se pueden mejorar mediante sugerencias de restricciones y ajustes. La sugerencia de restricción aplica plantillas en la salida de modelos de lenguaje grandes, mientras que el ajuste fino ajusta los pesos del modelo para mejorar el rendimiento.

Recomiendo usar modelos de lenguaje grande para aplicaciones de bajo riesgo, combinándolos siempre con supervisión humana, viéndolos como una fuente de inspiración y consejo, considerando copilotos en lugar de convertirlos en agentes completamente autónomos.

Acerca de Andrej Karpatía

El primer trabajo del Dr. Andrej Karpathy después de graduarse fue estudiar visión artificial en OpenAI.

Más tarde, Musk, uno de los cofundadores de OpenAI, se encaprichó de Karpathy y llevó a la gente a Tesla. Pero también debido a este incidente, Musk y OpenAI se separaron por completo y finalmente fueron expulsados. En Tesla, Karpathy es el jefe de proyectos como Autopilot y FSD.

En febrero de este año, siete meses después de dejar Tesla, Karpathy se unió nuevamente a OpenAI.

Recientemente, tuiteó que actualmente hay mucho interés en el desarrollo de un ecosistema de modelo de lenguaje grande de código abierto, que es un poco como un signo de la explosión del Cámbrico temprano.

Portal: [1] vídeo de discurso) [2] pensamiento" ensayo)

Link de referencia: [1]

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

Recompensa
Me gusta
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#BTC#
232k publicaciones
#PI#
199k publicaciones
#ETH#
147k publicaciones
4#GateioInto11#
80k publicaciones
5#ContentStar#
66k publicaciones
6#GT#
64k publicaciones
7#BOME#
61k publicaciones
8#DOGE#
58k publicaciones
9#MAGA#
52k publicaciones
10#SLERF#
51k publicaciones

Anclado