Los proyectos Web3 con concepto de IA se han convertido en objetivos de atracción de capital en los mercados primario y secundario.
Las oportunidades de Web3 en la industria de la IA se manifiestan en: el uso de incentivos distribuidos para coordinar el suministro potencial en la larga cola, a través de datos, almacenamiento y computación; al mismo tiempo, establecer un modelo de código abierto y un mercado descentralizado para agentes de IA.
La IA se utiliza principalmente en la industria Web3 para finanzas en cadena ( pagos criptográficos, transacciones, análisis de datos ) y desarrollo asistido.
La utilidad de AI+Web3 se manifiesta en la complementariedad de ambos: Web3 promete contrarrestar la centralización de AI, y AI promete ayudar a Web3 a romper barreras.
Introducción
En los últimos dos años, el desarrollo de la IA ha sido como si se hubiera presionado un botón de aceleración. Este efecto mariposa provocado por Chatgpt no solo ha abierto un nuevo mundo de inteligencia artificial generativa, sino que también ha generado un gran impulso en el ámbito de Web3.
Con el respaldo del concepto de IA, la financiación en el mercado de criptomonedas ha mostrado un claro aumento en comparación con su desaceleración. Según estadísticas de los medios, solo en la primera mitad de 2024, se completaron 64 proyectos de Web3+IA en financiamiento, y el sistema operativo basado en inteligencia artificial Zyber365 logró una financiación máxima de 100 millones de dólares en su ronda A.
El mercado secundario es aún más próspero. Los datos del sitio de agregación de criptomonedas Coingecko muestran que en poco más de un año, la capitalización total del sector de IA ha alcanzado los 48,5 mil millones de dólares, con un volumen de transacciones de casi 8,6 mil millones de dólares en 24 horas; los avances en tecnologías de IA han traído beneficios evidentes, después del lanzamiento del modelo de OpenAI Sora para convertir texto en video, el precio promedio del sector de IA aumentó un 151%; el efecto de la IA también ha impactado en uno de los segmentos de criptomonedas que atraen capital, Meme: el primer concepto de MemeCoin Agent basado en IA, GOAT, rápidamente se volvió popular y alcanzó una valoración de 1,4 mil millones de dólares, logrando con éxito despertar el fervor de los memes de IA.
La investigación y los temas sobre AI+Web3 también están muy en boga, desde AI+Depin hasta AI Memecoin y actualmente AI Agent y AI DAO, la emoción de FOMO ya no puede seguir el ritmo de la rotación de nuevas narrativas.
AI+Web3, esta combinación de términos llena de dinero fácil, oportunidades y fantasías futuras, inevitablemente es vista como un matrimonio arreglado por el capital. Parece que es difícil discernir, bajo esta lujosa vestimenta, si en realidad es el terreno de los especuladores o la víspera de una explosión al amanecer.
Para responder a esta pregunta, una reflexión clave para ambas partes es: ¿se volverá mejor con el otro? ¿Se puede beneficiar del modelo del otro? En este artículo, también intentamos examinar este patrón desde la perspectiva de los precursores: ¿cómo puede Web3 desempeñar un papel en cada etapa de la pila tecnológica de IA y qué nueva vitalidad puede aportar la IA a Web3?
Parte.1 ¿Cuáles son las oportunidades de Web3 bajo la pila de IA?
Antes de abordar este tema, necesitamos entender la pila tecnológica de los grandes modelos de IA:
Expresar todo el proceso en un lenguaje más sencillo: "El gran modelo" es como el cerebro humano, en las primeras etapas, este cerebro pertenece a un bebé que acaba de llegar al mundo, necesita observar y absorber una gran cantidad de información del entorno para entender este mundo, esa es la etapa de "recolección" de datos; dado que las computadoras no poseen los sentidos humanos como la vista y el oído, antes del entrenamiento, la gran cantidad de información no etiquetada del exterior necesita ser transformada a través de "preprocesamiento" en un formato de información que la computadora pueda entender y utilizar.
Después de ingresar los datos, la IA construye un modelo con habilidades de comprensión y predicción a través del "entrenamiento", lo que se puede considerar como el proceso en el que un bebé gradualmente comprende y aprende sobre el mundo exterior. Los parámetros del modelo son como la capacidad lingüística que el bebé ajusta continuamente durante su proceso de aprendizaje. Cuando el contenido de aprendizaje comienza a especializarse, o se recibe retroalimentación al comunicarse con otras personas y se realizan correcciones, se entra en la etapa de "ajuste fino" del gran modelo.
Los niños, a medida que crecen y aprenden a hablar, pueden comprender el significado y expresar sus sentimientos y pensamientos en nuevos diálogos. Esta etapa es similar a la "razonamiento" de los grandes modelos de IA, donde el modelo puede predecir y analizar nuevas entradas de lenguaje y texto. Los bebés utilizan su capacidad lingüística para expresar sentimientos, describir objetos y resolver diversos problemas, lo que también es similar a cómo los grandes modelos de IA, después de completar el entrenamiento y entrar en uso, se aplican en la fase de razonamiento en diversas tareas específicas, como la clasificación de imágenes y el reconocimiento de voz.
Y el Agente AI se acerca más a la próxima forma de los grandes modelos: capaz de ejecutar tareas de forma independiente y perseguir objetivos complejos, no solo posee la capacidad de pensar, sino que también puede recordar, planificar y utilizar herramientas para interactuar con el mundo.
Actualmente, en respuesta a los puntos críticos de la IA en diversas pilas, Web3 ha comenzado a formar un ecosistema interconectado y multinivel que abarca todas las etapas del proceso de modelo de IA.
Una, Capa básica: Airbnb de potencia de cálculo y datos
poder de cálculo
Actualmente, uno de los mayores costos de la IA es la potencia computacional y la energía necesarias para entrenar modelos y realizar inferencias.
Un ejemplo es que el LLAMA3 de Meta necesita 16,000 H100 GPU producidas por NVIDIA(, que es una unidad de procesamiento gráfico de primer nivel diseñada específicamente para cargas de trabajo de inteligencia artificial y computación de alto rendimiento.) Toma 30 días completar el entrenamiento. El precio por unidad de la versión de 80GB oscila entre 30,000 y 40,000 dólares, lo que requiere una inversión en hardware de cómputo de entre 400 y 700 millones de dólares( GPU + chip de red). Al mismo tiempo, el entrenamiento mensual consume 1.6 mil millones de kilovatios-hora, con gastos de energía de casi 20 millones de dólares al mes.
La descompresión de la potencia de cálculo de IA es precisamente el primer campo de intersección entre Web3 y la IA - DePin( red de infraestructura física descentralizada) actualmente, el sitio de datos DePin Ninja ha enumerado más de 1400 proyectos, entre los cuales los proyectos representativos de compartición de potencia de GPU incluyen io.net, Aethir, Akash, Render Network, entre otros.
Su lógica principal radica en que: la plataforma permite a individuos o entidades que poseen recursos GPU ociosos contribuir con su capacidad de cálculo de manera descentralizada y sin necesidad de permisos, a través de un mercado en línea de compradores y vendedores similar a Uber o Airbnb, aumentando así la tasa de utilización de los recursos GPU que no se están aprovechando adecuadamente; al mismo tiempo, el mecanismo de staking también asegura que si hay una violación del mecanismo de control de calidad o una interrupción de la red, los proveedores de recursos recibirán las sanciones correspondientes.
Sus características son:
Reunir recursos de GPU ociosos: los proveedores son principalmente centros de datos independientes de tamaño pequeño a mediano de terceros, recursos de potencia de cálculo excedentes de operadores como minas de criptomonedas, y hardware de minería con mecanismo de consenso PoS, como los mineros de FileCoin y ETH. Actualmente, también hay proyectos dedicados a iniciar dispositivos con un umbral de entrada más bajo, como exolab, que utiliza dispositivos locales como MacBook, iPhone, iPad, etc., para establecer una red de potencia de cálculo para la inferencia de grandes modelos.
Enfrentando el mercado de cola larga de la potencia de cálculo de IA:
a. "Desde el punto de vista técnico", el mercado de potencia de cálculo descentralizado es más adecuado para los pasos de inferencia. El entrenamiento depende más de la capacidad de procesamiento de datos que brindan los GPU a gran escala, mientras que la inferencia tiene requisitos de rendimiento de GPU relativamente bajos, como Aethir que se centra en el trabajo de renderizado de baja latencia y aplicaciones de inferencia de IA.
b. "Desde el lado de la demanda", los demandantes de poder de cómputo medio no entrenarán su propio modelo grande de manera independiente, sino que solo elegirán optimizar y ajustar finamente alrededor de unos pocos modelos grandes destacados, y estos escenarios son naturalmente adecuados para recursos de cómputo distribuidos ociosos.
Propiedad descentralizada: El significado técnico de la blockchain radica en que los propietarios de recursos siempre mantienen el control sobre sus recursos, ajustando de manera flexible según la demanda y al mismo tiempo obteniendo beneficios.
Datos
Los datos son la base de la IA. Sin datos, los cálculos son como hojas flotantes, completamente inútiles, y la relación entre los datos y el modelo es como el dicho "Basura entra, basura sale". La cantidad de datos y la calidad de la entrada determinan la calidad de la salida del modelo final. En la actualidad, para el entrenamiento de los modelos de IA, los datos determinan la capacidad lingüística del modelo, su capacidad de comprensión, e incluso sus valores y su expresión humanizada. Actualmente, las dificultades en la demanda de datos para la IA se centran principalmente en los siguientes cuatro aspectos:
Hambre de datos: El entrenamiento de modelos de IA depende de una gran cantidad de datos de entrada. Los datos públicos muestran que OpenAI entrenó a GPT-4 con una cantidad de parámetros que alcanzó el nivel de billones.
Calidad de los datos: Con la integración de la IA en diversas industrias, la actualidad de los datos, la diversidad de los datos, la especialización de los datos por sectores y la incorporación de nuevas fuentes de datos, como las emociones en redes sociales, han planteado nuevos requisitos para su calidad.
Problemas de privacidad y cumplimiento: actualmente, países y empresas están prestando cada vez más atención a la importancia de los conjuntos de datos de calidad, y están imponiendo restricciones a la recolección de conjuntos de datos.
Costos de procesamiento de datos altos: gran volumen de datos, proceso de manejo complejo. Según datos públicos, más del 30% de los costos de investigación y desarrollo de las empresas de IA se destinan a la recolección y procesamiento de datos básicos.
Actualmente, las soluciones de web3 se reflejan en los siguientes cuatro aspectos:
Recolección de datos: la disponibilidad de datos del mundo real que se pueden extraer de forma gratuita está disminuyendo rápidamente, y el gasto de las empresas de IA en la compra de datos aumenta año tras año. Sin embargo, este gasto no se está trasladando a los verdaderos contribuyentes de los datos; las plataformas disfrutan por completo de la creación de valor que aporta la información, como una plataforma que logró ingresos totales de 203 millones de dólares a través de un acuerdo de licencia de datos con una empresa de IA.
El verdadero objetivo de Web3 es permitir que los usuarios que realmente contribuyen participen en la creación de valor que generan los datos, así como obtener datos más privados y valiosos de los usuarios de manera rentable a través de redes distribuidas y mecanismos de incentivos.
Grass es una capa de datos y red descentralizada, los usuarios pueden contribuir con ancho de banda ocioso y retransmitir tráfico ejecutando nodos de Grass para capturar datos en tiempo real de toda la Internet y recibir recompensas en tokens;
Vana introduce un concepto único de piscina de liquidez de datos (DLP), donde los usuarios pueden subir sus datos privados ( como registros de compras, hábitos de navegación, actividades en redes sociales, etc. ) a un DLP específico, y elegir de manera flexible si autorizan a terceros específicos a utilizar estos datos;
En PublicAI, los usuarios pueden utilizar #AI或#Web3 como etiqueta de clasificación en las plataformas sociales y @PublicAI para realizar la recolección de datos.
Preprocesamiento de datos: En el proceso de tratamiento de datos de la IA, debido a que los datos recopilados suelen ser ruidosos y contener errores, deben limpiarse y transformarse en un formato utilizable antes de entrenar el modelo, lo que implica tareas repetitivas de normalización, filtrado y manejo de valores perdidos. Esta etapa es uno de los pocos momentos manuales en la industria de la IA, lo que ha dado lugar a la industria de los etiquetadores de datos. A medida que las exigencias del modelo sobre la calidad de los datos aumentan, también lo hace el umbral para los etiquetadores de datos, y esta tarea se adapta de forma natural al mecanismo de incentivos descentralizados de Web3.
Actualmente, Grass y OpenLayer están considerando incorporar la anotación de datos en esta etapa clave.
Synesis ha propuesto el concepto de «Train2earn», enfatizando la calidad de los datos. Los usuarios pueden obtener recompensas al proporcionar datos etiquetados, anotaciones u otras formas de entrada.
El proyecto de anotación de datos Sapien gamifica las tareas de marcado y permite a los usuarios apostar puntos para ganar más puntos.
Privacidad y seguridad de los datos: Es importante aclarar que la privacidad de los datos y la seguridad de los datos son dos conceptos diferentes. La privacidad de los datos se refiere al manejo de datos sensibles, mientras que la seguridad de los datos protege la información de los datos contra el acceso no autorizado, la destrucción y el robo. Así, las ventajas de la tecnología de privacidad en Web3 y sus posibles escenarios de aplicación se reflejan en dos aspectos: ( entrenamiento de datos sensibles; ) colaboración de datos: múltiples propietarios de datos pueden participar conjuntamente en el entrenamiento de IA sin compartir sus datos originales.
Las tecnologías de privacidad más comunes en Web3 incluyen:
Entorno de ejecución confiable ( TEE ), como Super Protocol;
Encriptación homomórfica completa ( FHE ), por ejemplo BasedAI, Fhenix.io o Inco Network;
Tecnología de conocimiento cero ( zk ), como el Protocolo Reclaim que utiliza tecnología zkTLS, genera pruebas de conocimiento cero para el tráfico HTTPS, permitiendo a los usuarios importar de forma segura actividades, reputación y datos de identidad desde sitios web externos sin exponer información sensible.
Sin embargo, actualmente este campo todavía se encuentra en una etapa temprana, la mayoría de los proyectos aún están en exploración, un dilema actual es que el costo de computación es demasiado alto, algunos ejemplos son:
El marco zkML EZKL necesita aproximadamente 80 minutos para generar una prueba para un modelo 1M-nanoGPT.
Según los datos de Modulus Labs, los costos de zkML son más de 1000 veces más altos que los de los cálculos puros.
Almacenamiento de datos: Una vez que se tiene los datos, también se necesita un lugar para almacenar los datos en la cadena, así como el LLM generado a partir de esos datos. Con la disponibilidad de datos (DA) como problema central, antes de la actualización de Danksharding en Ethereum, su capacidad era de 0.08MB. Al mismo tiempo, el entrenamiento de modelos de IA y la inferencia en tiempo real generalmente requieren un throughput de datos de 50 a 100GB por segundo. Esta diferencia de magnitud hace que la cadena existente
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
14 me gusta
Recompensa
14
3
Compartir
Comentar
0/400
wrekt_but_learning
· hace12h
Mercado bajista también no ha despertado.
Ver originalesResponder0
WenAirdrop
· hace13h
gpt es más fuerte que los humanos, es muy injusto para nosotros.
AI y Web3 se cruzan: nuevas oportunidades desde la Potencia computacional compartida hasta los incentivos de datos
AI+Web3: Torres y plazas
TL;DR
Los proyectos Web3 con concepto de IA se han convertido en objetivos de atracción de capital en los mercados primario y secundario.
Las oportunidades de Web3 en la industria de la IA se manifiestan en: el uso de incentivos distribuidos para coordinar el suministro potencial en la larga cola, a través de datos, almacenamiento y computación; al mismo tiempo, establecer un modelo de código abierto y un mercado descentralizado para agentes de IA.
La IA se utiliza principalmente en la industria Web3 para finanzas en cadena ( pagos criptográficos, transacciones, análisis de datos ) y desarrollo asistido.
La utilidad de AI+Web3 se manifiesta en la complementariedad de ambos: Web3 promete contrarrestar la centralización de AI, y AI promete ayudar a Web3 a romper barreras.
Introducción
En los últimos dos años, el desarrollo de la IA ha sido como si se hubiera presionado un botón de aceleración. Este efecto mariposa provocado por Chatgpt no solo ha abierto un nuevo mundo de inteligencia artificial generativa, sino que también ha generado un gran impulso en el ámbito de Web3.
Con el respaldo del concepto de IA, la financiación en el mercado de criptomonedas ha mostrado un claro aumento en comparación con su desaceleración. Según estadísticas de los medios, solo en la primera mitad de 2024, se completaron 64 proyectos de Web3+IA en financiamiento, y el sistema operativo basado en inteligencia artificial Zyber365 logró una financiación máxima de 100 millones de dólares en su ronda A.
El mercado secundario es aún más próspero. Los datos del sitio de agregación de criptomonedas Coingecko muestran que en poco más de un año, la capitalización total del sector de IA ha alcanzado los 48,5 mil millones de dólares, con un volumen de transacciones de casi 8,6 mil millones de dólares en 24 horas; los avances en tecnologías de IA han traído beneficios evidentes, después del lanzamiento del modelo de OpenAI Sora para convertir texto en video, el precio promedio del sector de IA aumentó un 151%; el efecto de la IA también ha impactado en uno de los segmentos de criptomonedas que atraen capital, Meme: el primer concepto de MemeCoin Agent basado en IA, GOAT, rápidamente se volvió popular y alcanzó una valoración de 1,4 mil millones de dólares, logrando con éxito despertar el fervor de los memes de IA.
La investigación y los temas sobre AI+Web3 también están muy en boga, desde AI+Depin hasta AI Memecoin y actualmente AI Agent y AI DAO, la emoción de FOMO ya no puede seguir el ritmo de la rotación de nuevas narrativas.
AI+Web3, esta combinación de términos llena de dinero fácil, oportunidades y fantasías futuras, inevitablemente es vista como un matrimonio arreglado por el capital. Parece que es difícil discernir, bajo esta lujosa vestimenta, si en realidad es el terreno de los especuladores o la víspera de una explosión al amanecer.
Para responder a esta pregunta, una reflexión clave para ambas partes es: ¿se volverá mejor con el otro? ¿Se puede beneficiar del modelo del otro? En este artículo, también intentamos examinar este patrón desde la perspectiva de los precursores: ¿cómo puede Web3 desempeñar un papel en cada etapa de la pila tecnológica de IA y qué nueva vitalidad puede aportar la IA a Web3?
Parte.1 ¿Cuáles son las oportunidades de Web3 bajo la pila de IA?
Antes de abordar este tema, necesitamos entender la pila tecnológica de los grandes modelos de IA:
Expresar todo el proceso en un lenguaje más sencillo: "El gran modelo" es como el cerebro humano, en las primeras etapas, este cerebro pertenece a un bebé que acaba de llegar al mundo, necesita observar y absorber una gran cantidad de información del entorno para entender este mundo, esa es la etapa de "recolección" de datos; dado que las computadoras no poseen los sentidos humanos como la vista y el oído, antes del entrenamiento, la gran cantidad de información no etiquetada del exterior necesita ser transformada a través de "preprocesamiento" en un formato de información que la computadora pueda entender y utilizar.
Después de ingresar los datos, la IA construye un modelo con habilidades de comprensión y predicción a través del "entrenamiento", lo que se puede considerar como el proceso en el que un bebé gradualmente comprende y aprende sobre el mundo exterior. Los parámetros del modelo son como la capacidad lingüística que el bebé ajusta continuamente durante su proceso de aprendizaje. Cuando el contenido de aprendizaje comienza a especializarse, o se recibe retroalimentación al comunicarse con otras personas y se realizan correcciones, se entra en la etapa de "ajuste fino" del gran modelo.
Los niños, a medida que crecen y aprenden a hablar, pueden comprender el significado y expresar sus sentimientos y pensamientos en nuevos diálogos. Esta etapa es similar a la "razonamiento" de los grandes modelos de IA, donde el modelo puede predecir y analizar nuevas entradas de lenguaje y texto. Los bebés utilizan su capacidad lingüística para expresar sentimientos, describir objetos y resolver diversos problemas, lo que también es similar a cómo los grandes modelos de IA, después de completar el entrenamiento y entrar en uso, se aplican en la fase de razonamiento en diversas tareas específicas, como la clasificación de imágenes y el reconocimiento de voz.
Y el Agente AI se acerca más a la próxima forma de los grandes modelos: capaz de ejecutar tareas de forma independiente y perseguir objetivos complejos, no solo posee la capacidad de pensar, sino que también puede recordar, planificar y utilizar herramientas para interactuar con el mundo.
Actualmente, en respuesta a los puntos críticos de la IA en diversas pilas, Web3 ha comenzado a formar un ecosistema interconectado y multinivel que abarca todas las etapas del proceso de modelo de IA.
Una, Capa básica: Airbnb de potencia de cálculo y datos
poder de cálculo
Actualmente, uno de los mayores costos de la IA es la potencia computacional y la energía necesarias para entrenar modelos y realizar inferencias.
Un ejemplo es que el LLAMA3 de Meta necesita 16,000 H100 GPU producidas por NVIDIA(, que es una unidad de procesamiento gráfico de primer nivel diseñada específicamente para cargas de trabajo de inteligencia artificial y computación de alto rendimiento.) Toma 30 días completar el entrenamiento. El precio por unidad de la versión de 80GB oscila entre 30,000 y 40,000 dólares, lo que requiere una inversión en hardware de cómputo de entre 400 y 700 millones de dólares( GPU + chip de red). Al mismo tiempo, el entrenamiento mensual consume 1.6 mil millones de kilovatios-hora, con gastos de energía de casi 20 millones de dólares al mes.
La descompresión de la potencia de cálculo de IA es precisamente el primer campo de intersección entre Web3 y la IA - DePin( red de infraestructura física descentralizada) actualmente, el sitio de datos DePin Ninja ha enumerado más de 1400 proyectos, entre los cuales los proyectos representativos de compartición de potencia de GPU incluyen io.net, Aethir, Akash, Render Network, entre otros.
Su lógica principal radica en que: la plataforma permite a individuos o entidades que poseen recursos GPU ociosos contribuir con su capacidad de cálculo de manera descentralizada y sin necesidad de permisos, a través de un mercado en línea de compradores y vendedores similar a Uber o Airbnb, aumentando así la tasa de utilización de los recursos GPU que no se están aprovechando adecuadamente; al mismo tiempo, el mecanismo de staking también asegura que si hay una violación del mecanismo de control de calidad o una interrupción de la red, los proveedores de recursos recibirán las sanciones correspondientes.
Sus características son:
Reunir recursos de GPU ociosos: los proveedores son principalmente centros de datos independientes de tamaño pequeño a mediano de terceros, recursos de potencia de cálculo excedentes de operadores como minas de criptomonedas, y hardware de minería con mecanismo de consenso PoS, como los mineros de FileCoin y ETH. Actualmente, también hay proyectos dedicados a iniciar dispositivos con un umbral de entrada más bajo, como exolab, que utiliza dispositivos locales como MacBook, iPhone, iPad, etc., para establecer una red de potencia de cálculo para la inferencia de grandes modelos.
Enfrentando el mercado de cola larga de la potencia de cálculo de IA:
a. "Desde el punto de vista técnico", el mercado de potencia de cálculo descentralizado es más adecuado para los pasos de inferencia. El entrenamiento depende más de la capacidad de procesamiento de datos que brindan los GPU a gran escala, mientras que la inferencia tiene requisitos de rendimiento de GPU relativamente bajos, como Aethir que se centra en el trabajo de renderizado de baja latencia y aplicaciones de inferencia de IA.
b. "Desde el lado de la demanda", los demandantes de poder de cómputo medio no entrenarán su propio modelo grande de manera independiente, sino que solo elegirán optimizar y ajustar finamente alrededor de unos pocos modelos grandes destacados, y estos escenarios son naturalmente adecuados para recursos de cómputo distribuidos ociosos.
Datos
Los datos son la base de la IA. Sin datos, los cálculos son como hojas flotantes, completamente inútiles, y la relación entre los datos y el modelo es como el dicho "Basura entra, basura sale". La cantidad de datos y la calidad de la entrada determinan la calidad de la salida del modelo final. En la actualidad, para el entrenamiento de los modelos de IA, los datos determinan la capacidad lingüística del modelo, su capacidad de comprensión, e incluso sus valores y su expresión humanizada. Actualmente, las dificultades en la demanda de datos para la IA se centran principalmente en los siguientes cuatro aspectos:
Hambre de datos: El entrenamiento de modelos de IA depende de una gran cantidad de datos de entrada. Los datos públicos muestran que OpenAI entrenó a GPT-4 con una cantidad de parámetros que alcanzó el nivel de billones.
Calidad de los datos: Con la integración de la IA en diversas industrias, la actualidad de los datos, la diversidad de los datos, la especialización de los datos por sectores y la incorporación de nuevas fuentes de datos, como las emociones en redes sociales, han planteado nuevos requisitos para su calidad.
Problemas de privacidad y cumplimiento: actualmente, países y empresas están prestando cada vez más atención a la importancia de los conjuntos de datos de calidad, y están imponiendo restricciones a la recolección de conjuntos de datos.
Costos de procesamiento de datos altos: gran volumen de datos, proceso de manejo complejo. Según datos públicos, más del 30% de los costos de investigación y desarrollo de las empresas de IA se destinan a la recolección y procesamiento de datos básicos.
Actualmente, las soluciones de web3 se reflejan en los siguientes cuatro aspectos:
El verdadero objetivo de Web3 es permitir que los usuarios que realmente contribuyen participen en la creación de valor que generan los datos, así como obtener datos más privados y valiosos de los usuarios de manera rentable a través de redes distribuidas y mecanismos de incentivos.
Grass es una capa de datos y red descentralizada, los usuarios pueden contribuir con ancho de banda ocioso y retransmitir tráfico ejecutando nodos de Grass para capturar datos en tiempo real de toda la Internet y recibir recompensas en tokens;
Vana introduce un concepto único de piscina de liquidez de datos (DLP), donde los usuarios pueden subir sus datos privados ( como registros de compras, hábitos de navegación, actividades en redes sociales, etc. ) a un DLP específico, y elegir de manera flexible si autorizan a terceros específicos a utilizar estos datos;
En PublicAI, los usuarios pueden utilizar #AI或#Web3 como etiqueta de clasificación en las plataformas sociales y @PublicAI para realizar la recolección de datos.
Actualmente, Grass y OpenLayer están considerando incorporar la anotación de datos en esta etapa clave.
Synesis ha propuesto el concepto de «Train2earn», enfatizando la calidad de los datos. Los usuarios pueden obtener recompensas al proporcionar datos etiquetados, anotaciones u otras formas de entrada.
El proyecto de anotación de datos Sapien gamifica las tareas de marcado y permite a los usuarios apostar puntos para ganar más puntos.
Las tecnologías de privacidad más comunes en Web3 incluyen:
Entorno de ejecución confiable ( TEE ), como Super Protocol;
Encriptación homomórfica completa ( FHE ), por ejemplo BasedAI, Fhenix.io o Inco Network;
Tecnología de conocimiento cero ( zk ), como el Protocolo Reclaim que utiliza tecnología zkTLS, genera pruebas de conocimiento cero para el tráfico HTTPS, permitiendo a los usuarios importar de forma segura actividades, reputación y datos de identidad desde sitios web externos sin exponer información sensible.
Sin embargo, actualmente este campo todavía se encuentra en una etapa temprana, la mayoría de los proyectos aún están en exploración, un dilema actual es que el costo de computación es demasiado alto, algunos ejemplos son:
El marco zkML EZKL necesita aproximadamente 80 minutos para generar una prueba para un modelo 1M-nanoGPT.
Según los datos de Modulus Labs, los costos de zkML son más de 1000 veces más altos que los de los cálculos puros.