LLM Torneo de Ajedrez Finaliza: OpenAI o3 Gana el Campeonato, xAI Grok 4 No Gana Ninguna Partida y es Barrido

2025-08-14 07:45:49

El torneo internacional de ajedrez Kaggle AI ha llegado a su fin, donde o3, que no fue entrenado específicamente, derrotó por completo a Grok 4 con un marcador de 4-0, demostrando una gran capacidad de razonamiento. (Resumen anterior: Musk amenaza con demandar a Apple: el ranking de la App Store presenta comportamientos monopólicos, aplastando maliciosamente a Grok) (Información de fondo: Grok 4 se ha abierto hoy para su uso gratuito, Musk xAI se enfrenta directamente a GPT-5) Recientemente, Kaggle, una filial de Google, celebró la "Competencia de Exhibición de Ajedrez por Inteligencia Artificial" y el 14 de agosto se anunciaron los resultados, donde el modelo de lenguaje general de OpenAI, o3, barrió a Grok 4 de xAI con un 4:0, ganando el campeonato y convirtiéndose en el primer LLM en barrer a un oponente sin entrenamiento específico. En total, participaron 8 grupos de IA en el evento, que duró tres días y fue decidido en un formato de eliminación directa. Puntos destacados de la competencia de modelos de lenguaje Según informes de OpenTools.ai, o3 presentó un resultado de 4:0 en sus tres partidos de avance, eliminando en semifinales a su propia versión ligera, o4 mini. En comparación, Grok 4 a menudo lideraba en la primera parte, pero en la fase final del torneo perdió varias veces (sacrificando a la pieza más poderosa, la Reina). El gran maestro de ajedrez Hikaru Nakamura calificó a o3 como "con muy pocos errores" y señaló que Grok 4 a menudo presentaba autodestrucción táctica. El ex campeón mundial Magnus Carlsen describió el estilo de juego de Grok como: "es como ver a un niño jugar ajedrez". Estimó que el Elo de Grok es de aproximadamente 800, mientras que el de o3 es de aproximadamente 1200, muy por debajo de los mejores humanos o de los AI especializados en ajedrez. Elo: un sistema de puntuación profesional (en inglés: Elo rating system) creado por el físico húngaro-estadounidense Arpad Elo, es un método de evaluación que mide el nivel de diversas actividades de competencia y es el estándar de referencia reconocido para evaluar el nivel de competencia en ajedrez, go, fútbol, baloncesto y otros deportes. El puntaje Elo más alto en ajedrez fue establecido por Magnus Carlsen con 2882 puntos. Lucha entre AI general y AI especializada Sistemas especializados como Stockfish dependen de búsquedas profundas y puntuaciones de dominio, manteniendo una puntuación de aproximadamente 3644 Elo durante mucho tiempo. Los LLM generales, por otro lado, aprenden a través de grandes volúmenes de corpus interdisciplinares, y el ajedrez es solo una extensión de su capacidad de razonamiento. Aunque o3 pudo vencer a Grok 4, a principios de este año todavía no pudo con Stockfish, lo que muestra que los modelos generales aún tienen diferencias en estabilidad y cálculos profundos en juegos de ajedrez. Reportes relacionados: Apostando por OpenAI, Masayoshi Son ha "revivido" una vez más; un desarrollador de Ethereum instaló un "plugin malicioso de IA" y su billetera de encriptación fue vaciada en tres días, diez años de experiencia en ciberseguridad no sirvieron de nada; las últimas observaciones de a16z: ¿el comercio electrónico tradicional ha muerto? Las plataformas nativas de IA están redefiniendo "la compra"; El artículo "El torneo de ajedrez LLM ha terminado: OpenAI o3 se corona campeón, xAI Grok 4 no ganó ninguna partida y fue barrido" fue publicado por primera vez en BlockTempo, el medio de noticias de blockchain más influyente.

XAI-7.43%

GROK-7.65%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#Gate Releases August Reserves Report
8k Popularidad
#BTC Hits New ATH
96k Popularidad
#Show My Alpha Points
125k Popularidad
#ETH Countdown To A New High
6k Popularidad
#Circle Launches ARC
4k Popularidad

Anclado