LLM torneio de xadrez chega ao fim: OpenAI o3 conquista o título, xAI Grok 4 não ganhou uma partida e foi completamente derrotado.

O torneio internacional de xadrez Kaggle AI chegou ao fim, com o o3, que não foi treinado especificamente, derrotando Grok 4 por 4-0, demonstrando uma capacidade de raciocínio extremamente forte. (Resumo anterior: Musk ameaça processar a Apple: a classificação na App Store apresenta comportamentos monopolistas, prejudicando Grok) (Informação de fundo: Grok 4 agora está disponível para uso gratuito, Musk xAI e GPT-5 estão em confronto direto) Recentemente, o Kaggle, sob o Google, realizou a "Competição de Demonstração de Xadrez com Inteligência Artificial", cujos resultados foram anunciados em 14 de agosto. O modelo de linguagem de grande porte da OpenAI, o o3, varreu o Grok 4 da xAI por 4-0, conquistando o campeonato e se tornando o primeiro LLM a derrotar um oponente sem treinamento específico. O torneio contou com 8 grupos de IA participantes, durou três dias e foi decidido em formato de eliminação. Destaques da competição de modelos de linguagem De acordo com a OpenTools.ai, o o3, durante seu caminho rumo ao campeonato, apresentou resultados de 4-0 em três partidas consecutivas, eliminando até mesmo sua versão leve, o o4 mini, nas semifinais. Em comparação, o Grok 4 frequentemente liderava no início das partidas, mas acabou "perdendo a vantagem" várias vezes no final do torneio (sacrificando a peça mais poderosa, a Rainha). O Grande Mestre de Xadrez Hikaru Nakamura avaliou o o3 como "com poucos erros" e apontou que o Grok 4 frequentemente apresentava explosões táticas. O ex-campeão mundial Magnus Carlsen descreveu o estilo do Grok: como assistir crianças jogando xadrez. Ele estimou que o Elo do Grok está em torno de 800, enquanto o do o3 está em cerca de 1200, bem abaixo dos melhores humanos ou dos sistemas de IA especializados. Elo: um sistema de pontuação profissional (em inglês: Elo rating system) é um método de avaliação criado pelo físico húngaro-americano Arpad Elo, que mede o nível de atividades de confronto, sendo o padrão de avaliação reconhecido em todo o mundo e amplamente utilizado em xadrez, Go, futebol, basquete e outros esportes. A maior pontuação de Elo no xadrez foi alcançada por Magnus Carlsen, com 2882 pontos. A batalha entre IA de propósito geral e IA especializada Sistemas como o Stockfish, que são especializados, dependem de busca profunda e avaliação de domínio, mantendo há muito tempo cerca de 3644 Elo. Por outro lado, LLMs de propósito geral aprendem com grandes volumes de dados de diferentes domínios, onde jogar xadrez é apenas uma extensão de sua capacidade de raciocínio. Embora o o3 tenha conseguido vencer o Grok 4, no início deste ano ainda não conseguiu superar o Stockfish, mostrando que os modelos gerais ainda têm lacunas em termos de estabilidade e cálculo profundo em jogos de estratégia. Relatórios relacionados Apostando na OpenAI, Masayoshi Son teve mais uma "virada" Os desenvolvedores de Ethereum instalaram um "plugin de IA malicioso" e tiveram suas carteiras de criptomoedas esvaziadas em três dias, mesmo com dez anos de experiência em segurança. Insights mais recentes da a16z: O comércio eletrônico tradicional está morto? As plataformas nativas de IA estão redefinindo o que significa "comprar". 〈O torneio de xadrez LLM chega ao fim: OpenAI o3 vence, xAI Grok 4 não ganhou uma única partida e foi completamente derrotado〉 este artigo foi publicado originalmente na BlockTempo, a mídia de notícias de blockchain mais influente.

XAI-7.43%
GROK-7.65%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)