Close Menu
MokoDAO – Seu portal para o mundo das criptomoedas e web3MokoDAO – Seu portal para o mundo das criptomoedas e web3
  • Home
  • Crypto
  • Bitcoin
  • Altcoins
  • NFT
  • Games
  • Airdrop
  • Guias
  • Editorial

Subscribe to Updates

Assine nossa newsletter e nunca perca nossas últimas notícias

Assine minha Newsletter para Novas Postagens e dicas Vamos ficar atualizados!

What's Hot

Crypto se recupera após o Fed Cut – o que o gráfico diz sobre Bitcoin, Cardano, nas proximidades

19/09/2025

US $ 120.000 Bitcoin Retest está “à vista”: Bitbank

19/09/2025

As bombas da BOMB.FUN caem como viagens de mercado de moedas de meme

19/09/2025
Facebook X (Twitter) Instagram
  • Anuncie Conosco
  • Sobre Nós
  • Política de Privacidade
  • DMCA
  • Termos e Condições
MokoDAO – Seu portal para o mundo das criptomoedas e web3MokoDAO – Seu portal para o mundo das criptomoedas e web3
  • Home
  • Crypto
  • Bitcoin
  • Altcoins
  • NFT
  • Games
  • Airdrop
  • Guias
  • Editorial
MokoDAO – Seu portal para o mundo das criptomoedas e web3MokoDAO – Seu portal para o mundo das criptomoedas e web3
Home » A OpenAI trapaceou em um grande teste de matemática?
Bitcoin

A OpenAI trapaceou em um grande teste de matemática?

Equipe MKDBy Equipe MKD26/01/2025Nenhum comentário5 Mins Read
Share
Facebook Twitter LinkedIn Pinterest Email


Quão inteligentes são os modelos que memorizam as respostas antes dos exames? Esta é a questão que a OpenAI enfrenta depois de anunciar o o3 em dezembro e divulgar excelentes benchmarks para seus modelos. Na época, alguns especialistas elogiaram a inteligência artificial como sendo quase tão poderosa quanto a AGI, um nível que permite aos usuários alcançar um desempenho semelhante ao humano em qualquer tarefa que necessitem.

Mas o dinheiro muda tudo. Aparentemente, está até mudando os testes de matemática.

A volta da vitória da OpenAI ao superar a pontuação do modelo o3 por impressionantes 25,2% no FrontierMath, um benchmark matemático desafiador desenvolvido pela Epoch AI, não é apenas porque a empresa passou no teste, mas também porque a OpenAI ajudou a criar o teste. revelou que os dois também haviam cooperado, as coisas chegaram a um obstáculo.

“Agradecemos o apoio da OpenAI na criação de benchmarks”, escreveu Epoch AI em uma nota de rodapé recente em seu whitepaper FrontierMath, o que foi suficiente para levantar algumas bandeiras vermelhas entre os entusiastas.

Captura de tela do artigo de pesquisa da Epoch AI reconhecendo o apoio da OpenAI durante o desenvolvimento do benchmark FrontierMath armazenado em dados
Imagem: Epoch AI via ArXiv

Para piorar a situação, a OpenAI não só financiou o desenvolvimento do FrontierMath, mas também teve acesso aos seus problemas e soluções quando necessário. A Epoch AI revelou mais tarde que a OpenAI a contratou para fornecer 300 problemas matemáticos e suas soluções.

“Como é típico do trabalho encomendado, a OpenAI mantém a propriedade dessas questões e tem acesso aos problemas e soluções”, disse Epoch na quinta-feira.

Nem a OpenAI nem a Epoch responderam aos pedidos de comentários. descriptografia. Mas a Epoch disse que havia pré-assinado um contrato afirmando que a OpenAI não usaria as perguntas e respostas do banco de dados para treinar o modelo o3.

Informação Primeiro, comecei a falar.

Um porta-voz da OpenAI afirma que a OpenAI não treinou diretamente o3 no benchmark e que os problemas foram “fortemente adiados” (o que significa que a OpenAI não teve acesso a alguns problemas. No entanto, os especialistas observam que o acesso aos materiais de teste ainda é possível). Você pode otimizar o desempenho fazendo ajustes repetidos.

Tamay Besiroglu, diretor associado da Epoch AI, disse que a OpenAI inicialmente solicitou que sua relação financeira com a Epoch não fosse divulgada.

“Estávamos proibidos de divulgar nossas parcerias até o lançamento do o3, mas, em retrospectiva, deveríamos ter negociado negociações mais duras para garantir a transparência com os contribuidores de benchmark o mais rápido possível”, escreveu ele no post. Você não precisa divulgar informações sobre suas fontes de financiamento ou o fato de que a OpenAI tem acesso a grande parte, mas não a todos, do seu conjunto de dados. ”

Tamei disse que a OpenAI disse que não usaria os problemas e soluções da Epoch AI, mas não assinou um acordo legal para garantir que o fizesse. “Reconhecemos que a OpenAI tem acesso à maioria dos problemas e soluções da FrontierMath”, escreveu ele. “No entanto, existe um acordo verbal de que esses materiais não serão usados ​​para treinar modelos.”

Pode parecer suspeito, mas o matemático-chefe da Epoch AI, Elliott Glaser, disse acreditar que a OpenAI cumpriu sua palavra. “Não há incentivo para mentir sobre o desempenho dos benchmarks internos”, escreveu ele no Reddit.

A pesquisadora também abordou a situação no Twitter e compartilhou um link para uma discussão online sobre o assunto no fórum online “Menos Errado”.

Quanto à posição da pontuação o3 do FM, sim, acredito que a OAI a reporte com precisão, mas até que eu avalie de forma independente o modelo usando um conjunto de validação em desenvolvimento, a Epoch não pode garantir isso.

-Elliot Glazer (@ElliotGlazer) 19 de janeiro de 2025

nem o primeiro nem o último

A controvérsia vai além da OpenAI e aponta para problemas sistêmicos na forma como a indústria de IA verifica o progresso. Um estudo recente do pesquisador de IA Lewis Hunt descobriu que outros modelos de alto desempenho, como Mistral 7b, Gemma do Google, Phi-3 da Microsoft, Llama-3 da Meta e Qwen 2.5 do Alibaba. Foi revelado que 6.882 páginas do benchmark poderiam ser reproduzidas literalmente .

O MMLU, assim como o FrontierMath, é um benchmark sintético criado para medir o quão bem um modelo realiza multitarefas. GSM8K é um conjunto de problemas matemáticos usados ​​para avaliar a habilidade matemática do LLM.

LLM que reproduz conjuntos de dados de treinamento para alguns benchmarks de IA
Imagem: Lewis Hunt

Isso torna impossível avaliar adequadamente o quão poderoso e preciso o modelo realmente é. É como dar a um aluno com memória fotográfica uma lista de questões e soluções que aparecerão em um próximo exame. Eles pensaram logicamente sobre a solução ou apenas regurgitaram a resposta memorizada? Esses testes visam demonstrar que o modelo de IA pode raciocinar, para que você saiba o que está errado.

“Este é realmente um problema muito grande”, alertou o fundador do Rembrain, Vasily Morzhakov. “O modelo é testado com versões instrucionais dos testes MMLU e GSM8K, mas o fato de o modelo básico poder regenerar testes significa que esses testes já estão em pré-treinamento.”

No futuro, a Epoch disse que planeja implementar um “conjunto de resistência” de 50 perguntas selecionadas aleatoriamente que serão retidas do OpenAI para garantir capacidades de teste autênticas.

Contudo, o desafio de criar avaliações verdadeiramente independentes continua a ser significativo. O cientista da computação Dirk Lockman argumenta que o teste ideal requer uma “caixa de areia neutra, o que não é fácil de conseguir”, mas ainda existe o risco de “vazamento de dados de teste por humanos hostis”.

Editado por Andrew Hayward

geralmente inteligente Boletim informativo

Uma jornada semanal de IA contada por Gen, um modelo generativo de IA.





Source link

Equipe MKD
  • Website

Related Posts

Crypto se recupera após o Fed Cut – o que o gráfico diz sobre Bitcoin, Cardano, nas proximidades

19/09/2025

US $ 120.000 Bitcoin Retest está “à vista”: Bitbank

19/09/2025

As bombas da BOMB.FUN caem como viagens de mercado de moedas de meme

19/09/2025

Mininhas da manhã: as metas das máscaras incluirão tokens e szns Airdrop

19/09/2025
Add A Comment
Leave A Reply Cancel Reply

Inscreva-se para receber as notícias!

Assine nossa newsletter e nunca perca nossas últimas notícias.

Colunistas

Crypto se recupera após o Fed Cut – o que o gráfico diz sobre Bitcoin, Cardano, nas proximidades

19/09/2025

US $ 120.000 Bitcoin Retest está “à vista”: Bitbank

19/09/2025

As bombas da BOMB.FUN caem como viagens de mercado de moedas de meme

19/09/2025

Mininhas da manhã: as metas das máscaras incluirão tokens e szns Airdrop

19/09/2025

Recent Comments

  1. Uguettolitsz em Os robôs de Badmad fecharam o beta começa em fevereiro – veja como entrar!
MokoDAO – Seu portal para o mundo das criptomoedas e web3
Discord X (Twitter) Telegram
  • Anuncie Conosco
  • Sobre Nós
  • Política de Privacidade
  • DMCA
  • Termos e Condições
© 2025 mokodao. Designed by mokodao.

Type above and press Enter to search. Press Esc to cancel.