A equipe da Novasky, “uma iniciativa colaborativa liderada por estudantes e conselheiros do Sky Computing Lab da Universidade da Califórnia, Berkeley”, realizou algo que parecia impossível há apenas alguns meses. Eles criaram um modelo de inferência de IA de alto desempenho cujo treinamento custou menos de US$ 450.
Ao contrário dos LLMs tradicionais, que simplesmente prevêem a próxima palavra em uma frase, os chamados “modelos de raciocínio” compreendem um problema, analisam diferentes abordagens para resolvê-lo e implementam a solução ideal para a qual foram projetados. Isto torna estes modelos difíceis de treinar e configurar, uma vez que não só têm de prever a melhor resposta com base num conjunto de dados de treino, mas também têm de “raciocinar” ao longo do processo de resolução de problemas.
É por isso que uma assinatura do ChatGPT Pro, que executa os modelos de inferência O3 mais recentes, custa US$ 200 por mês. A OpenAI afirma que treinar e executar esses modelos é caro.
O novo modelo Novasky, denominado Sky-T1, corresponde ao primeiro modelo de inferência da OpenAI, conhecido como o1 (também conhecido como Strawberry), lançado em setembro de 2024 e custa aos usuários US$ 20 por mês. Em comparação, Sky-T1 é um modelo de 32 bilhões de parâmetros que só pode ser executado localmente em seu computador doméstico se você tiver uma GPU poderosa de 24 GB como o RTX 4090 ou o antigo 3090 Ti. E é grátis.
Não estamos falando de versões diluídas. Sky-T1-32B-Preview alcançou 43,3% de precisão em problemas matemáticos AIME2024, superando os 40% do OpenAI o1. No LiveCodeBench-Medium, a pontuação é de 56,8% em comparação com 54,9% na visualização o1. O modelo manteve bom desempenho em outros benchmarks, atingindo 82,4% no problema Math500 e pontuando 81,4% no o1-preview.

O momento não poderia ser mais interessante. A competição de inferência de IA tem esquentado recentemente. O o3 da OpenAI atraiu atenção ao superar os humanos em benchmarks de inteligência geral, gerando debate sobre se estamos vendo AGI inicial ou inteligência artificial geral. Enquanto isso, o Deepseek v3 da China ganhou as manchetes no ano passado por superar o o1 da OpenAI, usando menos recursos e sendo de código aberto.
🚀 Apresentando DeepSeek-V3!
Maior salto em frente:
⚡ 60 tokens/segundo (3x mais rápido que V2!)
💪 Recursos aprimorados
🛠 A compatibilidade da API permanece a mesma
🌍 Modelos e artigos totalmente de código aberto🐋 1/n pic.twitter.com/p1dV9gJ2Sd
-Deepseek (@deepseek_ai) 26 de dezembro de 2024
Mas a abordagem de Berkeley é diferente. Em vez de perseguir o poder bruto, a equipe está focada em disponibilizar modelos de inferência poderosos para as massas da maneira mais barata possível, facilmente ajustável e sem hardware corporativo caro. Construí um modelo que possa ser executado em meu computador local.
“Incrivelmente, o Sky-T1-32B-Preview foi treinado por menos de US$ 450, demonstrando que a funcionalidade de inferência de alto nível pode ser reproduzida de maneira acessível e eficiente. Todo o código é de código aberto”, disse Novasky em uma postagem no blog oficial.
Atualmente, a OpenAI não oferece acesso gratuito a modelos de inferência, mas fornece acesso gratuito a modelos menos sofisticados.
A perspectiva de ser capaz de ajustar um modelo de inferência para alcançar excelência específica de domínio por menos de US$ 500 é particularmente atraente para os desenvolvedores. Isso ocorre porque tais modelos especializados podem superar modelos de uso geral mais poderosos no domínio de interesse. Esta especialização económica abre novas possibilidades para aplicações intensivas em disciplinas científicas.
A equipe treinou o modelo em apenas 19 horas usando GPUs Nvidia H100, seguindo o que chamaram de “receita” que a maioria dos desenvolvedores deveria ser capaz de reproduzir. Os dados de treinamento parecem ser o maior impacto nos desafios de IA.
“Nossos dados finais incluem dados de codificação de 5K de APP e TACO e 10K de dados matemáticos dos subconjuntos AIME, MATH e Olympiads do conjunto de dados NuminaMATH. Além disso, temos AINDA – mantemos 1.000 dados científicos e de quebra-cabeças de 2”, disse Novasky. .
O conjunto de dados era diversificado o suficiente para permitir que o modelo fosse flexível em relação a diferentes tipos de problemas. Novasky usou outro modelo de IA de inferência de código aberto, QwQ-32B-Preview, para gerar os dados e ajustar o LLM de código aberto Qwen2.5-32B-Instruct. O resultado foi um novo modelo poderoso com capacidades de inferência que mais tarde se tornou o Sky-T1.
Uma descoberta importante da pesquisa da equipe é que quanto maior, melhor quando se trata de modelos de IA. Experimentos usando versões de parâmetros menores de 7 bilhões e 14 bilhões mostraram apenas pequenos benefícios. O ponto ideal acabou sendo 32 bilhões de parâmetros. Grande o suficiente para evitar a repetição da saída, mas não tão grande que seja impraticável.
Se você quiser sua própria versão de um modelo além do OpenAI o1, você pode baixar Sky-T1 em Hugging Face. Se sua GPU não for poderosa o suficiente, mas você ainda quiser experimentá-la, existem versões quantizadas de 8 a 2 bits, para que você possa testar a próxima melhor opção, sacrificando a precisão pela velocidade. Batata PC.
Por favor, tenha cuidado. Os desenvolvedores alertam que tais níveis de quantização “não são recomendados para a maioria dos propósitos”.
Editado por Andrew Hayward
geralmente inteligente Boletim informativo
Uma jornada semanal de IA contada por Gen, um modelo generativo de IA.