Os laboratórios de inteligência artificial da China não estão apenas construindo modelos de IA mais baratos. Isso esclarece o ineficiente da indústria como um todo.
O avanço da Deepseek mostrou que uma pequena equipe conseguiu reconsiderar como construir um modelo de IA para economizar dinheiro. Gigantes do OpenAi e de alta tecnologia, como a humanidade, gastam bilhões de dólares apenas no poder da computação, mas diz -se que a Deepseek alcançou os mesmos resultados se exceder US $ 5 milhões.
O modelo da empresa é um GPT-4O (o melhor LLM do OpenAI), o Openai O1 (agora o melhor modelo de inferência do OpenAI) e Human Claude 3,5 sonetos com muitos testes de referência, cerca de 2.788m H800 GPU Time totalmente usado para treinamento para combinar ou derrotar Batidas. Esta é uma porcentagem muito pequena de hardware que parece ser tradicionalmente necessário.
Esse modelo foi muito bom e eficiente, subiu alguns dias no topo da aplicação produtiva do iOS da Apple e desafiou a superioridade do OpenAI.
A necessidade é a mãe da inovação. A equipe conseguiu conseguir isso usando técnicas que os desenvolvedores americanos não precisavam considerar. Não é dominado hoje. Provavelmente, o mais importante foi que a Deepseek implementou o treinamento de 8 bits e reduziu os requisitos de memória em 75 % em vez de usar a precisão completa no cálculo.
“Eles entenderam o treinamento de 8 bits para pelo menos alguns números”, disse o CEO da Perplexity, Aravind Srinivas. CNBC。 “Até onde eu sei, não acho que o treinamento do ponto flutuante 8 não seja tão bem compreendido. A maior parte do treinamento dos EUA ainda está em execução no FP16”.
O FP8 usa metade da largura de banda de memória e armazenamento em comparação com FP16. Para modelos de IA em grande escala com bilhões de parâmetros, essa redução é significativa. Deepseek teve que aprender isso porque o hardware era fraco, mas o Openai não tinha essa restrição.
A Deepseek desenvolveu um sistema “multi -token” que processa toda a frase de uma vez, em vez de palavras individuais, e possui o dobro do sistema, mantendo a precisão de 90 %.
Outro método usado foi chamado de “destilação”. Ao criar um modelo pequeno, você replica a saída de um modelo maior sem treinamento no mesmo banco de dados de conhecimento. Isso permite que você libere um modelo pequeno, muito eficiente, preciso e competitivo.
A empresa também aumentou a eficiência do modelo, usando uma técnica chamada “Mistura de especialistas”. Os modelos convencionais mantêm constantemente todos os parâmetros ativamente, mas o sistema Deepseek usa um total de 671 bilhões de parâmetros, mas apenas 37 bilhões por vez. É como ter uma grande equipe de especialistas, mas apenas ligar para os especialistas necessários para uma tarefa específica.
“O Deepseek-R1 é usado como modelo de professor para gerar 800 mil amostras de treinamento, e alguns pequenos modelos densos são ajustados. O resultado é promissor: Deepseek-R1-Distill-Qwen-1.5b é, a referência matemática excede o GPT-4o e Claude-3,5, excedendo 28,9 % na AIM e 83,9 % em matemática.
No caso do contexto, 1,5 bilhão é considerado SLM ou modelo de linguagem pequena, não LLM ou modelo de linguagem grande, porque existem poucos parâmetros do modelo. O SLM possui muito poucos cálculos e VRAM, para que os usuários possam executá -los em uma máquina fraca como um smartphone.
O impacto no custo é incrível. Além de 95 % dos custos de treinamento, a API da DeepSeek reivindica apenas 10 centavos por 100 tokens em comparação com US $ 4,40 para serviços semelhantes. Um desenvolvedor relatou que cerca de 50 centavos haviam processado 200.000 solicitações de API, mas a taxa não é limitada.
“Efeito Deepseek” já é notável. “Vamos colocar um papel quieto em voz alta: os edifícios de modelos de IA são armadilhas para dinheiro”, disse o investidor Chamath Palihapitiya. E apesar do soco lançado na Deepseek, Sam Altman, CEO da Openai, depois de todas as mídias sociais, para aqueles que conseguiram de graça em Deepseek, que o Openai reivindica US $ 200 por mês, imediatamente bombeei seus freios para diminuir o usuário.
Por outro lado, o aplicativo Deepseek é o principal gráfico de download e três dos seis principais positivos da moda no Github estão relacionados à Deepseek.
A maioria das ações da IA está diminuindo porque os investidores estão se perguntando se o hype está no nível da bolha. Tanto o hardware da AI (NVIDIA, AMD) quanto o software (Microsoft, Meta e Google) estão sofrendo com os resultados da mudança de paradigma causados por Deepseek e os resultados compartilhados pelos usuários e desenvolvedores.
Mesmo com a AI Crypto Tóquio, o pôster do Deepseek AI Token Inn apareceu por fraude.
Além dos destroços das finanças, o ponto de tudo isso é que o avanço da Deepseek pode não exigir um data center em grande escala e hardware especial. Como resultado, a situação competitiva está mudando fundamentalmente, e muitas pessoas podem transformar os benefícios permanentes das principais empresas de alta tecnologia em leads temporários.
O momento é quase cômico. Alguns dias antes do anúncio de Deepseek, o presidente Trump, o Sam Altman da Openai e o fundador da Oracle anunciaram o Project Stargate. Este é um investimento de US $ 500 bilhões em infraestrutura de IA dos EUA. Mark Zuckerberg, por outro lado, dobrou o meta -comprometimento de derramar bilhões de desenvolvimento de IA. O investimento de 13 bilhões de dólares da Microsoft em OpenAI se parece de repente como um gênio estratégico e parece um FOMO caro que fornece combustível nos recursos.
“Não era importante que você não os deixasse perseguir”, disse Slinibus. CNBC。 “Eles apenas alcançaram.”
Andrew Hayward Editing
Geralmente inteligente Boletim informativo
Jornada semanal de IA narrada por Gen, um modelo de IA gerado.