Close Menu
MokoDAO – Seu portal para o mundo das criptomoedas e web3MokoDAO – Seu portal para o mundo das criptomoedas e web3
  • Home
  • Crypto
  • Bitcoin
  • Altcoins
  • NFT
  • Games
  • Airdrop
  • Guias
  • Editorial

Subscribe to Updates

Assine nossa newsletter e nunca perca nossas últimas notícias

Assine minha Newsletter para Novas Postagens e dicas Vamos ficar atualizados!

What's Hot

BNB entra nos holofotes como um ativo de crypto de grau institucional

24/06/2025

Draftables para lançar o torneio de pré-temporada, a partir de 27 de junho

24/06/2025

O Círculo do Publicador do USDC tropeça em uma classificação neutra da Compass Points

24/06/2025
Facebook X (Twitter) Instagram
  • Anuncie Conosco
  • Sobre Nós
  • Política de Privacidade
  • DMCA
  • Termos e Condições
MokoDAO – Seu portal para o mundo das criptomoedas e web3MokoDAO – Seu portal para o mundo das criptomoedas e web3
  • Home
  • Crypto
  • Bitcoin
  • Altcoins
  • NFT
  • Games
  • Airdrop
  • Guias
  • Editorial
MokoDAO – Seu portal para o mundo das criptomoedas e web3MokoDAO – Seu portal para o mundo das criptomoedas e web3
Home » Além dos Transformers: Novas arquiteturas de IA podem revolucionar modelos de linguagem em larga escala
Bitcoin

Além dos Transformers: Novas arquiteturas de IA podem revolucionar modelos de linguagem em larga escala

Equipe MKDBy Equipe MKD19/01/2025Nenhum comentário6 Mins Read
Share
Facebook Twitter LinkedIn Pinterest Email


Nas últimas semanas, pesquisadores do Google e Sakana anunciaram dois projetos de redes neurais de ponta que poderiam transformar a indústria de IA.

Estas tecnologias visam desafiar o domínio dos transformadores (um tipo de rede neural que conecta entradas e saídas com base no contexto), uma tecnologia que definiu a IA nos últimos seis anos.

Novas abordagens incluem “Titans” e “Transformers Squared” do Google, projetados por Sakana, uma startup de IA de Tóquio conhecida por usar a natureza como modelo para soluções tecnológicas. Na verdade, tanto o Google quanto o Sakana abordaram o problema do transformador estudando o cérebro humano. Seu transformador utiliza essencialmente diferentes estágios de memória e ativa diferentes módulos especialistas de forma independente, em vez de executar o modelo inteiro de uma vez para cada problema.

Como resultado, os sistemas de IA podem tornar-se mais inteligentes, mais rápidos e mais capazes do que nunca, sem necessariamente serem maiores ou mais caros de operar.

Para contextualizar, a arquitetura Transformer, a tecnologia com o “T” no nome do ChatGPT, é projetada para tarefas intersequenciais, como modelagem de linguagem, tradução e processamento de imagens. Os transformadores modelam dependências entre tokens de entrada contando com “mecanismos de atenção”, ferramentas que entendem a importância de um conceito dependendo do contexto, e são semelhantes às chamadas redes neurais recorrentes (a tecnologia convencional permite que os dados sejam processados ​​em paralelo). do que sequencialmente. IA antes dos Transformers. Esta tecnologia deu aos modelos uma compreensão do contexto e marcou os momentos antes e depois do desenvolvimento da IA.

No entanto, apesar do seu sucesso impressionante, os transformadores enfrentaram desafios significativos em termos de escalabilidade e adaptabilidade. Para tornar um modelo mais flexível e versátil, ele também precisa ser mais potente. Portanto, uma vez treinado, não pode ser melhorado, a menos que o desenvolvedor apresente um novo modelo ou o usuário conte com ferramentas de terceiros. É por isso que “quanto maior, melhor” é a regra geral na IA hoje.

Mas graças ao Google e ao Sakana, isso poderá mudar em breve.

Titãs: uma nova arquitetura de memória para IA burra

A arquitetura Titans do Google Research adota uma abordagem diferente para melhorar a adaptabilidade da IA. Titans se concentra em mudar a forma como os modelos armazenam e acessam informações, em vez de mudar a forma como os modelos processam as informações. Essa arquitetura introduz módulos de memória neural de longo prazo que aprendem a lembrar durante os testes, semelhante ao funcionamento da memória humana.

Atualmente, o modelo lê todo o prompt e saída, prevê um token, lê tudo novamente, prevê o próximo token e assim por diante até encontrar a resposta. Eles têm uma memória de curto prazo incrível, mas uma memória de longo prazo fraca. Se você pedir que eles se lembrem de algo fora de sua janela de contexto ou de informações muito específicas em meio a muito ruído, eles provavelmente falharão.

Os Titãs, por outro lado, combinam três tipos de sistemas de memória: memória de curto prazo (semelhante aos Transformers tradicionais), memória de longo prazo (para armazenar contexto histórico) e memória persistente (para conhecimento específico de tarefas). Essa abordagem multicamadas permite que o modelo lide com sequências de mais de 2 milhões de tokens, o que é muito mais longo do que um conversor atual pode lidar com eficiência.

Imagem: Google
Imagem: Google

De acordo com artigos de pesquisa, Titans mostrou melhorias significativas em uma variedade de tarefas, incluindo modelagem de linguagem, raciocínio de bom senso e genômica. Essa arquitetura tem se mostrado particularmente eficaz em tarefas do tipo “agulha no palheiro”, que exigem a localização de informações específicas em um contexto muito longo.

O sistema imita a forma como o cérebro humano ativa áreas específicas para diferentes tarefas e reconfigura dinamicamente a rede com base nas mudanças nas demandas.

Em outras palavras, assim como diferentes neurônios no cérebro se especializam em diferentes funções e são ativados com base na tarefa executada, o Titan emula essa ideia ao incorporar um sistema de memória interconectado. Esses sistemas (memória de curto prazo, longo prazo e persistente) trabalham juntos para armazenar, recuperar e processar informações dinamicamente com base na tarefa em questão.

Transformer Squared: Apresentando IA autoadaptável

Apenas duas semanas após o artigo do Google, uma equipe de pesquisadores da Sakana AI e do Instituto de Ciência de Tóquio apresentou o Transformer Squared, uma estrutura que permite que modelos de IA mudem seu comportamento em tempo real com base na tarefa em questão. O sistema funciona ajustando seletivamente apenas os componentes singulares da matriz de pesos durante a inferência, tornando-o mais eficiente do que os métodos tradicionais de ajuste fino.

Transformer Squared “emprega um mecanismo de duas passagens. Primeiro, o sistema de despacho identifica as propriedades da tarefa e, em seguida, um vetor ‘especialista’ específico da tarefa treinado usando aprendizagem por reforço é misturado dinamicamente para fornecer comportamento direcionado para prompts recebidos. ” ele disse. Artigo de pesquisa.

Você sacrifica o tempo de inferência (pensando mais) pela especialização (saber quais conhecimentos aplicar).

Imagem: Peixe AI
Imagem: Peixe AI

O que torna o Transformer Squared especialmente inovador é a sua capacidade de adaptação sem exigir um extenso treinamento. O sistema usa o que os pesquisadores chamam de ajuste fino de valor singular (SVF), que se concentra em alterar apenas os componentes essenciais necessários para uma tarefa específica. Esta abordagem reduz significativamente as demandas computacionais, mantendo ou melhorando o desempenho em comparação com os métodos atuais.

Nos testes, o Transformer da Sakana demonstrou versatilidade incrível em uma variedade de tarefas e arquiteturas de modelos. Este quadro tem-se mostrado particularmente promissor no tratamento de aplicações não distribuídas, sugerindo que os sistemas de IA podem tornar-se mais flexíveis e responsivos a novas situações.

Esta é a nossa tentativa de analogia. Quando você aprende uma nova habilidade, seu cérebro forma novas conexões neurais sem precisar religar tudo. Por exemplo, quando você aprende a tocar piano, seu cérebro não precisa reescrever todo o seu conhecimento. Ele adapta circuitos neurais específicos à tarefa, preservando outras funções. A ideia de Sakana era que os desenvolvedores não precisassem retreinar toda a rede de modelos para se adaptarem às novas tarefas.

Em vez disso, o modelo ajusta seletivamente componentes específicos (por meio de ajuste fino de valor singular) para aumentar a eficiência para tarefas específicas, mantendo a funcionalidade geral.

Em suma, os dias em que as empresas de IA se vangloriavam da enormidade dos seus modelos poderão em breve tornar-se uma coisa do passado. À medida que esta nova geração de redes neurais se torna mais difundida, os modelos futuros não precisarão mais depender de escala massiva para maior versatilidade e desempenho.

Atualmente, os transformadores dominam e são frequentemente complementados por ferramentas externas, como Search Augmentation and Generation (RAG) e LoRA para aprimorar sua funcionalidade. Mas na indústria de IA em rápida mudança, basta uma implementação inovadora para preparar o terreno para uma mudança sísmica. E quando isso acontecer, outras áreas da área certamente o seguirão.

Editado por Andrew Hayward

geralmente inteligente Boletim informativo

Uma jornada semanal de IA contada por Gen, um modelo generativo de IA.



Source link

Equipe MKD
  • Website

Related Posts

O Círculo do Publicador do USDC tropeça em uma classificação neutra da Compass Points

24/06/2025

Crypto Exchangewazirx hackeado dá mais tempo para se reconstruir após a decisão judicial

24/06/2025

O anúncio de Trump de Israel e cessar -fogo do Irã fará com que o Altcoins suba, mas vai durar?

24/06/2025

Os mercados de fraude criptográfica prosperam novamente após a tentativa de limpeza do Telegram: relatório

24/06/2025
Add A Comment
Leave A Reply Cancel Reply

Inscreva-se para receber as notícias!

Assine nossa newsletter e nunca perca nossas últimas notícias.

Colunistas

BNB entra nos holofotes como um ativo de crypto de grau institucional

24/06/2025

Draftables para lançar o torneio de pré-temporada, a partir de 27 de junho

24/06/2025

O Círculo do Publicador do USDC tropeça em uma classificação neutra da Compass Points

24/06/2025

O Overknights lança o Overforge 2.0 com recompensas diárias do USDC

24/06/2025

Recent Comments

  1. Uguettolitsz em Os robôs de Badmad fecharam o beta começa em fevereiro – veja como entrar!
MokoDAO – Seu portal para o mundo das criptomoedas e web3
Discord X (Twitter) Telegram
  • Anuncie Conosco
  • Sobre Nós
  • Política de Privacidade
  • DMCA
  • Termos e Condições
© 2025 mokodao. Designed by mokodao.

Type above and press Enter to search. Press Esc to cancel.