Uma rede de coleta de dados que abrange o mundo.
À medida que o mundo continua a concentrar-se na escalada da guerra pelos chipsets de IA, incluindo tarifas, restrições de propriedade intelectual, sanções à cadeia de abastecimento e batalhas geopolíticas, aspectos importantes do futuro da IA estão a ser silenciosamente ignorados. chipset para processar.
Logo no início de 2025, Elon Musk observou que as empresas de IA tinham ficado sem dados para treinar os seus modelos e tinham “esgotado” a soma total do conhecimento humano. Este artigo explora o conjunto cada vez menor de dados acessíveis e considera como as soluções descentralizadas de IA podem abordar este desafio de forma centralizada.
Amanhecer da guerra de dados
Em primeiro lugar, não existem dados ilimitados.
Os sinais desta crise são muitos. Em 2023, um grupo de artistas visuais entrou com um processo histórico contra Stability AI, MidJourney e DeviantArt por usarem suas obras de arte sem seu consentimento para treinar modelos generativos de IA como Stable Diffusion. Na mesma época, Musk acusou empresas como a OpenAI de “raspar” dados do Twitter (agora X) sem permissão e instou X a restringir preços e restrições de acesso para suas APIs.
Em outros lugares, os dramáticos aumentos nos preços da API do Reddit perturbaram empresas como OpenAI e Anthropic, que dependiam fortemente do vasto conteúdo gerado pelo usuário do Reddit para treinar seus modelos de IA. Embora o Reddit justificasse a mudança como uma forma de monetizar dados valiosos, a decisão gerou um debate sobre as tensões entre plataformas que hospedam dados de usuários e empresas de IA que buscam explorá-los.
Estes casos realçam a realidade crescente de que os dados disponíveis legal e eticamente estão a tornar-se mais escassos.
O que está em jogo na guerra de dados
Enquanto a guerra dos chips se concentrava na produção do hardware mais poderoso, a guerra dos dados trata de obter os conjuntos de dados certos para treinar a IA. A crescente escassez de dados éticos e de alta qualidade está a criar um dilema para empresas de todas as dimensões, desde gigantes como a Google e a Microsoft até pequenas empresas que lutam para aceder a conjuntos de dados de formação.
Para grandes empresas, ainda poderá ser possível obter dados de grandes empresas centralizadas, embora a um custo mais elevado. No entanto, as pequenas empresas enfrentam opções limitadas e muitas vezes inacessíveis. Sem acesso aos métodos e canais adequados para recolha de dados, estas empresas correm o risco de ficar para trás na corrida à inovação.
As perguntas permanecem. Como podemos recolher de forma ética e eficaz os dados necessários para avançar no desenvolvimento da IA? As guerras de dados ocorrem em múltiplas frentes, cada uma apresentando desafios e oportunidades únicos.
coleta de dados
Quem controla o pipeline de coleta de dados? Como isso pode ser feito de forma ética e legal?
Novas iniciativas estão surgindo à medida que aumentam os processos judiciais contra gigantes da tecnologia acusados de coleta e uso ilegal de dados. Por exemplo, a Universidade de Harvard está a liderar esforços para obter o consentimento dos utilizadores para a publicação de dados e para disponibilizar publicamente conjuntos de dados de acesso aberto. Embora tais projetos sejam valiosos, eles são insuficientes para atender às demandas das aplicações comerciais de IA.
Os dados sintéticos também estão ganhando atenção como uma solução potencial. Empresas como Meta e Microsoft estão recorrendo a dados gerados por IA para ajustar modelos como Llama e Phi-4. O Google e a OpenAI também estão aproveitando dados sintéticos em seu trabalho. No entanto, os dados sintéticos apresentam os seus próprios desafios, incluindo questões como “ilusões” de modelos que podem comprometer a precisão e a fiabilidade.
A coleta distribuída de dados oferece outra alternativa promissora. Em particular, os fornecedores de dados fornecem dados com processos de recolha de dados registados na blockchain para garantir a integridade e a rastreabilidade. Além disso, os contribuidores de dados em todo o mundo serão incentivados com criptomoedas pelas suas contribuições. Vale ressaltar que as criptomoedas são essenciais nesse cenário, pois as moedas fiduciárias não são adequadas para pequenas transações internacionais. Em suma, um tal modelo descentralizado de recolha de dados pode abordar preocupações sobre a integralidade, diversidade e qualidade dos dados. Estas soluções democratizam o acesso aos dados e permitem que as pequenas empresas concorram no ecossistema de IA.
qualidade dos dados
Dados de baixa qualidade levam a modelos tendenciosos, previsões imprecisas e, em última análise, à desconfiança nos sistemas de IA. Como você pode garantir que os dados usados para treinamento em IA sejam precisos e representativos?
As práticas comuns da indústria incluem:
- Validação rigorosa de dados: as empresas empregam técnicas avançadas de validação para remover erros, inconsistências e ruídos nos conjuntos de dados. Isso geralmente requer supervisão humana, processos automatizados ou uma combinação de ambos para verificar a integridade dos dados.
- Estratégias de mitigação de preconceitos: Para garantir que os dados sejam representativos, as empresas implementam ferramentas de detecção de preconceitos e diversas técnicas de amostragem. Por exemplo, na área médica, os conjuntos de dados devem incluir indivíduos de diferentes grupos demográficos para evitar preconceitos que possam distorcer os modelos de diagnóstico.
- Conformidade com padrões: Estruturas industriais como a ISO/IEC 27001 sobre segurança de dados e outras diretrizes emergentes sobre IA ética estão se tornando essenciais para garantir a qualidade dos dados e a conformidade com os padrões globais.
- Verificações de qualidade de crowdsourcing: plataformas como Amazon Mechanical Turk são usadas para tarefas como rotulagem e validação de dados. Esses métodos são econômicos, mas exigem monitoramento para garantir consistência e precisão.
- Verificação descentralizada: Blockchain e sistemas descentralizados estão ganhando força como ferramentas para provar a origem dos dados e garantir sua autenticidade e resistência à adulteração.
Os reguladores nacionais também estão a ponderar considerações importantes de segurança nacional, como o equilíbrio entre os direitos individuais e a inovação tecnológica, ao mesmo tempo que protegem dados sensíveis contra ameaças cibernéticas, exploração estrangeira e utilização indevida por adversários. Eles também enfrentam o desafio premente de estabelecer regras abrangentes de privacidade e segurança de dados. abordar o
A fronteira espera
O impacto das guerras de dados é de longo alcance. Por exemplo, o acesso a dados de pacientes de alta qualidade poderia revolucionar o diagnóstico e o planeamento de tratamento no setor da saúde, mas regulamentações rigorosas de privacidade criam obstáculos. Da mesma forma, os modelos de IA treinados em conjuntos de dados de ética da indústria musical poderiam transformar tudo, desde a composição até à aplicação dos direitos de autor, desde que respeitem os direitos de propriedade intelectual.
Estes desafios destacam a importância de soluções descentralizadas que priorizem a transparência, a qualidade e a acessibilidade dos dados. Aproveitar sistemas descentralizados cria um ambiente mais equitativo onde os indivíduos mantêm o controle de seus dados, as empresas têm acesso a conjuntos de dados de alta qualidade e de origem ética e a inovação prospera sem comprometer a privacidade ou a segurança.
A transição da batalha dos chipsets para a batalha dos conjuntos de dados remodelará o ecossistema de IA e sua evolução, criando uma oportunidade para que soluções de dados descentralizadas assumam a liderança. Ao priorizar a recolha ética de dados e a acessibilidade, a IA descentralizada tem o potencial de colmatar a lacuna e inaugurar um futuro de IA mais justo e inovador.
A batalha pelos melhores dados já começou. Você está pronto para navegar?