- MokoDAO - Seu portal para o mundo das criptomoedas e web3

O Deepseek, um laboratório de IA chinês que recentemente anulou as suposições do custo de desenvolvimento da indústria, libera uma nova fonte de um modelo de IA multimodal de código aberto, que se diz ser melhor do que o Dall-e 3 do OpenAI em uma grande referência.

Esse modelo, chamado Janus Pro, é de 1 bilhão a 7 bilhões de parâmetros (próximo ao tamanho do SD 3.5L) e pode ser baixado imediatamente com o aprendizado de máquina e o hub de ciência de dados Hubfise.

De acordo com as informações compartilhadas pela Deepseek AI, a maior versão, Janus Pro 7b, não é apenas o Dall-E 3 do Openai, mas também outros modelos principais, como Pixart-Alpha, EMU3-Gen, SDXL, etc. Geneval e DPG Bench vai quebrá -lo.

A versão será feita alguns dias após a Deepseek criar uma manchete com o modelo de idioma R1. O modelo de idioma R1 foi de apenas US $ 5 milhões, consistente com a função GPT-4.

Além disso, os produtos de empresas emergentes na China derrubaram as pessoas existentes e causaram preocupações de todo o setor que pode bater na trajetória de crescimento da NVIDIA, um grande fabricante de chips que sofreu a maior capitalização de mercado da história na segunda -feira.

O Janus Pro Model, da Deepseek, usa a empresa chamada “nova estrutura auto -regular” para separar a codificação visual em rotas individuais e manter uma única arquitetura de transformador unificado.

Com esse design, o modelo pode analisar imagens e gerar imagens na resolução 768×768.

“O Janus Pro superou o modelo unificado anterior e alinha ou excede o desempenho de um modelo específico de tarefa”, afirmou Deepseek em um documento de liberação. “Devido à simplicidade, flexibilidade e eficácia do Janus Pro, será um candidato poderoso para a próxima geração de modelo multi -modal unificado”.

Ao contrário do Deepseek R1, a empresa não publicou um white paper completo no modelo, mas agora lançou um documento técnico e pode baixá -lo imediatamente. Uma abordagem única de nós, empresas técnicas.

Então, quais são nossas decisões? Bem, este modelo é muito grande.

Mas não espere substituir um dos modelos mais especializados que você ama. Você pode gerar texto, analisar imagens e gerar fotos, mas se você anexar um poço a um modelo que funcionar bem, é na melhor das hipóteses.

Teste de modelo

Observe que não existe um método imediato para executá -lo usando uma interface do usuário convencional. Isso significa que executar um modelo localmente é um pouco irrealista e precisa executar um comando de texto em um dispositivo.

No entanto, alguns usuários do Hugginface criam um espaço para testar o modelo. Como o espaço oficial da Deepseek não está disponível, recomendamos que você tente Janus 7b usando o espaço vazio de Neurosenko.

Tenha cuidado com o que você faz, pois alguns títulos podem ser enganosos. Por exemplo, de acordo com o espaço executado pelo AP123, afirma que ele administra o Janus Pro 7b, mas executa o Janus Pro 1.5b. Confie em nós: porque aconteceu conosco.

Entendimento visual

Este modelo é bom em entendimento visual e pode explicar os elementos da fotografia com precisão.

Ele mostrou uma relação entre um bom reconhecimento espacial e objetos diferentes.

Também é mais preciso que o LLAVA, o modelo de visão de código aberto mais popular. Ele fornece explicações mais precisas na cena e pode interagir com os usuários com base em prompts visuais.

No entanto, tarefas que exigem lógica ou alguma análise além do que é claramente exibido nas fotos não é melhor que a visão GPT. Por exemplo, analisei esta foto no modelo e pedi para explicar a mensagem.

Este modelo parece um mangá humorístico, representando uma cena lambendo o fim da longa língua vermelha presa ao garoto.

“O tom geral da imagem parece ser fácil e divertido, e parece sugerir um cenário que as mulheres estão envolvidas em atos travessos ou escassos”.

Nessas situações, que precisam de alguma inferência além de uma explicação simples, na maioria dos casos, o modelo falha.

Por outro lado, por exemplo, o chatgpt realmente entendeu o significado por trás da imagem. “Esse phor sugere que a atitude, as palavras ou o valor da mãe, especialmente em métodos negativos, como bullying e discriminação, afetam diretamente o comportamento da criança”.

Liga única

A geração de imagens parece robusta e relativamente precisa, mas requer instruções cautelosas para obter bons resultados.

A Deepseek afirma que o Janus Pro quebrou o SD 1.5, o SDXL e o Pixart Alpha, mas é importante enfatizar que isso deve ser comparado com os modelos básicos financiados.

Em outras palavras, uma comparação justa está entre a pior versão do modelo atualmente disponível. Provavelmente porque se houver centenas de músicas maravilhosas que podem alcançar os resultados mais recentes da competição, ninguém usa o Bass SD 1.5 para gerar arte. Modelo de arte 3.5, como fluxo e difusão estável.

Portanto, as gerações não são impressionantes em termos de qualidade, mas parecem ser melhores do que as usadas para produzir o SD1.5 ou SDXL no momento da liberação.

Por exemplo, a comparação de imagens geradas por Janus e SDXL para avisos está listada: Raposas de bebê fofas e adoráveis com grandes olhos castanhos, fascinantes, imortais, macios, pétalas, fadas, aerística óptica muito detalhada, filmes e cores naturais.

Janus derrota o SDXL, entendendo o conceito central que pode gerar uma raposa bebê em vez de uma raposa madura, como no caso do SDXL.

Além disso, ele entendeu melhor o estilo fotoriano, e havia outros fatores (fofos, como um filme).

No entanto, o SDXL criou uma imagem mais clara, apesar de não seguir o prompt. A qualidade geral é melhor, os olhos são realistas e os detalhes são fáceis de encontrar.

Esse padrão foi consistente em outras gerações. O entendimento rápido é uma execução ruim e usa imagens borradas que parecem desatualizadas, dado o quão bom é o estado atual -o gerador de imagens de arte.

No entanto, é importante observar que Janus é um LLM multi -modal que gera conversas de texto, analisa imagens e pode gerá -las. Flux, SDXL e outros modelos não são criados para essas tarefas.

Portanto, Janus é muito mais útil nesse núcleo. Nada é bom comparado a um modelo especial que é excelente para uma tarefa específica.

O futuro como líder dos gerados pelo código aberto de Janus como líder dos entusiastas da IA depende do número de atualizações para melhorar esses pontos.

Editar Josh Chitonner e Sebastian Sync

Geralmente inteligente Boletim informativo

Jornada semanal de IA narrada por Gen, um modelo de IA gerado.

Source link

What's Hot

Bitcoin, Ethereum e XRP disparam à medida que o fim da paralisação do governo dos EUA parece iminente

O volume de negociação de DEX atinge novo recorde à medida que a atividade na rede explode

ETF Bitwise Solana espera demanda constante à medida que fundos Bitcoin e Ethereum perdem ativos

Taxa Deepseek Strikes: O novo modelo de código aberto quebrou o Dall-E 3?

Geralmente inteligente Boletim informativo

Bitcoin, Ethereum e XRP disparam à medida que o fim da paralisação do governo dos EUA parece iminente

ETF Bitwise Solana espera demanda constante à medida que fundos Bitcoin e Ethereum perdem ativos

O novo cartão monetário da Cardsmith contém mais de US$ 500.000 em Bitcoin, Dogecoin e Ethereum autênticos

A moeda de privacidade Zcash continua sua ascensão histórica, aproximando-se do máximo em 8 anos

Bitcoin, Ethereum e XRP disparam à medida que o fim da paralisação do governo dos EUA parece iminente

O volume de negociação de DEX atinge novo recorde à medida que a atividade na rede explode

ETF Bitwise Solana espera demanda constante à medida que fundos Bitcoin e Ethereum perdem ativos

O novo cartão monetário da Cardsmith contém mais de US$ 500.000 em Bitcoin, Dogecoin e Ethereum autênticos

Subscribe to Updates

What's Hot

Taxa Deepseek Strikes: O novo modelo de código aberto quebrou o Dall-E 3?

Teste de modelo

Geralmente inteligente Boletim informativo

Related Posts