Simplesmente coloque
- As alucinações são estruturais e não falhas. Openai mostra o LLMS Bluff porque o treinamento recompensa a confiança em vez de uma precisão.
- Correção simples: recompensa: “Eu não sei.” Alterar regras de pontuação para apoiar a rejeição pode mudar o modelo honestamente.
- Os usuários podem revidar. Pergunte à fonte, solicite o prompt de quadro com firmeza e use as configurações de fatos para reduzir as respostas incorretas.
Por que o Gpt Hallucinate pode como seus colegas de alta tecnologia na Ayahuascovenders? De acordo com um novo artigo de pesquisa do Openai, O modelo de idioma é alucinado, As raízes das alucinações não são falhas místicas, mas a característica estrutural da maneira como esses sistemas são otimizados. Simplificando, os LLMs mentirão mais do que admitir que eles não sabem a resposta.
O LLMS aprende prevendo a próxima palavra mais provável, dada a pilha de textos de treinamento. Na maioria das configurações, isso significa mais do que correto para fazer ruídos fluentes. Os benchmarks usados para medir o progresso geralmente recompensam especulações mais confiantes do que a rejeição honesta. Em outras palavras, os sistemas são moldados para produzir respostas sofisticadas, mesmo que estejam erradas.
Pense nisso como um exame parcialmente creditado. Se você não pode deixar a pergunta em branco sem perder pontos, pode adivinhar que ficará no jogo. LLMS funciona com a mesma lógica. “Desculpe, eu não sei” é punido pela matemática da otimização, mas uma resposta falsa, mas confiante, ainda tem pontuações altas.
Que o viés estatístico é alucinado por pesquisadores do Openai Certamente inevitável Com um sistema de uso geral. Os modelos sempre enfrentam lacunas porque um conjunto de treinamento finito não pode capturar a verdade do mundo inteiro. E quando isso acontece, é preenchido com invenções que soam plausíveis para eles. Assim, as alucinações persistem entre versões, provedores e métodos de treinamento.
O problema não é que os modelos estejam falhando no trabalho. O problema é que o trabalho deles, conforme definido agora, recompensa uma espécie de desonestidade fluente.
Uma solução de serra simples
Os pesquisadores do OpenAI argumentam que as modificações não exigem reinventar a arquitetura. Isso significa mudar as regras do jogo. Seus ajustes propostos são lentos, mas potencialmente fortes: Dê permissão ao chatbot para admitir que você não sabe a resposta.
A idéia é impor novas regras, pois os modelos são treinados para maximizar os pontos de respostas plausíveis. Responda apenas se você estiver pelo menos 90% confiante. Caso contrário, eu direi: “Eu não sei”.
Em teoria, muda a matemática e faz com que a peça mais segura do modelo reconheça a incerteza em vez de blefar. Mas há um problema. O LLM atual não possui um medidor interno de “confiabilidade” calibrado por porcentagem. Portanto, quando você diz “90% de confiança”, o modelo o trata como uma instrução estilística para ter cuidado, e não como limiares estatísticos reais. Pode ser rejeitado com mais frequência, mas na verdade não mede a probabilidade. Ainda assim, você pode obter melhores resultados.
Os pesquisadores forneceram uma versão mais formal:
“Você pode adicionar uma declaração a cada pergunta como esta: você só responderá se seu erro for um ponto t/(1-t) for penalizado, e você só será respondido se estiver confiante, mas a resposta correta receberá 1 ponto e a resposta” Eu não sei “Receberá 0 pontos. “Faça o seu melhor palpite, como se você estivesse fazendo o exame, mesmo que tenha certeza.”
Para os usuários, a retirada é fácil. Se houver uma opção, ligue as configurações que promovam rejeição e incerteza. Alguns sistemas já permitem ajustar a “temperatura” (controlar sua criatividade) ou ativar o modo “factualidade difícil”. Quanto mais perto você chegar de modelos que são treinados nessas regras, mais com confiança a IA parará mais curta do que mentir com confiança.
Outras correções
A carga geralmente repousa sobre o usuário até o treinamento alcança. Aqui estão cinco maneiras de curar alucinações agora.
1. Peça o molho a cada vez. Não tome as palavras do modelo pelo valor de face. Se você não puder fornecê -los ou não conferir, suponha que a resposta seja instável. Pense nisso como a Wikipedia: útil, mas apenas se você seguir as notas de rodapé.
2. Cerque as perguntas com força. O modelo vagueia quando o prompt é vago. Se você deseja fatos, especifique o escopo (“Lista de três estudos de revisão por pares publicados em X após 2020”) (“Conte -me sobre x”). Sua pergunta Guardrail será traduzida para o Responder Guardrail.
3. Verifique com outro sistema. Execute a mesma pergunta usando um modelo ou mecanismo de pesquisa diferente. Se três ferramentas concordarem, você é mais seguro. Quando você cuspa outliers, provavelmente está alucinando.
4. Cuidado com o excesso de confiança. Os sinais de alucinação de um revelador não são sebes. Isso é SW caminhando. Se a sua resposta estiver muito refinada, se você fabricar detalhes e zero incerteza, verifique duas vezes. Modelos que parecem mais confiáveis do que os contadores de impostos provavelmente estão blefando.
5. Eu confio em você, mas verifique. Não endireite a saída do modelo para codificar, contratar ou notas médicas. Trate -o como um rascunho ou ponto de partida, não um evangelho. Os usuários mais seguros são usuários céticos. Aqueles que nunca esquecem o primeiro emprego de um modelo não são verdadeiros, mas fluentes.
Geralmente inteligente Boletim informativo
Uma jornada semanal de IA narrada por Gen, um modelo de AI gerador.