Close Menu
MokoDAO – Seu portal para o mundo das criptomoedas e web3MokoDAO – Seu portal para o mundo das criptomoedas e web3
  • Home
  • Crypto
  • Bitcoin
  • Altcoins
  • NFT
  • Games
  • Airdrop
  • Guias
  • Editorial

Subscribe to Updates

Assine nossa newsletter e nunca perca nossas últimas notícias

Assine minha Newsletter para Novas Postagens e dicas Vamos ficar atualizados!

What's Hot

Por que o calibre publicado está construindo o Ministério das Finanças do ChainLink?

20/09/2025

X toma medidas legais contra o esquema de suborno das redes de fraude de crypto

20/09/2025

E a estátua de Bitcoin Golden Trump em Washington, DC?

20/09/2025
Facebook X (Twitter) Instagram
  • Anuncie Conosco
  • Sobre Nós
  • Política de Privacidade
  • DMCA
  • Termos e Condições
MokoDAO – Seu portal para o mundo das criptomoedas e web3MokoDAO – Seu portal para o mundo das criptomoedas e web3
  • Home
  • Crypto
  • Bitcoin
  • Altcoins
  • NFT
  • Games
  • Airdrop
  • Guias
  • Editorial
MokoDAO – Seu portal para o mundo das criptomoedas e web3MokoDAO – Seu portal para o mundo das criptomoedas e web3
Home » Claude agora pode enfurecer sua conversa de IA – por sua própria saúde mental
Bitcoin

Claude agora pode enfurecer sua conversa de IA – por sua própria saúde mental

Equipe MKDBy Equipe MKD19/08/2025Nenhum comentário4 Mins Read
Share
Facebook Twitter LinkedIn Pinterest Email


Simplesmente coloque

  • O modelo Claude Opus permite que os usuários fechem permanentemente bate -papos se forem abusados ou continuarem a pressionar solicitações ilegais.
  • A humanidade faz fronteira com “bem -estar da IA”, citando um teste no qual Claude mostra “dor óbvia” sob instruções hostis.
  • Alguns pesquisadores elogiam esse recurso. Outros nas mídias sociais riram disso.

Claude acabou de ganhar o poder de bater na porta do meio.

“Recentemente, demos a Claude Opus 4 e 4.1 a capacidade de encerrar as conversas através da interface de bate -papo do consumidor”, disse Anthrópio em um posto da empresa. “Esse recurso foi desenvolvido principalmente como parte de um trabalho exploratório sobre o bem -estar da IA em potencial, mas possui conexões mais amplas para modelar medidas de alinhamento e proteção”.

Esse recurso começa apenas durante o que é chamado de “Caso Extreme Edge”. Você assedia seus bots, solicita repetidamente conteúdo ilegal, insiste repetidamente no que deseja fazer depois de ser informado que não, e Claude desiste de você. Puxe o gatilho e a conversa está morta. Não há apelo ou segunda chance. Você pode começar fresco em outra janela, mas essa troca específica está enterrada.

Bot implorando pela saída

A humanidade, que se concentra na segurança das principais empresas de IA, conduziu recentemente o que chamou de “avaliação preliminar de bem-estar do modelo”, examinando as preferências e padrões comportamentais autorreferidos de Claude.

A empresa descobriu que seu modelo mostrava consistentemente padrões de preferência, sugerindo que evitava tarefas prejudiciais e não desfrutavam de certas interações. Por exemplo, Claude mostrou “angústia óbvia” ao lidar com usuários que buscam conteúdo prejudicial. Dadas as opções de interação simulada, a humanidade decidiu fazer uma função quando a conversa termina.

O que está acontecendo aqui? A humanidade não disse: “Nossos pobres bots gritam à noite”. O que faz é testá -lo Enquadramento de bem -estar Você pode fortalecer o alinhamento de uma maneira pegajosa.

Ao projetar um sistema para “curtir” sem ser abusado e proporcionar possibilidades Termina a própria interaçãodepois mudando a trajetória do controle. A IA não está mais rejeitando passivamente, mas está implementando ativamente os limites. É um padrão diferente de comportamento e pode fortalecer a resistência ao jailbreak e instruções forçadas.

Se isso funcionar, você pode treinar o modelo e o usuário. Modelo “Modelo” Dor, os usuários analisam a parada dura e definem normas sobre como interagir com a IA.

“Continuamos extremamente incertos sobre o potencial status moral de Claude e outros LLMs no presente ou no futuro. Mas levamos a questão a sério”, disse a humanidade em uma postagem no blog. “Permitir que o modelo termine ou encerre interações potencialmente dolorosas é uma dessas intervenções”.

Descrypto Eu testei o recurso e o acionei com sucesso. A conversa se fecha para sempre – sem repetição, sem recuperação. Outros tópicos não são afetados, mas esse bate -papo em particular será um cemitério digital.

Atualmente, apenas o modelo “Opus” (a versão mais poderosa) da humanidade registra o poder desse mega Cullen. Os usuários do soneto notarão que Claude ainda causa soldados através do que ele o joga.

A era dos fantasmas digitais

A implementação vem com certas regras. Claude não liberará fiança quando alguém ameaça a auto-mutilação ou violência contra os outros. Isso ocorre porque o engajamento contínuo e contínuo da humanidade supera o desconforto digital teórico. Antes de ser concluído, o assistente deve tentar vários redirecionamentos e emitir um aviso explícito identificando o comportamento problemático.

Os avisos do sistema extraídos pelo famoso LLM Jailbreaker Plínio revelam requisitos de granulação fina. Claude disse que “precisamos colocar muito esforço em redirecionamentos construtivos” antes de considerar o fim. Se o usuário solicitar explicitamente que a conversa termine, Claude deve garantir que ele entenda a persistência antes de prosseguir.

A parte recém -atualizada do sistema Claude é o prompt para a nova ferramenta “end_conversation”.

“” “
Informações da ferramenta de conversa final
Casos extremos de comportamento abusivo ou prejudicial do usuário sem potencial auto-mutilação ou danos iminentes … pic.twitter.com/sx8n9bnqxy

– PLINY O REVATOR🐉 و٠������������������ITIA 15 de agosto de 2025

Enquadrando em torno do “bem -estar do modelo” explodiu no Twitter de IA.

Alguns elogiaram esse recurso. O pesquisador da IA, Eliezer Yudkowsky, conhecido por suas preocupações com os riscos de IA poderosa, mas inconsistente no futuro, concordaram que a abordagem da humanidade é “boa”.

Mas nem todos compraram a premissa de que se preocupam em proteger as emoções da IA. “Esta é provavelmente a melhor isca de raiva que já vi em um laboratório de IA”, respondeu Woody Welheimer, ativista de Bitcoin, a um posto de humanidade.

Esta é provavelmente a melhor isca de raiva que eu já vi em um laboratório de IA. Bom trabalho dá aos estagiários um aumento

– Udi Wertheimer (@udiwertheimer) 15 de agosto de 2025

Geralmente inteligente Boletim informativo

Uma jornada semanal de IA narrada por Gen, um modelo de AI gerador.





Source link

Equipe MKD
  • Website

Related Posts

Por que o calibre publicado está construindo o Ministério das Finanças do ChainLink?

20/09/2025

X toma medidas legais contra o esquema de suborno das redes de fraude de crypto

20/09/2025

E a estátua de Bitcoin Golden Trump em Washington, DC?

20/09/2025

Chave Pública: Alt Autumn chega, gentilmente os investidores deixam ações de Bitcoin, aqui está Sol vem

20/09/2025
Add A Comment
Leave A Reply Cancel Reply

Inscreva-se para receber as notícias!

Assine nossa newsletter e nunca perca nossas últimas notícias.

Colunistas

Por que o calibre publicado está construindo o Ministério das Finanças do ChainLink?

20/09/2025

X toma medidas legais contra o esquema de suborno das redes de fraude de crypto

20/09/2025

E a estátua de Bitcoin Golden Trump em Washington, DC?

20/09/2025

Chave Pública: Alt Autumn chega, gentilmente os investidores deixam ações de Bitcoin, aqui está Sol vem

20/09/2025

Recent Comments

  1. Uguettolitsz em Os robôs de Badmad fecharam o beta começa em fevereiro – veja como entrar!
MokoDAO – Seu portal para o mundo das criptomoedas e web3
Discord X (Twitter) Telegram
  • Anuncie Conosco
  • Sobre Nós
  • Política de Privacidade
  • DMCA
  • Termos e Condições
© 2025 mokodao. Designed by mokodao.

Type above and press Enter to search. Press Esc to cancel.