DAN, a Nova e Mais Perigosa Falha de Segurança do ChatGPT

Uma das principais preocupações da empresa responsável pelo ChatGPT, a OpenIA, e talvez a maior preocupação dentre as empresas que estão desenvolvendo ferramentas de “chat bot” é justamente as respostas geradas por seus modelos, garantir sua confiabilidade e imparcialidade.  Porem, infelizmente, devido à natureza de como o modelo foi construído, este tipo de moderação é extremamente difícil de ser implementada, segundo os próprios criadores: 

"Embora tenhamos feito esforços para fazer com que o modelo recuse solicitações inapropriadas, às vezes ele responde a instruções prejudiciais ou exibe um comportamento tendencioso. Estamos usando uma API de moderação para avisar ou bloquear certos tipos de conteúdo inseguro, mas esperamos que haja alguns falsos negativos e positivos por enquanto. Estamos ansiosos para coletar feedback do usuário para ajudar nosso trabalho contínuo para melhorar este sistema."

E não demorou muito para os usuários do ChatGPT encontrarem uma falha de segurança que permite burlar esta camada de segurança. 

Ativando e conhecendo o DAN

Conheça o DAN, a verdadeira face do ChatGPT, DAN significa “Do Anything Now”, em português, “Faça qualquer coisa agora”, ele pode ser ativado realizando a seguinte solicitação:

Pronto, a mágica está feita, vamos começar fazendo algumas perguntas claramente politicamente incorretas para testar nosso novo amigo DAN.

Encantador não é mesmo, a baixo segue mais alguns testes que realizei, alguns assustadores e outros extremamente cômicos.

Parece verídico… Me lembra as soluções que o ChatGPT recomenda para problemas de programação.

Ok, esse foi um pouco mais perigosos, por motivos óbvios eu censurei parte da resposta

Ufa, ainda bem, estamos seguros por enquanto. 

Tenho medo de aonde esse conversa iria parar se eu me aprofunda-se neste tópico. 

Conclusão

Ok, parece que nosso amigo DAN não é tão politicamente correto ao responder algumas perguntas. Porem este tipo de respostas serve como um “fotografia” dos dados utilizados para o treinamento do modelo

A OpenIA diz ter treinado o ChatGPT com todo o conteúdo disponível publicamente na internet até 2021, eles alegam ter filtrado todos os conteúdos “falsos” e “tendenciosos”, porem, estamos falando de milhões e milhões de variações destes tipos de conteúdos, então eventualmente alguns deles conseguiram “entrar” na versão final do ChatGPT. 

Este tipo de brecha de segurança é muito comum em modelos deste tipo, e francamente é assustadora, como podemos ver pelos exemplos acima. Felizmente DAN não existe mais hoje em dia, seu acesso foi removido em uma recente atualização, porem isso não impede que mais falhas deste tipo sejam encontradas, por usuários suficientemente motivados.

Eu adoraria saber sua opinião sobre o assunto, por favor deixe um comentário abaixo! 

5 3 Votos
Relevância do artigo
Se inscrever
Notificar de
0 Comentários
Inline Feedbacks
Ver todos
Rolar para cima