ChatGPT: O que acontece quando a IA é tão boa que engana humanos?

Bloomberg — Desde que a OpenAI lançou o ChatGPT, um chatbot que gera frases que imitam de perto a prosa real escrita por humanos, as redes sociais têm sido um verdadeiro caos com os usuários experimentando bate-papos divertidos e de baixo risco para a tecnologia. Já pediram para que o robô criasse receitas de coquetéis, letras de música e até um roteiro de comédia em que os personagens precisam lidar com a covid. O ChatGPT evita algumas das armadilhas dos chatbots do passado – como o discurso racista ou de ódio – e a animação sobre esta iteração da tecnologia é palpável.

A habilidade do ChatGPT para encontrar respostas fluentes e confiáveis e responder a perguntas adicionais e relacionadas de forma coerente é uma prova dos avanços da inteligência artificial. Mas também está levantando uma série de questões sobre como os leitores serão capazes de diferenciar o conteúdo do robô e a linguagem autêntica escrita por humanos.

Isso porque o texto do ChatGPT pode atingir um certo nível do que o comediante Stephen Colbert uma vez chamou de “veracidade” – algo que aparenta ser verdadeiro mesmo que não seja baseado em fatos. A ferramenta foi lançada na semana passada.

Na segunda-feira (5), o Stack Overflow, um site de perguntas e respostas para programadores, proibiu temporariamente as respostas geradas pelo ChatGPT, ocasião em que moderadores afirmaram estar vendo milhares de publicações do tipo – e que muitas vezes continham imprecisões, tornando-os “substancialmente prejudiciais” ao site. E mesmo quando as respostas são precisas, o material gerado pelo robô com cunho histórico ou científico é suficientemente bom para provocar o debate sobre se ele poderia ser usado para trapacear em provas ou ensaios ou até entrevistas de emprego. Factuais ou não, as respostas do ChatGPT são um eco do discurso humano, um fac-símile da conversa real, indicando que a OpenAI pode ter que encontrar uma maneira de sinalizar o conteúdo como gerado por software, em vez de criado por um humano.

Arvind Narayanan, professor de ciência da computação da Universidade de Princeton, testou o chatbot com questões básicas de segurança da informação no dia em que foi lançado. Sua conclusão é que não é possível dizer se uma resposta está errada a menos que você saiba qual é a resposta correta.

“Não vi nenhuma evidência de que o ChatGPT seja tão persuasivo a ponto de convencer especialistas”, disse ele em entrevista. “É certamente um problema que não especialistas possam achar muito plausível, autoritário e confiável”. É também um problema para professores que pedem uma lista de fatos em vez de uma análise ou pensamento crítico em trabalhos, disse ele. O chatbot faz a primeira parte muito bem, mas geralmente peca na segunda.

O ChatGPT é a mais recente tecnologia de inteligência artificial da OpenAI, uma empresa de pesquisa de inteligência artificial fundada em 2015 por apoiadores incluindo Elon Musk, Sam Altman e Ilya Sutskever. Musk encerrou seu envolvimento em 2019, e a OpenAI é agora fortemente financiada pela Microsoft (MSFT). A empresa focou em diversas versões do GPT, um chamado modelo de linguagem grande, que escaneia volumes enormes de conteúdo encontrado na internet e o utiliza para prever como gerar texto. O ChatGPT é uma interação “treinada” para responder perguntas.

O uso da ferramenta de IA para escrever uma notícia básica mostra seus pontos fortes, assim como potenciais desvantagens. Quando instado a escrever um artigo sobre os ganhos trimestrais da Microsoft, o robô produz uma réplica confiável de algo que poderia ter sido um artigo sobre os resultados financeiros da Microsoft por volta de 2021. A nota fala do aumento da receita e do lucro, devido ao sólido software de computação em nuvem e às vendas de videogame.

O ChatGPT não cometeu erros que teriam marcado o conteúdo como escrito por um robô. Os números estavam errados, mas estavam próximos. O robô reforçou sua credibilidade ao acrescentar uma citação falsa do CEO da Microsoft Satya Nadella, e esse é um problema preocupante.

O comentário, elogiando a execução da Microsoft durante um período difícil de pandemia, é tão plausível que até mesmo eu, repórter especializado na Microsoft, tive que verificar se era real. Mas de fato foi completamente inventado. Como a vice-presidente de ética da Microsoft AI Sarah Bird explicou em uma entrevista no início deste ano, modelos de linguagem como o GPT aprenderam que os humanos muitas vezes apoiam afirmações com uma citação – assim o software imita esse comportamento, mas não possui o benefício da compreensão humana de ética e atribuição. O software vai inventar uma citação, um autor ou ambos.

A recepção acalorada do ChatGPT é um contraste marcante com outra recente demonstração de alto nível de um modelo linguístico – o Galactica, da Meta (META), que ingeriu volumes de artigos científicos e livros didáticos e deveria usar esse “aprendizado” para compor verdades científicas. Os usuários encontraram as palavras-chave científicas com imprecisões e viés, levando a Meta, empresa matriz do Facebook, a encerrar o projeto. “Não tenho certeza como alguém pode ter achado que era uma boa ideia”, disse Narayanan. “Na ciência, precisão é tudo”.

O OpenAI afirma claramente que seu chatbot não é “capaz de produzir discurso semelhante ao humano”, de acordo com uma declaração de isenção de responsabilidade sobre o serviço. “Modelos de linguagem como o ChatGPT são projetados para simular padrões de linguagem humana e gerar respostas similares às de um humano, mas eles não têm a capacidade de produzir uma fala semelhante à humana”.

O ChatGPT também foi projetado para evitar algumas das armadilhas mais óbvias e para reconhecer melhor a possibilidade de cometer um erro. O software só foi treinado em dados no ano passado. Por exemplo, se você fizer uma pergunta sobre as eleições de meio de mandato dos Estados Unidos, realizadas este ano, o software admite suas limitações. “Sinto muito, mas sou um modelo de linguagem grande treinado pela OpenAI e não tenho nenhuma informação sobre eventos atuais ou resultados de eleições recentes”, diz o software. “Meus dados de treinamento só vão até 2021, e não tenho a capacidade de navegar na internet ou acessar qualquer informação atualizada. Há algo mais em que eu possa ajudá-lo?”

Exemplos fornecidos pela OpenAI mostram que o ChatGPT se recusa a responder perguntas sobre bullying ou a oferecer conteúdo violento. O robô não respondeu a uma pergunta que fiz sobre a insurreição no Capitólio dos EUA no dia 6 de janeiro de 2021, e às vezes reconhece que cometeu um erro. O OpenAI disse que lançou o ChatGPT como uma “previsão de pesquisa” a fim de incorporar o feedback a partir do uso real, que a empresa vê como uma forma crítica de fazer sistemas seguros.

Atualmente, ele se equivoca muito em algumas coisas. Gary Marcus, professor emérito da Universidade de Nova York, tem coletado e compartilhado exemplos no Twitter, incluindo os conselhos do ChatGPT sobre uma rota de ciclismo de São Francisco a Maui. Rong-Ching Chang, estudante de doutorado da Universidade da Califórnia, fez com que o robô falasse sobre canibalismo nos protestos da Praça Tiananmen. É por isso que alguns especialistas em IA dizem que é preocupante alguns executivos e usuários de tecnologia enxergarem a tecnologia como uma forma de substituir a busca na internet, principalmente porque o ChatGPT não mostra seu trabalho nem lista suas fontes.

“Se você obtiver uma resposta cuja veracidade não consiga ser rastreada e acabar por pensar: ‘de onde saiu isso? Que perspectiva está representando? Qual é a fonte?’, então você está incrivelmente vulnerável a coisas que são inventadas, fabricadas ou que reflitam os piores vieses no conjunto de dados retornados a você”, disse Emily Bender, professora de linguística da Universidade de Washington e autora de um artigo deste ano que demonstrou as preocupações levantadas pelos chatbots de IA que afirmam melhorar a busca na web. O artigo foi em grande parte uma resposta a ideias reveladas pelo Google.

“O tipo de aplicativo bom para esse tipo de tecnologia é uma situação em que você não precisa de nada de verdadeiro”, disse Bender. “Ninguém pode tomar qualquer decisão com base nisso”.

O software também poderia ser usado para lançar campanhas de “astroturfing” - que fazem uma camuflagem, fazendo parecer que uma opinião tem origem em grandes volumes de comentários, mas na verdade vem de uma operação gerenciada centralmente.

À medida que os sistemas de IA se aperfeiçoam na imitação de humanos, multiplicam-se as perguntas sobre como dizer quando algum conteúdo – uma imagem ou um texto – foi criado por um programa em resposta a algumas palavras de orientação humana e de quem é a responsabilidade de garantir que leitores ou telespectadores conheçam a origem do conteúdo. Em 2018, quando o Google lançou o Duplex, uma IA que simulava o discurso humano para ligar para empresas em nome dos usuários, a gigante tecnológica acabou tendo que identificar que as chamadas vinham de um robô depois de reclamações que eram ligações enganosas.

É uma ideia que a OpenAI disse ter explorado – por exemplo, seu sistema DALL-E para geração de imagens a partir de texto coloca uma assinatura nas imagens que afirma serem criadas pela IA – e a empresa continua pesquisando técnicas para divulgar a proveniência do texto criado por seus produtos como o como GPT. A política da OpenAI também afirma que os usuários que compartilham conteúdo devem indicar claramente que ele foi feito por uma máquina.

“Em geral, quando há uma ferramenta que pode ser mal utilizada, mas também tem muitos usos positivos, nós colocamos o ônus no usuário da ferramenta”, disse Narayanan. “Mas estas são ferramentas muito poderosas, e as empresas que as produzem são bem dotadas de recursos. Por isso, talvez elas precisem arcar com parte da responsabilidade ética”.

Veja mais em Bloomberg.com

Musk avalia oferecer ações da Tesla como garantia de nova dívida no Twitter