Nova solução da OpenAI imita a voz de pessoas e amplia preocupação com deepfake

Empresa de Sam Altman e da Microsoft decidiu segurar a funcionalidade, já em fase de testes e que reproduz até a cadência e a entonação da voz, após receber feedback de lideranças da sociedade

The Open AI logo on a smartphone arranged in Crockett, California, US, on Friday, Dec. 29, 2023. Microsoft has invested some $13 billion in OpenAI and integrated its products into its core businesses, quickly becoming the undisputed leader of AI among big tech firms. Photographer: David Paul Morris/Bloomberg
Por Shirin Ghaffary
30 de Março, 2024 | 10:09 AM

Bloomberg — A OpenAI começou a compartilhar resultados iniciais de um teste para uma funcionalidade que pode ler palavras e textos com uma voz humana de pessoas reais de forma convincente e não distinguível, o que destaca uma nova fronteira para a Inteligência Artificial e amplia o espectro dos riscos crescentes de deepfake (a reprodução de voz ou imagem de pessoas com uso de IA para fraudes).

A empresa cofundada por Sam Altman e investida da Microsoft (MSFT) tem compartilhado demonstrações iniciais e casos de uso de uma prévia em pequena escala do modelo de texto para fala, chamado Voice Engine. A solução de tecnologia foi compartilhada com cerca de dez desenvolvedores até agora, disse um porta-voz.

PUBLICIDADE

A OpenAI decidiu não levar adiante neste momento uma implementação - rollout - mais ampla da funcionalidade, sobre a qual informou jornalistas no início de março.

Leia mais: Após Meta e Google, OpenAI aposta em modelo de IA que transforma textos em vídeos

Um porta-voz da OpenAI disse que a empresa decidiu reduzir os planos de lançamento após receber feedback de partes interessadas, como formuladores de políticas públicas, especialistas do setor, educadores e profissionais de criação.

PUBLICIDADE

A empresa inicialmente planejava lançar a ferramenta para até 100 desenvolvedores por meio de um processo de inscrição, de acordo com o briefing de imprensa enviado anteriormente.

“Reconhecemos que gerar uma fala que se assemelha às vozes das pessoas apresenta sérios riscos, que estão especialmente em destaque em um ano eleitoral”, escreveu a empresa em um post no blog na sexta-feira (29).

“Estamos envolvendo parceiros dos EUA e internacionais de governos, mídia, entretenimento, educação, sociedade civil e além para garantir que estamos incorporando seus comentários enquanto construímos [a ferramenta].”

PUBLICIDADE

Outras tecnologias de IA já foram usadas para falsificar vozes em alguns contextos. Em janeiro, uma chamada telefônica falsa, mas realista, que alegava ser do presidente Joe Biden, encorajou pessoas em New Hampshire a não votar nas primárias - um evento que alimentou medos de IA antes de eleições globais críticas não só nos Estados Unidos, maior potência do mundo, como em outros países.

Leia mais: Amy Webb: computadores com uso de células cerebrais são nova fronteira da IA

Ao contrário dos esforços anteriores da OpenAI em gerar conteúdo de áudio, o Voice Engine pode criar falas que soam como pessoas que realmente existem, de forma completa com sua cadência e entonações específicas. Tudo o que o software precisa é de 15 segundos de áudio gravado de uma pessoa falando para recriar sua voz.

PUBLICIDADE

Durante uma demonstração da ferramenta, a Bloomberg News ouviu um trecho do CEO da OpenAI, Sam Altman, explicando brevemente a tecnologia em uma voz indistinguível de seu discurso real, mas totalmente gerada por IA.

“Se você tiver o setup de áudio certo, é basicamente uma voz de qualidade humana”, disse Jeff Harris, líder de produto da OpenAI. “É uma qualidade técnica bastante impressionante.”

No entanto, Harris disse: “Há obviamente muita delicadeza de segurança em torno da capacidade de imitar com precisão a fala humana.”

Casos de uso para tratamentos de saúde

Um dos atuais parceiros desenvolvedores da OpenAI para a ferramenta, o Instituto de Neurociências Norman Prince no sistema de saúde sem fins lucrativos Lifespan, está usando a tecnologia para ajudar pacientes a recuperar suas vozes.

Por exemplo, a ferramenta foi usada para ajudar a restaurar a voz de uma jovem paciente que perdeu sua capacidade de falar de forma clara devido a um tumor cerebral, replicando seu discurso de uma gravação anterior para um projeto escolar, disse a empresa em post em seu blog.

O modelo de fala personalizado da OpenAI também pode traduzir o áudio que gera para diferentes idiomas. Isso o torna útil para empresas no ramo de áudio, como a Spotify.

O gigante mundial de streaming de música e áudio já usou a tecnologia em seu próprio programa piloto para traduzir os podcasts de hosts populares como Lex Fridman.

A OpenAI também destacou outras aplicações benéficas da tecnologia, como criar uma variedade maior de vozes para conteúdo educacional para crianças.

Leia mais: Por que Musk pode estar com a razão em seu processo contra a OpenAI e Sam Altman

No programa de testes, a OpenAI exige que seus parceiros concordem com suas políticas de uso, obtenham o consentimento do orador original antes de usar sua voz e divulguem aos ouvintes que as vozes que estão ouvindo são geradas por IA. A empresa também está instalando uma marca d’água de áudio inaudível para permitir que ela distinga se um trecho de áudio foi criado por sua ferramenta.

Antes de decidir se irá lançar a funcionalidade de forma mais ampla, a OpenAI disse que está solicitando feedback de especialistas externos. “É importante que as pessoas ao redor do mundo entendam para onde essa tecnologia está indo, quer a implantemos amplamente ou não”, disse a empresa do blog.

A OpenAI também escreveu que espera que a prévia de seu software “motive a necessidade de reforçar a resiliência da sociedade” contra os desafios trazidos por tecnologias de IA mais avançadas. Por exemplo, a empresa pediu aos bancos que eliminem gradualmente a autenticação por voz como medida de segurança para acessar contas bancárias e informações sensíveis.

Também busca promover a educação pública sobre conteúdo de IA enganoso e o desenvolvimento de técnicas para detectar se o conteúdo de áudio é real ou gerado por IA.

Veja mais em Bloomberg.com