Bloomberg Línea — O Google apresentou nesta quarta-feira (6) o Gemini, uma nova ferramenta de IA (inteligência artificial) generativa que, além de gerar textos, é capaz de criar imagens e fazer cálculos de planejamento para prever possíveis cenários, em um conceito que o Google chama de multimodalidade.
A nova ferramenta vai além dos recursos de texto do Bard, outro sistema de inteligência artificial do Google lançado este ano para competir com o ChatGPT, da OpenAI. Com o Gemini, o Google espera oferecer capacidades que vão além da geração de texto tradicional, como raciocínio multi-modal, planejamento, compreensão e eficiência.
Em uma apresentação para a imprensa, o Google disse que a inovação “transcende mudanças incrementais, introduzindo um paradigma totalmente novo, e oferece uma nova visão do futuro de infraestrutura padrão de IA”.
As ações da Alphabet (GOOGL), holding dona do Google operavam em leve queda de 0,10% às 13h26 (horário de Brasília) após a divulgação da nova ferramenta. Os papéis da Microsoft (MSFT), uma das principais investidoras da OpenAI, que desenvolve o ChatGPT, recuavam 0,66% no mesmo horário.
O Gemini será lançado em três versões: Nano, Pro e Ultra. O Gemini Pro estará disponível gratuitamente para clientes corporativos, e o Gemini Ultra, a versão mais avançada, será lançada no início de 2024. O Google disse ainda que o Gemini Pro estará disponível para clientes corporativos no Vertex II e para desenvolvedores em breve.
Executivos do Google afirmaram que a empresa trabalha com reguladores locais e outros processos para garantir que cumprimos as leis locais antes de lançar as ferramentas em diferentes áreas.
Sissie Hsiao, vice-presidente do assistente Bard, disse que sua equipe trabalha em estreita colaboração com o Google DeepMind para trazer alguns dos melhores recursos de IA generativa para o mundo. Desde abril, o Google consolidou suas divisões de pesquisa de IA em uma só: o Google DeepMind.
“Estamos muito entusiasmados em anunciar que estamos trazendo o Gemini para o Bard”, disse Hsiao.
Desde o lançamento do Bard oito meses atrás, o Google continuou atualizando a ferramenta com base no feedback dos usuários.
“As pessoas queriam uma experiência mais personalizada. Conectamos o Bard aos aplicativos Google que eles usam, como Gmail e YouTube, além do Maps. E isso permitiu que as pessoas reservassem viagens com mais facilidade, planejando seus resumos de viagem e e-mails. Então, eles já estão fazendo muitas coisas que nos dão feedback. E é claro que iteramos e refinamos com base nesse feedback”, disse Hsiao.
“Adicionamos um recurso chamado Google It, que permite que as pessoas corroborem e verifiquem com mais facilidade as respostas que o Bard está lhes dando”, disse.
Novos recursos
Segundo o Google, o Gemini irá desbloquear novas maneiras para as pessoas criarem, interagirem e colaborarem. A IA será lançada parcialmente em duas fases diferentes. A partir desta quarta-feira (6) estará disponível em mais de 170 países.
O Google disse que conseguiu progresso no raciocínio multimodal, bem como no refinamento avançado e na matemática, além de ter tornado o Gemini muito mais eficiente para treinar.
Ainda que seja necessária uma computação significativa para treinar o Gemini, os executivos disseram que a tecnologia está muito mais eficiente em termos de capacidade de treinar novos aprendizados.
“Tem bastante desempenho no que diz respeito aos recursos multilíngues”, disse Eli Collins, VP de Produto do Google DeepMind.
O Gemini é apresentado como um modelo de IA inovador projetado para clientes corporativos, oferecendo capacidades avançadas e arquitetura inovadora de supercomputadores. O Gemini Pro ficará disponível gratuitamente para clientes corporativos e desenvolvedores a partir de 13 de dezembro de 2023, e o Gemini Nano está disponível para os desenvolvedores do Android a partir desta quarta-feira (6).
O Gemini Ultra, a versão mais avançada, será lançada em 2024, apresentando capacidade multimodal para texto, imagens, áudio, vídeo e código.
A big tech disse ainda que o Gemini superou o ChatGPT 3.5. “Também fomos mais longe para sermos ainda mais capazes em coisas como compreensão e resumo, conteúdo, raciocínio, brainstorming, escrita, planejamento. Estas são, novamente, as maiores melhorias de qualidade lançadas no mercado”, disse Collins.
O Gemini Ultra foi construído para compreender e agir rapidamente em diferentes tipos de informações, como imagens de texto, áudio, vídeo e código.
O software possui capacidades de raciocínio multimodais sofisticadas e pode compreender, explicar e gerar código de alta qualidade nas linguagens de programação mais populares do mundo. Em apresentação à imprensa, o Google exibiu funcionalidades que a IA pode executar como identificar imagens e prever resultados.
Os executivos da empresa afirmaram que estão concluindo verificações de confiança e segurança antes de lançar o Gemini Ultra de forma mais ampla.
O Google disse ainda que o foco no momento é oferecer a melhor experiência de produto para pessoas com Gemini e, à medida que a experiência se desenvolve, “exploraremos como pode ser a monetização”, disse Collins. “Não temos nada específico sobre isso.”
A big tech está trazendo o Gemini Nano para o Android começando com o smartphone Pixel, mas planeja expandi-lo para outros dispositivos Android depois.
Leia também:
Por que o Q*, novo serviço de inteligência artificial da OpenAI, é alarmante?