Bloomberg — No minúsculo reino do Butão, dezenas de especialistas em dados aperfeiçoam modelos de IA em escritórios emoldurados pelos majestosos picos do Himalaia.
Os funcionários da iMerit não estão lá para treinar a IA em tarefas rudimentares, como reconhecer “gato marrom no parapeito de uma janela” em uma imagem. Em vez disso, eles ensinam aos algoritmos a anatomia do olho humano ou como detectar alterações em mapas geoespaciais.
Com o apoio de três bilionários do Vale do Silício, a iMerit faz parte de um grupo crescente de empresas que estão criando uma versão mais sofisticada, monetizável e confiável da IA, um setor que está a caminho de acrescentar quase US$ 20 trilhões à economia global até 2030.
Leia mais: Parceria com Starlink e Bradesco: como a Deere quer vender mais máquinas no país
À medida que os modelos se tornam mais inteligentes, as grandes empresas procuram cada vez mais aproveitar seu poder para tarefas altamente especializadas, gerando dezenas de startups de serviços de dados dedicadas a personalizar aplicativos em setores como finanças, saúde e defesa.
Há muita coisa em jogo. Mesmo que o fervor da IA tenha se espalhado pelo Vale do Silício, persistem questões incômodas sobre se a tecnologia será realmente útil o suficiente para que as empresas de todo o mundo paguem por ela e garantam que os desenvolvedores de modelos de IA possam ter lucro.
É claro que a Nvidia (NVDA) se tornou a empresa mais valiosa do mundo ao vender chips de IA. Mas os maiores clientes da empresa, incluindo a Microsoft (MSFT) e a Alphabet (GOOG), ainda perdem dinheiro com o imenso custo de construir sistemas de IA mais avançados.
Radha Basu, fundador e CEO da iMerit, traçou um paralelo com os programadores de software que construíram a Internet, os telefones celulares e outras plataformas tecnológicas modernas. “Somos os equivalentes aos programadores da revolução da IA”, disse a empresária, que se prepara para levantar sua próxima rodada de financiamento.
Levar a IA à proficiência avançada em setores não relacionados, sensíveis e, às vezes, perigosos não será fácil. O empreendimento exige um banco profundo de especialistas humanos dispostos a acrescentar aos seus trabalhos diários o treinamento e o aprimoramento de modelos em campos técnicos.
No Quênia, uma startup está desenvolvendo tecnologia para escanear a mata em busca de sinais de caçadores ilegais. No Cazaquistão, especialistas médicos estão ensinando modelos para identificar os estágios iniciais do câncer de pulmão. Na Índia, Coreia, Vietnã e em outros lugares, linguistas que ganham US$ 65 por hora estão ajudando modelos a se tornarem proficientes em outros idiomas além do inglês.
Na iMerit, que emprega 5.000 pessoas no Butão, na Índia e em Nova Orleans, Yeshi Wangmo, 23 anos, que vem de uma família de agricultores, passou anos dominando uma única tarefa: identificar corretamente ervas daninhas e detritos em imagens de vastos campos de milho e algodão.
Wangmo e seus colegas, vestidos com roupas coloridas de gho e kira do Butão, ajudam empresas como a Blue River Technology, uma subsidiária da Deere (DE) a criar algoritmos que aumentam a precisão da pulverização de pesticidas e fertilizantes, reduzindo o uso em até 90%.
“Estamos vendo as empresas lidarem com problemas mais avançados, mas também cada vez mais de nicho”, disse Ivan Lee, fundador e CEO da empresa de soluções de rotulagem de dados Datasaur, cujos clientes incluem a Netflix (NFLX) e o FBI. “Os clientes podem precisar de dentistas que cresceram na Tanzânia ou de arquitetos da França”, disse Lee, cujas equipes trabalham principalmente na Indonésia.
Controle de qualidade
A precisão dos dados é a base de seu trabalho. Quando o ChatGPT foi lançado, há dois anos, os críticos não demoraram a identificar as falhas e os lapsos da plataforma. Desde então, dezenas de especialistas humanos foram contratados para o controle de qualidade.
O trabalho é meticuloso. Rotuladores de dados como Wangmo se debruçam sobre digitalizações, fotos, vídeos e textos para preparar modelos de IA. O objetivo é aprimorar os sistemas de IA generativa que são treinados em vastos conjuntos de dados para analisar ou criar novos conteúdos. Aperfeiçoá-los elimina a discrepância entre os recursos potenciais da IA e seu desempenho real no mundo real.
Esta especialização é cada vez mais importante em setores de alto risco, como os que lidam com inteligência militar, de acordo com Kathleen Walch, diretora e gerente geral da empresa de pesquisa PMI Cognilytica.
As versões de nível inferior desse trabalho não são novas. O setor de serviços de dados começou há cerca de duas décadas. Naquela época, os rotuladores que viviam em lugares como as Filipinas e a Índia rotulavam principalmente pequenos conjuntos de dados que serviam de base, por exemplo, para o reconhecimento de voz para assistentes de voz ou mecanismos de pesquisa em sites de compras.
Os críticos temem que a IA tenha criado uma classe inferior explorável, apontando para salários que giram em torno de poucos dólares por dia em alguns setores.
Mas, ao longo dos anos, com o aprimoramento da IA, grande parte das tarefas mais simples passou a ser automatizada. A demanda mudou para o recrutamento de especialistas e o pagamento de salários mais altos, embora ainda sejam consideravelmente mais baixos do que os pacotes de remuneração para cientistas de dados no Vale do Silício.
Na Índia, um radiologista que treina modelos de IA pode receber um salário de 100.000 rúpias (US$ 1.200) por algumas horas de trabalho, disse Hardik Dave, fundador e executivo-chefe da Indika AI, uma empresa popular de rotulagem de dados. O contratado médio ganha cerca de um terço desse valor por mês, disse ele.
Atualmente, as startups que vendem serviços de rotulagem atraem investidores de peso. Neste verão, a maior empresa, a Scale AI, levantou dinheiro da Meta (META) e da Amazon (AMZN), que também investiram na empresa. Com uma avaliação de quase US$ 14 bilhões, a empresa ultrapassou os números de importantes criadores de modelos de IA, como Mistral e Cohere.
Em 2023, a lista da Sequoia das 50 maiores empresas de IA apresentava quatro startups de rotulagem, em comparação com apenas uma no ano anterior. Uma empresa, a Labelbox, é apoiada pela Andreessen Horowitz e pela Kleiner Perkins. Outra, a Snorkel AI, é financiada pelo braço de risco da Alphabet com uma avaliação de US$ 1 bilhão.
De forma mais ampla, o mercado de rotuladores de dados, avaliado em quase US$ 20 bilhões em 2024, deverá crescer cerca de 20% ao ano até 2030, de acordo com a Grand View Research, uma empresa de pesquisa de mercado com sede em São Francisco.
As consequências de um passo em falso também são mais pesadas. Um quadro mal rotulado pode custar milhões de dólares a uma empresa, gerando processos judiciais ou até mesmo causando a morte. As ferramentas de IA de escaneamento de câncer ou os carros autônomos são duas áreas sensíveis.
“A IA menos precisa pode sair dos trilhos”, disse Wendy Gonzalez, CEO da Sama, sediada em Los Gatos, cujos clientes incluem a Ford (F) e o Walmart (WMT). “As empresas não podem se dar a esse luxo.”
Considere a parceria entre o Massachusetts General Hospital e a Centaur Labs, uma startup de rotulagem de dados com 50.000 freelancers baseados em países como Estados Unidos, Cazaquistão e Vietnã.
Nos últimos anos, a Centaur Labs, sediada em Boston, aprimorou os produtos usados no hospital, trazendo gradualmente especialistas em dados mais qualificados. Alguns estão relacionados a doenças cotidianas. A startup está trabalhando em um algoritmo de detecção de ronco e em um aplicativo para apneia do sono.
Setores sensíveis
Outros se desviam para tópicos mais pesados, como o desenvolvimento de IA que pode identificar com mais precisão nódulos pulmonares em exames de tomografia computadorizada. No mês passado, a startup anunciou uma injeção de capital da Accel, Y Combinator e outros.
Polina Pilius, radiologista do Cazaquistão que supervisiona as equipes de uma empresa contratada pela Centaur Labs, disse que o trabalho está cada vez mais restrito. Hoje, segundo ela, não é suficiente apenas detectar nódulos pulmonares. Os clientes querem cada vez mais recursos especializados que reduzam o número de falsos positivos e acompanhem o crescimento dos nódulos ao longo do tempo. Reduzir o risco sem cortar custos é o ponto ideal.
"A anotação de dados médicos é um processo complexo que não tolera pressa, incompetência, desatenção ou corte excessivo de custos", disse Pilius.
Apesar de tudo o que pode dar errado, os defensores da IA argumentam que treinar modelos para lidar com questões complexas em setores de risco é preferível a não fazer nada. Em muitos casos, só há vantagens, dizem eles.
A Labelbox, uma startup sediada em São Francisco, trabalha com um cliente que vende análises de câmeras de painel para empresas que supervisionam centenas de milhares de caminhões. No último ano, os especialistas em dados da Labelbox treinaram bots de IA para se tornarem ainda mais especializados em monitorar se um motorista está sonolento ou embriagado. Uma vez detectado, os operadores de frota são alertados e o motorista é contatado.
Manu Sharma, CEO da Labelbox, disse que esse é apenas um exemplo em que os modelos estão fazendo mais do que simplesmente cortar custos ou melhorar a eficiência. A melhor tecnologia salva vidas, disse ele, e os rotuladores de dados estão na linha de frente do avanço dos recursos de IA.
Eles estão "criando um mundo no qual seus conhecimentos são mais acessíveis e podem ser aplicados para beneficiar a sociedade", disse ele.
Veja mais em Bloomberg.com
Leia também:
Rodadas da semana: startup para o clima levanta R$ 350 milhões em Série A
De Musk a Milei, o culto à inovação chegou ao setor público. Mas há armadilhas
Sem disrupção e atenta às megatendências: os planos globais da WEG, segundo o CEO