LifeSciBench: OpenAI quer medir se a IA consegue fazer ciência de verdade

A ciência nunca foi uma prova de múltipla escolha

Por décadas, a avaliação de sistemas de Inteligência Artificial seguiu uma lógica relativamente simples. Apresentavam-se perguntas objetivas, conjuntos de dados estruturados e respostas previamente conhecidas. O objetivo era verificar se o modelo conseguia chegar ao resultado esperado.

Mas a pesquisa científica raramente funciona dessa maneira.

Um pesquisador não recebe apenas perguntas prontas.

Ele precisa interpretar resultados ambíguos, comparar evidências conflitantes, projetar experimentos, identificar falhas metodológicas, avaliar riscos regulatórios, justificar decisões e comunicar conclusões para diferentes públicos.

É justamente essa realidade que a OpenAI pretende reproduzir com o lançamento do LifeSciBench, um novo benchmark desenvolvido especificamente para medir a capacidade de sistemas de Inteligência Artificial em executar atividades autênticas de pesquisa em Ciências da Vida.

Mais do que responder questões de Biologia, a proposta é avaliar se uma IA consegue atuar como uma colaboradora científica especializada.

Construindo um retrato do trabalho científico moderno

Para elaborar o LifeSciBench, a OpenAI consultou pesquisadores que atuam diretamente em empresas de biotecnologia, farmacêuticas e programas de descoberta de medicamentos.

Ao todo, participaram da construção do benchmark:

173 cientistas contribuidores;
453 especialistas independentes responsáveis pela revisão das avaliações;
750 tarefas elaboradas por especialistas;
1.062 artefatos científicos anexados;
19.020 critérios individuais de correção.

Os números impressionam.

Enquanto benchmarks tradicionais costumam avaliar respostas curtas e altamente estruturadas, o LifeSciBench utiliza rubricas detalhadas semelhantes às empregadas na revisão por pares de artigos científicos.

Cada resposta produzida por um modelo é examinada quanto à sua precisão técnica, profundidade analítica, justificativas apresentadas, reconhecimento de limitações, tratamento de incertezas e adequação da comunicação científica.

Segundo a OpenAI, o nível de concordância entre os revisores ultrapassou 96%, indicando elevada consistência no processo de avaliação.

Sete habilidades essenciais para fazer ciência

O benchmark foi organizado em torno de sete grandes fluxos de trabalho identificados a partir de entrevistas com pesquisadores atuantes.

1. Manipulação de evidências

Avalia a capacidade da IA de localizar informações relevantes, comparar resultados provenientes de diferentes estudos, detectar inconsistências e construir sínteses coerentes.

2. Análise científica

Mede a habilidade de interpretar tabelas, gráficos, sequências biológicas, arquivos experimentais e conjuntos complexos de dados.

3. Design e otimização experimental

Verifica se o sistema consegue sugerir melhorias em protocolos laboratoriais, projetar novos experimentos ou identificar fatores que possam comprometer resultados.

4. Raciocínio científico

Talvez a categoria mais importante.

Aqui o objetivo não é apenas acertar uma resposta, mas demonstrar entendimento do problema, formular hipóteses plausíveis e justificar escolhas metodológicas.

5. Validação e operações

Envolve aspectos relacionados à reprodutibilidade, rastreabilidade de dados, procedimentos laboratoriais e qualidade operacional.

6. Tradução do conhecimento

Analisa a capacidade de transformar descobertas experimentais em aplicações práticas, considerando exigências regulatórias, segurança e potencial impacto clínico.

7. Comunicação científica

Avalia se o modelo consegue explicar resultados de forma adequada para pesquisadores, gestores, investidores ou órgãos reguladores.

Um benchmark que exige raciocínio em múltiplas etapas

Talvez o dado mais revelador divulgado pela OpenAI seja que 79% das tarefas exigem múltiplos passos de raciocínio.

Em média, cada desafio requer aproximadamente quatro decisões sucessivas antes que uma resposta seja considerada satisfatória.

Além disso, mais da metade das tarefas — cerca de 53% — depende da interpretação de materiais complementares.

Esses artefatos incluem:

Figuras científicas;
Arquivos PDF;
Tabelas experimentais;
Sequências genéticas;
Estruturas moleculares;
Arquivos químicos especializados;
Referências externas.

Em outras palavras, o modelo não pode simplesmente confiar em informações memorizadas durante o treinamento.

Ele precisa analisar documentos, integrar evidências e produzir conclusões úteis em contextos de elevada incerteza.

O LifeSciBench é também um sinal estratégico

Existe uma leitura mais ampla sobre esse lançamento.

Nos últimos meses, a OpenAI apresentou o GPT-Rosalind, um modelo especializado em pesquisa biomédica, ampliou suas integrações com ferramentas bioinformáticas e adicionou plugins capazes de executar fluxos de trabalho em genômica, transcriptômica e análise de sequenciamento.

Nesse contexto, o LifeSciBench funciona como uma infraestrutura de medição.

Não é apenas uma competição entre modelos.

É uma régua utilizada pela própria OpenAI para orientar o desenvolvimento de sistemas capazes de participar de programas reais de descoberta científica.

A empresa já afirma que o GPT-Rosalind apresenta desempenho superior ao GPT-5.5 em diversas tarefas de assistência laboratorial e análise biomédica.

Benefícios potenciais para a pesquisa científica

Se essas tecnologias continuarem evoluindo, os impactos podem ser significativos.

Pesquisadores poderão analisar milhares de artigos em poucas horas.

Pequenas equipes acadêmicas poderão acessar capacidades analíticas antes restritas a grandes laboratórios farmacêuticos.

Empresas de biotecnologia poderão testar hipóteses com maior velocidade, reduzindo custos associados a etapas preliminares de investigação.

Também existe potencial para aplicações em saúde pública, vigilância epidemiológica, medicina translacional e desenvolvimento de terapias personalizadas.

Naturalmente, isso não significa substituir cientistas humanos.

A interpretação crítica, a criatividade e a responsabilidade ética permanecem atributos essencialmente humanos.

Mas a Inteligência Artificial parece caminhar para assumir um novo papel dentro dos laboratórios.

Talvez não como uma pesquisadora autônoma.

Mas como uma colega digital capaz de acelerar análises, sugerir caminhos promissores e ampliar a produtividade científica.

O início de uma nova fase

Durante décadas perguntamos se computadores conseguiriam compreender a linguagem humana.

Hoje começamos a fazer uma pergunta diferente.

Será que sistemas de Inteligência Artificial serão capazes de participar do próprio processo de construção do conhecimento científico?

O LifeSciBench não responde definitivamente essa questão.

Mas mostra que as empresas de IA já estão tentando medi-la.

E isso pode ser lembrado no futuro como o momento em que a Inteligência Artificial deixou de apenas responder perguntas sobre ciência e passou a ser avaliada pela sua capacidade de ajudar a produzi-la.

O que isso significa para o Brasil?

O Brasil talvez não apareça imediatamente entre os protagonistas da corrida global pela Inteligência Artificial aplicada à biomedicina, mas iniciativas como o LifeSciBench podem contribuir para reduzir algumas das barreiras históricas enfrentadas pelo ecossistema nacional de pesquisa.

Nos últimos anos, universidades, institutos públicos, hospitais de excelência e startups de biotecnologia brasileiras têm ampliado sua capacidade de produzir conhecimento em áreas como genômica, medicina de precisão, bioinformática e desenvolvimento de novos tratamentos. Ainda assim, muitas equipes trabalham com restrições orçamentárias significativas e estruturas laboratoriais menores do que aquelas encontradas em grandes centros internacionais.

Nesse contexto, sistemas de Inteligência Artificial especializados em Ciências da Vida podem atuar como multiplicadores de produtividade científica.

Pesquisadores brasileiros poderiam utilizar esses modelos para:

revisar milhares de artigos científicos em poucas horas;
identificar relações entre genes, proteínas e doenças raras;
comparar protocolos experimentais adotados em diferentes laboratórios;
acelerar estudos de reposicionamento de fármacos;
apoiar a elaboração de projetos submetidos a agências de fomento;
auxiliar pequenas empresas de biotecnologia na fase inicial de descoberta de moléculas promissoras.

Há também um potencial estratégico para temas particularmente relevantes ao país, como pesquisas sobre doenças negligenciadas, arboviroses, biodiversidade amazônica, desenvolvimento de bioinsumos agrícolas e aplicações em medicina tropical.

Naturalmente, nenhuma dessas ferramentas elimina a necessidade de pesquisadores experientes, validação experimental ou revisão por pares.

Entretanto, se a Inteligência Artificial conseguir assumir tarefas repetitivas de análise documental, síntese de evidências e exploração inicial de hipóteses, cientistas poderão dedicar mais tempo ao que continua sendo essencialmente humano: formular perguntas originais, interpretar resultados inesperados e transformar descobertas em benefícios concretos para a sociedade.

Talvez o maior impacto do LifeSciBench não seja provar que máquinas conseguem fazer ciência sozinhas.

Talvez seja demonstrar que, em um futuro próximo, até mesmo pequenos grupos de pesquisa distribuídos pelo mundo poderão contar com colaboradores digitais altamente especializados, ampliando significativamente sua capacidade de produzir conhecimento de ponta.

LifeSciBench: a OpenAI quer descobrir se a Inteligência Artificial já consegue fazer ciência de verdade