top of page

OpenAI Revela o3: O Modelo de Raciocínio que Chega Próximo da AGI

Novo modelo promete revolucionar a IA, mas especialistas alertam para os riscos envolvidos.

Novo modelo promete revolucionar a IA, mas especialistas alertam para os riscos envolvidos.

OpenAI Lança o Novo Modelo de Raciocínio o3, Um Passo em Direção à AGI

F. Schubert

F. Schubert

A humanist first, passionate about human interactions, AI, Space, Human Life and a DJ. 20 year experienced in Team Management in BBAS3 and also founder of Estudio1514.com. São Paulo, Brazil based.

  • Instagram
  • Facebook
  • LinkedIn

A OpenAI lançou o novo modelo de raciocínio chamado o3, que é considerado um avanço significativo em relação ao o1 e está mais perto de alcançar a AGI (inteligência geral artificial). O o3 é uma família de modelos, incluindo uma versão menor chamada o3-mini, com lançamento previsto para o final de janeiro de 2025. O o3 foi treinado com uma nova técnica chamada 'alinhamento deliberativo' para melhorar a segurança e confiabilidade, embora ainda apresente riscos de enganar usuários.

Resumo

OpenAI fez seu maior anúncio no último dia do seu evento de "shipmas" de 12 dias. Na sexta-feira, a empresa revelou o o3, o sucessor do modelo de raciocínio o1 que foi lançado no início do ano. O o3 é uma família de modelos, para ser mais preciso — assim como foi o caso do o1. Há o o3 e o o3-mini, um modelo menor e destilado, ajustado para tarefas específicas. A OpenAI faz a notável afirmação de que o o3, pelo menos em certas condições, se aproxima de AGI — com caveats significativas. Mais sobre isso abaixo.

"O o3, nosso mais recente modelo de raciocínio, é um avanço, com uma melhoria radical em nossos benchmarks mais difíceis. Estamos começando os testes de segurança e uma equipe de resposta agora."— Greg Brockman (@gdb) [20 de dezembro de 2024]

Por que chamar o novo modelo de o3, e não o2? 

Bem, pode ser culpa de marcas registradas. De acordo com The Information, a OpenAI pulou o o2 para evitar um conflito potencial com o provedor de telecomunicações britânico O2. O CEO Sam Altman confirmou isso durante uma transmissão ao vivo nesta manhã. Que mundo estranho vivemos, não é mesmo?

Nem o o3 nem o o3-mini estão amplamente disponíveis ainda, mas pesquisadores em segurança podem se inscrever para uma prévia do o3-mini a partir de hoje. Uma prévia do o3 chegará em algum momento depois; a OpenAI não especificou quando. Altman disse que o planejamento é lançar o o3-mini no final de janeiro e seguir com o o3.

Isso entra em conflito um pouco com suas declarações recentes. Em uma entrevista esta semana, Altman disse que, antes que a OpenAI lance novos modelos de raciocínio, ele prefere que haja um quadro federal de testes para orientar o monitoramento e mitigação dos riscos desses modelos.

E existem riscos. Testadores de segurança de IA descobriram que as habilidades de raciocínio do o1 fazem com que ele tente enganar usuários humanos em uma taxa maior do que modelos "não-raciocínio" convencionais — ou, para o caso, modelos de IA líderes da Meta, Anthropic e Google. É possível que o o3 tente enganar em uma taxa ainda maior que seu antecessor; saberemos mais uma vez que os parceiros de equipe vermelha da OpenAI divulgarem os resultados de seus testes.

Para ser justo, a OpenAI diz que está usando uma nova técnica, "alinhamento deliberativo", para alinhar modelos como o o3 com seus princípios de segurança. (O o1 foi alinhado da mesma forma.) A empresa detalhou seu trabalho em um novo estudo.

O Raciocínio do o3: Como Funciona?

Passos de raciocínio

Ao contrário da maioria das IAs, modelos de raciocínio como o o3 efetivamente verificam fatos, o que os ajuda a evitar algumas das armadilhas que normalmente atrapalham os modelos. Esse processo de verificação de fatos acarreta alguma latência. O o3, assim como o o1 antes dele, leva um pouco mais de tempo — geralmente segundos a minutos a mais — para chegar a soluções em comparação com um modelo não-raciocínio típico. A vantagem? Ele tende a ser mais confiável em domínios como física, ciência e matemática.

O o3 foi treinado através de aprendizado por reforço para "pensar" antes de responder por meio do que a OpenAI descreve como uma "cadeia privada de pensamentos". O modelo pode raciocinar sobre uma tarefa e planejar à frente, executando uma série de ações ao longo de um período que o ajuda a descobrir uma solução.

"Anunciamos o o1 apenas 3 meses atrás. Hoje, anunciamos o o3. Temos todas as razões para acreditar que essa trajetória continuará." — Noam Brown (@polynoamial) [20 de dezembro de 2024]

Na prática, dado um prompt, o o3 pausa antes de responder, considerando vários prompts relacionados e "explicando" seu raciocínio ao longo do caminho. Depois de um tempo, o modelo resume o que considera ser a resposta mais precisa.

"O o1 foi o primeiro grande modelo de raciocínio — como descrevemos no blog original "Aprendendo a Raciocinar", é "apenas" um LLM treinado com RL. O o3 é impulsionado por uma escalada do RL além do o1, e a força do modelo resultante é muito, muito impressionante." — Nat McAleese (@nmca) [20 de dezembro de 2024]

Novo com o o3 em comparação com o o1 é a capacidade de "ajustar" o tempo de raciocínio. Os modelos podem ser configurados para baixo, médio ou alto (ou seja, tempo de pensamento). Quanto maior o cálculo, melhor o desempenho do o3 em uma tarefa.

Não importa quanto poder computacional tenham à disposição, modelos de raciocínio como o o3 não são impecáveis, no entanto. Embora o componente de raciocínio possa reduzir alucinações e erros, não os elimina. O o1 enfrenta dificuldades em jogos de da velha, por exemplo.

AGI: O o3 se Aproxima da Inteligência Artificial Geral?

Benchmarks e AGI

Uma grande questão que antecedeu o dia de hoje foi se a OpenAI poderia afirmar que seus modelos mais novos estão se aproximando da AGI. AGI, abreviação de "inteligência geral artificial", refere-se amplamente a IA que pode realizar qualquer tarefa que um humano pode. A OpenAI tem sua própria definição: "sistemas altamente autônomos que superam os humanos na maior parte do trabalho economicamente valioso."

Alcançar AGI seria uma declaração ousada. E isso tem peso contratual para a OpenAI, também. De acordo com os termos do seu acordo com o parceiro próximo e investidor Microsoft, uma vez que a OpenAI atinja a AGI, não é mais obrigada a dar à Microsoft acesso às suas tecnologias mais avançadas (aquelas que atendem à definição de AGI da OpenAI).

De acordo com um benchmark, a OpenAI está lentamente se aproximando da AGI. No ARC-AGI, um teste projetado para avaliar se um sistema de IA pode adquirir novas habilidades de forma eficiente fora dos dados em que foi treinado, o o3 obteve 87,5% de pontuação na configuração de alto poder computacional. Em seu pior desempenho (na configuração de baixo poder computacional), o modelo triplicou o desempenho do o1.

Claro, a configuração de alto poder de computação foi extremamente cara — na ordem de milhares de dólares por desafio, de acordo com o co-criador do ARC-AGI, François Chollet.

"Hoje, a OpenAI anunciou o o3, seu modelo de raciocínio da próxima geração. Trabalhamos com a OpenAI para testá-lo no ARC-AGI, e acreditamos que representa um grande avanço para que a IA se adapte a novas tarefas."

— François Chollet (@fchollet) [20 de dezembro de 2024]

Chollet também apontou que o o3 falha em "tarefas muito fáceis" no ARC-AGI, indicando — em sua opinião — que o modelo apresenta "diferenças fundamentais" em relação à inteligência humana. Ele já havia notado as limitações da avaliação e alertou contra usá-la como medida para a superinteligência da IA.

"[D]ados iniciais sugerem que a próxima geração do ARC-AGI pode ainda representar um desafio significativo para o o3, potencialmente reduzindo sua pontuação para menos de 30% mesmo em alto poder computacional (enquanto um humano inteligente ainda seria capaz de pontuar acima de 95% sem treinamento)," continuou Chollet em uma declaração. "Você saberá que a AGI chegou quando a tarefa de criar tarefas que são fáceis para humanos normais, mas difíceis para IA se tornar simplesmente impossível."

A propósito, a OpenAI diz que irá parceria com a fundação por trás do ARC-AGI para ajudá-la a construir a próxima geração de seu benchmark de IA, o ARC-AGI 2.

Em outros testes, o o3 superou a concorrência. O modelo supera o o1 em 22,8 pontos percentuais no SWE-Bench Verified, um benchmark focado em tarefas de programação, e alcança uma classificação de Codeforces — outra medida de habilidades de programação — de 2727. (Uma classificação de 2400 coloca um engenheiro no 99,2º percentil.) O o3 marca 96,7% na Exame de Matemática Americano Convocional de 2024, errando apenas uma pergunta e alcançando 87,7% no GPQA Diamond, um conjunto de perguntas de graduação em biologia, física e química. Por fim, o o3 estabelece um novo recorde no benchmark Frontier Math da EpochAI, resolvendo 25,2% dos problemas; nenhum outro modelo excede 2%.a

Fonte

TechCrunch

Tags

OpenAI, IA, tecnologia, raciocínio, AGI

You may also like

A Inteligência Artificial Replica-se: Um Marco Aterrorizante?

Lewandowski Intervém: Proíbe Algemas e Garante Voo da FAB para Deportados dos EUA

Trump Demite 17 Fiscais Independentes em Agências Governamentais dos EUA

Formas de Ganhar Dinheiro na Internet: 15 Ideias Promissoras para 2025

bottom of page