Cientistas criam maior banco de dados em português para IA

Gigaverbo é o novo projeto que promete revolucionar o acesso à tecnologia de inteligência artificial em língua portuguesa.

F. Schubert

A humanist first, passionate about human interactions, AI, Space, Human Life and a DJ. 20 year experienced in Team Management in BBAS3 and also founder of Estudio1514.com. São Paulo, Brazil based.

O Gigaverbo é um banco de dados com 145 milhões de documentos em português, totalizando 780 GB e 200 bilhões de tokens
Desenvolvido na Universidade de Bonn por uma equipe internacional liderada por Nicholas Kluge
O projeto utiliza o supercomputador Marvin para treinar seis modelos de linguagem chamados Tucano
Todo o código e dados são open source, permitindo reprodutibilidade e democratização do acesso
O modelo incorpora elementos culturais brasileiros e portugueses, incluindo gírias e contextos regionais
O projeto visa otimizar o tempo de treinamento e reduzir a pegada de carbono associada ao desenvolvimento de IA

Summary

Com informações da DW

A Inteligência Artificial está cada vez mais presente em nosso cotidiano, controlando desde assistentes pessoais até sistemas mais complexos que influenciam nossas decisões. Diante dessa realidade crescente, um grupo de pesquisadores da Universidade de Bonn, na Alemanha, lançou um ambicioso projeto: um banco de dados desenvolvido 100% em língua portuguesa, visando treinar novos modelos de linguagem de inteligência artificial. Esse projeto, que apela a uma maior inclusão do português em tecnologias digitais, foi batizado de Gigaverbo.

O Gigaverbo se destaca como um vasto conjunto de dados (dataset) que abriga 145 milhões de documentos em português, totalizando 780 GB. Isso resulta em 200 bilhões de tokens, elementos que a IA processa para aprender e gerar texto. Essa quantidade imensa de dados serve como uma base sólida para o desenvolvimento de inteligência artificial que compreenda nuances linguísticas e culturais do Brasil e de outros países de língua portuguesa.

Para validar essa nova tecnologia, se utilizou o supercomputador Marvin, presente na Universidade de Bonn, no treinamento de seis modelos de linguagem de inteligência artificial (LLMs) chamados Tucano. Cada modelo promete avanços significativos na forma como as máquinas interagem com a língua portuguesa, criando possibilidades inovadoras de comunicação e processamento de dados.

O projeto contou com a participação de pesquisadores renomados, incluindo o brasileiro Nicholas Kluge, Aniket Sen, Shiza Fatimah e Sophia Falk. Após oito meses de pesquisa intensa, os resultados foram publicados na plataforma ArXiv.org, um repositório respeitável para artigos científicos nas áreas de matemática, física e ciência da computação.

Filtrar informações relevantes para enriquecer o banco de dados foi um dos maiores desafios enfrentados pela equipe. "Passamos muito tempo coletando textos em português e filtrando o que fazia sentido. Contamos com a inteligência artificial para nos ajudar nessa etapa. Nesse sentido, usamos a IA para fazer IA", explica Kluge. Essa meta de refinar informações demonstra a complexidade que envolve a construção de modelos de linguagem eficazes.

O objetivo de otimizar o tempo de treinamento foi alcançado após meses de trabalho dedicado. O processo de treinamento de um modelo de linguagem pode levar mais de um ano, dependendo da complexidade dos dados e do código utilizado. "Passamos uns bons dois, três meses refinando o código, para que pudéssemos fazer um treinamento eficiente, que não demorasse muito", relata Kluge. Este esforço se traduz em um tempo significativamente menor e em um aumento na eficiência dos modelos de linguagem.

Um aspecto fundamental do Gigaverbo é seu compromisso em preencher uma lacuna importante: a escassez de dados em língua portuguesa disponíveis para o público de forma aberta. O acesso ao Gigaverbo promete democratizar a tecnologia de inteligência artificial, tornando possível o desenvolvimento de novas aplicações e serviços em português. "Nosso estudo ajuda a democratizar o acesso a esse tipo de tecnologia, porque nem todo mundo fala inglês e esse tipo de tecnologia é muito útil", avalia Kluge (DW, 2024).

Além dos desafios linguísticos, o projeto também favorece a inclusão de elementos culturais, permitindo que os modelos compreendam gírias e contextos relevantes dentro da cultura brasileira. "O modelo é brasileiro, ele foi treinado em português, ele fala português, ele entende gírias, tem muitas informações dentro dele sobre língua portuguesa, sobre cultura portuguesa, cultura brasileira. É um artefato para guardar também a nossa cultura", conta Kluge.

O estudo Tucano: Advancing Neural Text Generation for Portuguese enfatiza que a grande inovação deste projeto está na sua total abertura e acessibilidade, promovendo o verdadeiro conceito de open source (código aberto, em português). Esse conceito defende que o código-fonte de um software deve estar disponível ao público, permitindo a criação de novos produtos e tecnologias a partir dele.

Em um cenário onde o mercado de IA movimenta quantias bilionárias, grande parte desse desenvolvimento ocorre de maneira fechada, e mesmo plataformas e serviços frequentemente emergem como gratuitos, o conhecimento a respeito de sua construção é mantido em segredo. Kluge ressalta: "Hoje sabemos que o ChatGPT ou a inteligência artificial da Meta são muito bons, mas não sabemos como eles foram treinados e quais foram os dados que alimentaram eles. Não sabemos como é o banco de dados da maior parte desses modelos." Isso leva à formação de monopólios tecnológicos que limitam o conhecimento e a inovação.

Quando se fala de inteligência artificial aberta, a ideia, segundo Kluge, é criar um modelo que não apenas qualquer um possa usar, mas que também possa ser reproduzido. "Para que a ciência possa avançar, precisamos de open source, precisamos de pesquisa que pode ser reproduzida. Na nossa pesquisa, treinamos os primeiros grandes modelos de linguagem em língua portuguesa e eles são totalmente reproduzíveis: o banco de dados é aberto, os modelos são abertos, as avaliações são abertas. Isso sim é inteligência artificial aberta", destaca Kluge.

Veja também

The Environmental Impact of AI: Unveiling the Water Footprint

Entretanto, treinar um modelo de linguagem exige o processamento de uma quantidade imensa de dados e computação, resultando em um consumo energético elevado e em significativa liberação de CO2 na atmosfera. Kluge chama a atenção para a importância de tornar os resultados das pesquisas acessíveis, afirmando: "Quando a pesquisa não é aberta e todo mundo tem que fazer de novo e de novo, esse gasto de energia é multiplicado." Além disso, ele alerta que quando uma empresa desenvolve um modelo que gera toneladas de CO2 na atmosfera e o mantém fechado, perpetua essa pegada de carbono por outras empresas e pesquisas, configurando uma política extremamente insustentável.

Cientistas criam maior banco de dados em português para IA

Gigaverbo é o novo projeto que promete revolucionar o acesso à tecnologia de inteligência artificial em língua portuguesa.

A humanist first, passionate about human interactions, AI, Space, Human Life and a DJ. 20 year experienced in Team Management in BBAS3 and also founder of Estudio1514.com. São Paulo, Brazil based.

Summary

Fonte

DW

Tags

Inteligência Artificial, Linguagem, Pesquisa, Tecnologia, Cultura, Open Source

You may also like

Sign up for our Newsletter