IA Gemini do Google terá suporte a texto e imagem, revela vazamento

O Gemini parece ser a grande aposta de IA do Google para concorrer com o modelo GPT-4, da OpenAI, mas relativamente pouco se sabia a seu respeito até agora. Ainda em desenvolvimento, a tecnologia teve uma série de detalhes vazados numa plataforma da própria empresa e indica suporte para combinação de entradas de imagem e texto. Os dados foram publicados pelo blogueiro Bedros Pamboukian em sua conta no site Medium.

O vazador encontrou informações sobre o Gemini no código do MakerSuite, um conjunto de ferramentas Google voltado para criar grandes modelos de linguagem (LLM) de IA generativa diretamente pelo navegador. Atualmente, a empresa usa o modelo PaLM 2 no Bard, por exemplo, mas o Gemini é uma opção mais avançada e multimodal — ou seja, capaz de combinar textos, fotos e outros arquivos.

IA multimodal

As capturas de tela publicadas mostram o MakerSuite compatível a prompts que misturam texto e imagens, algo que não era possível com o PaLM 2. Além disso, Pamboukian publicou um print das configurações com uma opção para usar o modelo “Multimodal IT M” — uma análise do código confirma que se trata do Gemini.

-
Baixe nosso aplicativo para iOS e Android e acompanhe em seu smartphone as principais notícias de tecnologia em tempo real.
-

Outra imagem vazada no Reddit (abaixo) já permite visualizar os modelos “Gemini Multimodal M” e “Gemini Multimodal IT M” na interface da plataforma. Os rumores apontam para a possibilidade de traduzir prompts de outros idiomas e até gerar conteúdo em HTML com ajuda de inteligência artificial.

Google também desenvolve IA para criar apps

O mesmo blogueiro encontrou indícios de uma nova ferramenta no MakerSuite, com o nome de Stubbs. Essa plataforma teria o objetivo de criar protótipos de aplicativos rapidamente a partir de comandos simples de texto e pode aproveitar a tecnologia do Gemini para combinar imagens aos demais elementos da aplicação.

O que é o Gemini?

O Gemini é um novo modelo de IA generativa desenvolvido pelo Google, com potencial para superar as demais tecnologias do gênero que a companhia desenvolve no momento, como o LLM PaLM 2 e o chatbot Bard. O objetivo da Gigante de Mountain View é criar um concorrente com o mesmo potencial do GPT-4, feito pela OpenAI e considerado o modelo mais potente no mercado.

Como já mencionado, a nova inteligência artificial seria multimodal e poderia criar textos, imagens e até códigos de programação, combinados com as informações dos outros produtos da empresa. Assim como o GPT-4, o serviço deve ser limitado a planos pagos ou profissionais, e o Google já testa a ferramenta com algumas companhias parceiras .

Os primeiros rumores sobre a poderosa ferramenta começaram a surgir em julho deste ano, com a informação de que o cofundador Sergey Brin teria retornado à empresa para trabalhar no projeto . Além disso, é provável que o serviço use uma técnica do software AlphaGo , desenvolvido pela divisão DeepMind da empresa, para reforçar o aprendizado de máquina e entregar resultados ainda mais potentes.

Leia a matéria no Canaltech .

Trending no Canaltech:

Link deste artigo: https://tecnologia.ig.com.br/parceiros/canaltech/2023-10-27/ia-gemini-do-google-tera-suporte-a-texto-e-imagem--revela-vazamento.html

Canaltech

Tecnologia

IA Gemini do Google terá suporte a texto e imagem, revela vazamento

Informações sobre o Gemini, possível concorrente do Google contra o GPT-4, foram encontradas no código de plataforma da própria empres

IA multimodal

Google também desenvolve IA para criar apps

O que é o Gemini?

Mais Recentes

Comentários

Mais Lidas