Google Gemini 1.5 Pro agora interpreta arquivos de áudio

O Google anunciou que o modelo de IA Gemini 1.5 Pro, o mais recente da empresa, recebeu suporte para processar arquivos com áudio, como vídeos e mensagens de voz. A ferramenta ganhou uma prévia pública e pode ser testada por empresas com acesso ao Vertex AI, plataforma para criar tecnologias com IA generativa.

O Gemini 1.5 Pro é oferecido em dois tamanhos, compatíveis com 128K e 1 milhão de tokens, e é capaz de processar até uma hora de vídeo ou 11 horas de áudio durante um único fluxo, de acordo com dados da Gigante de Mountain View.

A empresa reforça que a tecnologia pode ser usada para análises multimodais entre textos, imagens, vídeos e áudios entre corporações, com capacidade para transcrever, analisar e pesquisar áudios de conferências de resultados e reuniões com investidores, por exemplo. O modelo foi lançado em fevereiro deste ano , mas ainda não tinha passado por testes públicos — a expectativa é de que supere o Gemini 1.0 Ultra em performance, até então a tecnologia mais potente do Google no segmento.

-
Siga o Canaltech no Twitter e seja o primeiro a saber tudo o que acontece no mundo da tecnologia.
-

A variante 1.5 Pro também foi integrada ao Gemini Code Assist, assistente de código por IA voltado para empresas e organizações privadas. Em nota, a desenvolvedora comenta que a novidade aumenta a janela de contexto, ideal para projetos grandes, e “oferece sugestões de código ainda mais precisas, insights mais profundos e fluxos de trabalho simplificados”

Vale lembrar que a empresa divide o modelo de IA em três níveis: Nano (voltada para celulares, como os da linha Pixel ), Pro (intermediário, usado no chatbot gratuito Gemini) e Ultra (exclusivo para assinantes do Gemini Advanced ).

Novidades no Vertex AI

A Big Tech aproveitou o evento Google Cloud Next 24 para anunciar uma série de melhorias ao Vertex AI. Além do Gemini 1.5 Pro, a ferramenta se tornou compatível com outros modelos fundacionais, como o Claude 3, da Anthropic, e o CodeGemma, modelo mais leve do Google voltado para programação.

Por fim, a plataforma recebeu integração com o Imagen 2.0 , usado para geração de imagens. A nova versão do LLM é capaz de gerar GIFs animados de até quatro segundos de duração, editar conteúdos já existentes e adicionar uma nova marca d’água digital para sinalizar que algo foi gerado por IA.

Leia a matéria no Canaltech .

Trending no Canaltech:

Canaltech

Google Gemini 1.5 Pro agora interpreta arquivos de áudio

Lançado pelo Google em fevereiro deste ano, Gemini 1.5 Pro foi atualizado para processar arquivos de áudio

Novidades no Vertex AI

{{titulo}}