O Google anunciou que o modelo de IA Gemini 1.5 Pro, o mais recente da empresa, recebeu suporte para processar arquivos com áudio, como vídeos e mensagens de voz. A ferramenta ganhou uma prévia pública e pode ser testada por empresas com acesso ao Vertex AI, plataforma para criar tecnologias com IA generativa.
- Gemini | Android Studio agora tem IA para criar códigos
- Google e OpenAI treinam IAs com vídeos do YouTube, diz jornal
O Gemini 1.5 Pro é oferecido em dois tamanhos, compatíveis com 128K e 1 milhão de tokens, e é capaz de processar até uma hora de vídeo ou 11 horas de áudio durante um único fluxo, de acordo com dados da Gigante de Mountain View.
A empresa reforça que a tecnologia pode ser usada para análises multimodais entre textos, imagens, vídeos e áudios entre corporações, com capacidade para transcrever, analisar e pesquisar áudios de conferências de resultados e reuniões com investidores, por exemplo. O modelo foi lançado em fevereiro deste ano , mas ainda não tinha passado por testes públicos — a expectativa é de que supere o Gemini 1.0 Ultra em performance, até então a tecnologia mais potente do Google no segmento.
-
Siga o Canaltech no Twitter
e seja o primeiro a saber tudo o que acontece no mundo da tecnologia.
-
A variante 1.5 Pro também foi integrada ao Gemini Code Assist, assistente de código por IA voltado para empresas e organizações privadas. Em nota, a desenvolvedora comenta que a novidade aumenta a janela de contexto, ideal para projetos grandes, e “oferece sugestões de código ainda mais precisas, insights mais profundos e fluxos de trabalho simplificados”
Vale lembrar que a empresa divide o modelo de IA em três níveis: Nano (voltada para celulares, como os da linha Pixel ), Pro (intermediário, usado no chatbot gratuito Gemini) e Ultra (exclusivo para assinantes do Gemini Advanced ).
Novidades no Vertex AI
A Big Tech aproveitou o evento Google Cloud Next 24 para anunciar uma série de melhorias ao Vertex AI. Além do Gemini 1.5 Pro, a ferramenta se tornou compatível com outros modelos fundacionais, como o Claude 3, da Anthropic, e o CodeGemma, modelo mais leve do Google voltado para programação.
Por fim, a plataforma recebeu integração com o Imagen 2.0 , usado para geração de imagens. A nova versão do LLM é capaz de gerar GIFs animados de até quatro segundos de duração, editar conteúdos já existentes e adicionar uma nova marca d’água digital para sinalizar que algo foi gerado por IA.
Leia a matéria no Canaltech .
Trending no Canaltech:
- Twitter pode ser bloqueado? Veja o que dizem os especialistas
- Silvio | Primeiro trailer mostra mais de Rodrigo Faro como Silvio Santos
- Windows 11 24H2 não vai atualizar com estes apps instalados no PC
- As 10 séries mais assistidas da semana (07/04/2024)
- MaXXXine | Novo filme de Mia Goth é baseado em uma história real?
- Star Wars Outlaws chega em agosto