Stable Cascade | Stability lança nova IA para criar imagem
Bruno De Blasi
Stable Cascade | Stability lança nova IA para criar imagem

A Stability AI, desenvolvedora do popular Stable Diffusion, apresentou um novo modelo de inteligência artificial generativa para criar imagens a partir de textos: o Stable Cascade. Ainda limitado ao uso não comercial, a tecnologia conta com a arquitetura Würstchen e chama a atenção pela sua eficiência para reduzir os gastos ao gerar ou editar imagens com IA.

Stable Cascade é mais rápido

A Stability AI demonstrou o potencial da solução do Stable Cascade ao compará-la com outros modelos, incluindo o Stable Diffusion XL (SDXL). O grande destaque se encontra na velocidade de inferência — o tempo que o algoritmo leva para processar as informações, ou seja, quanto menor, melhor.

O Stable Cascade precisou de, ao todo, 10 segundos para concluir o processamento. Já o SDXL e o Playground v2 levaram 22,8 segundos para oferecer os resultados da mesma solicitação.

-
Siga no Instagram : acompanhe nossos bastidores, converse com nossa equipe, tire suas dúvidas e saiba em primeira mão as novidades que estão por vir no Canaltech.
-

O novo algoritmo só perdeu para o SDXL Turbo, que tem foco na velocidade e somente uma etapa no processo: 0,3 segundo. Por outro lado, o lançamento é superior à versão mais ágil do Stable Diffusion quando o assunto é estética, que avalia a qualidade da imagem gerada ou editada.

Além disso, o Stable Cascade lidera no quesito alinhamento do prompt — ou seja, ele é mais fiel às solicitações dos usuários. Especialmente em relação ao Würstchen v2, que teve o pior resultado no comparativo entre os modelos.

Abordagem de três estágios

O grande destaque da nova solução da Stability se concentra na abordagem de três estágios. Esse processo é dividido em dois grupos, sendo um para interpretar e transformar o comando dado pelo usuário (prompt, em inglês) e outro para comprimir as imagens.

Seguindo essa abordagem, o algoritmo começa pelo estágio C, que analisa o prompt. Essa etapa, que compreende o primeiro grupo, usa exclusivamente modelos estatísticos de difusão latente para processar os dados.

O processo dá sequência no segundo grupo, que concentra duas etapas do processo na seguinte ordem: estágio B, também com modelo de difusão latente, e o estágio C, com VAE para fazer a codificação e a compressão dos dados com rede neural.

Após esse processo, em que existem nuances mais aprofundadas e variações para atender às necessidades dos desenvolvedores, a imagem é entregue a quem realizou a solicitação.

Apenas para uso não comercial

O Stable Cascade garante recursos essenciais, como a possibilidade de oferecer variação das mídias geradas, criar imagens a partir de outras imagens e duplicar a resolução dos arquivos ( upscaling ). Mas todos esses recursos têm um limite de uso, pois o algoritmo está disponível apenas para uso não comercial.

Além disso, o modelo está em fase prévia para pesquisas e tende a ser aprimorado com o tempo. Enquanto isso, os desenvolvedores podem explorar o Stable Cascade no repositório oficial do GitHub ( github.com/Stability-AI/StableCascade ).

Leia a matéria no Canaltech .

Trending no Canaltech:

    Mais Recentes

      Comentários

      Clique aqui e deixe seu comentário!