O Google iniciou nesta terça-feira (26) a distribuição do Gemini 2.5 Flash Image, novo modelo de geração e edição de imagens por inteligência artificial integrado ao chatbot Gemini. A ferramenta passa a estar disponível para todos os usuários do aplicativo, além de desenvolvedores que utilizam a API Gemini, o Google AI Studio e a plataforma Vertex AI.
Segundo a companhia, o modelo oferece controles mais refinados para alterar fotos a partir de comandos em linguagem natural, mantendo a consistência de rostos, animais e detalhes de fundo — ponto em que rivais como ChatGPT e Grok ainda apresentam distorções. A novidade também permite mesclar imagens (por exemplo, de uma pessoa com um cachorro) sem comprometer a semelhança dos retratados.
Desempenho e repercussão
Antes mesmo do lançamento oficial, o recurso chamou atenção na plataforma colaborativa LMArena, onde aparecia sob o codinome “nano-banana”. Usuários elogiaram a qualidade das edições, e o diretor-executivo do Google DeepMind, Demis Hassabis, chegou a publicar um teaser no X (antigo Twitter) no fim de semana.
O Google afirma que o Gemini 2.5 Flash Image alcançou resultados de ponta em diversos benchmarks, inclusive no próprio LMArena. “Estamos avançando tanto em qualidade visual quanto na capacidade do modelo seguir instruções”, afirmou Nicole Brichtova, líder de produto em geração visual no Google DeepMind, em entrevista ao TechCrunch.
Corrida entre gigantes
A disputa por ferramentas de imagem tornou-se um dos focos da inteligência artificial. Em março, o lançamento do gerador nativo do GPT-4o impulsionou o uso do ChatGPT, que hoje registra mais de 700 milhões de usuários semanais. Para acompanhar OpenAI e Google, a Meta anunciou recentemente um acordo para usar modelos da Midjourney, enquanto a alemã Black Forest Labs continua no topo de alguns testes com sua linha FLUX.
No caso do Google, a empresa divulgou em julho que o Gemini soma 450 milhões de usuários mensais. A expectativa é que a nova ferramenta ajude a reduzir a diferença frente ao principal concorrente.
Casos de uso e salvaguardas
Desenvolvido com foco no consumidor, o modelo consegue combinar várias referências em um único pedido — por exemplo, misturar a foto de um sofá, a imagem de uma sala e uma paleta de cores para visualizar a decoração. Também suporta conversas em várias etapas, permitindo ajustes sucessivos na mesma imagem.
Imagem: techcrunch.com
O Google diz ter reforçado as barreiras contra conteúdo inadequado. As diretrizes proibem a criação de imagens íntimas não consensuais, e todas as produções geradas recebem marca-d’água visível e metadados que indicam origem sintética. A iniciativa busca evitar problemas anteriores, quando a empresa precisou suspender temporariamente o gerador após críticas a representações históricas imprecisas.
Apesar de oferecer maior controle criativo, “não vale tudo”, ressaltou Brichtova. A companhia afirma ter encontrado um equilíbrio entre liberdade do usuário e proteção contra abusos.
O lançamento global do Gemini 2.5 Flash Image acontece de forma escalonada a partir de hoje nos aplicativos e serviços de nuvem do Google.
Com informações de TechCrunch