Imagen: como funciona a inteligência artificial do Google que transforma texto em imagem

No mundo da inteligência artificial, existem os chamados geradores texto-imagem. É um nome bem autoexplicativo: baseado na frase que o usuário digita, o sistema devolve uma imagem correspondente ao que foi escrito.

Até então, o líder no campo desse tipo de programa era o DALL-E, software criado pelo laboratório OpenAi. Agora, o Google resolveu entrar na jogada com o Imagen, anunciado na última terça (24).

O Imagen funciona da mesma forma que os outros geradores: com base em um texto, ele gera uma imagem. Na página dedicada ao programa, ele é descrito como tendo um “grau de fotorrealismo sem precedentes e uma profunda compreensão de linguagem”. De fato, basta observar as imagens divulgadas pela empresa para entender o potencial da nova ferramenta:

Alguns exemplos de imagens geradas pelo Imagen: a legenda embaixo é a tradução do texto em inglês que originou a imagem.

As imagens são geradas a partir de frases de variados graus de complexidade.

Segundo o Google, o Imagen produz imagens melhores do que o DALL-E. Para chegar a essa conclusão, a empresa criou uma métrica de comparação, chamada de DrawBench. Não é nada muito complexo: eles usaram o mesmo texto para criar imagens em diversos geradores. As produções foram submetidas a juízes humanos, que escolheram suas preferidas. E os resultados do Imagen foram escolhidos mais vezes do que os dos concorrentes.

Os resultados da nova ferramenta impressionam. Mas ela ainda vai demorar para ficar disponível ao público. Entenda por quê.
Imagen: como funciona a inteligência artificial do Google que transforma texto em imagem

publicado em superinteressante