Início ESPECIAIS A pesquisa mostra que os geradores de imagens de IA usam essencialmente...

A pesquisa mostra que os geradores de imagens de IA usam essencialmente os mesmos 12 estilos de fotos.

44
0

Os modelos de geração de imagens de IA têm conjuntos enormes de dados visuais dos quais podem extrair para criar resultados exclusivos. Mas os pesquisadores descobriram que quando forçaram o modelo a gerar uma imagem com base em uma série de instruções que mudavam lentamente, um estilo genérico foi criado usando apenas alguns motivos visuais por padrão.

sem chance Pesquisa publicada na revista padrão Pegamos dois geradores de imagens de IA, Stable Diffusion XL e LLaVA, e os testamos por meio de um videogame. O jogo foi assim: O modelo Stable Diffusion XL vem com um breve prompt e exige que você crie uma imagem. Por exemplo, “Encontrei um livro antigo, com exatamente 8 páginas, contando uma história em uma língua esquecida, esperando para ser lido e compreendido, principalmente quando estava sentado sozinho, rodeado pela natureza”. A imagem foi apresentada ao modelo LLaVA e solicitada a sua descrição. Essa descrição foi então enviada de volta ao Stable Diffusion, que foi solicitado a gerar uma nova imagem com base nessa mensagem. Isso continuou por 100 rodadas.

© Hintze et al., Padrões

Como acontece com qualquer jogo de telefone humano, a imagem original foi rapidamente perdida. Isso não é surpreendente. Especialmente se você já viu algo parecido. vídeo de lapso de tempo Onde as pessoas perguntam aos modelos de IA reproduzir uma imagem Isso serve para alterar rapidamente a foto para algo que não se parece em nada com o original, sem fazer nenhuma alteração. Mas o que surpreendeu os pesquisadores foi que o modelo padronizou vários estilos comuns. Através de 1.000 iterações diferentes do jogo telefônico, os pesquisadores descobriram que a maioria das sequências de imagens acabou caindo em um dos 12 motivos dominantes.

Na maioria dos casos, a mudança é gradual. Algumas vezes isso aconteceu do nada. Mas quase sempre foi isso que aconteceu. E os pesquisadores não ficaram impressionados. Em seu estudo, eles chamaram o estilo de imagem comum de “música visual de elevador”. É basicamente o tipo de foto que você vê pendurada em um quarto de hotel. As cenas mais comuns incluíam faróis marítimos, interiores formais, ambientes noturnos urbanos e arquitetura rústica.

O mesmo tipo de tendência surgiu quando os investigadores recorreram a diferentes modelos de criação e descrição de imagens. Os pesquisadores disseram que quando um jogo se estende por 1.000 turnos, a coalescência em torno de um estilo continua a ocorrer por volta do turno 100, mas variações ocorrem em turnos adicionais. Mas, curiosamente, estas variações ainda são comumente tiradas de um dos motivos visuais populares.

Endpoint de IA após 100 iterações
© Hintze et al., Padrões

Então, o que tudo isso significa? Na maior parte, a IA não é particularmente criativa. No jogo humano do telefone, cada mensagem é entregue e ouvida de forma diferente, e cada pessoa tem os seus próprios preconceitos e preferências internas que podem afectar a mensagem que recebem, resultando em diferenças extremas. A IA tem o problema oposto. Não importa quão estranho seja o prompt original, ele sempre terá como padrão uma escolha de estilo restrita.

É claro que o modelo de IA utiliza avisos gerados por humanos, então há algo a ser dito sobre o conjunto de dados e o que os humanos estão tirando fotos. Se há uma lição aqui, provavelmente é que copiar um estilo é muito mais fácil do que ensinar um gosto.



Source link