Como as empresas com conteúdos de imagens estão tratando o uso delas para treinamento de IA generativa

14
04-2024

Como as empresas com conteúdos de imagens estão tratando o uso delas para treinamento de IA generativa

Fique por dentro /

O surgimento, a ascensão e o crescente desenvolvimento da inteligência artificial (IA) generativa significa que enormes arquivos de fotografias de tornam cada vez mais valiosos, sendo a situação atual comparada a uma “corrida do ouro” por informação visual. Mas os donos de grandes arquivos de imagens estão a licenciando seu conteúdo para as grandes empresas de tecnologia que para fins de formação de modelos de IA? A resposta é que diferentes empresas têm acordos diferentes: a Shutterstock, por exemplo, licencia conteúdo para empresas externas de IA, enquanto outras, como a gigante Getty Images, usam conteúdo de sua própria plataforma para construir modelos internos de IA generativos.

O tema é bastante controverso, pois quando os fotógrafos colaboradores se inscreveram nessas agências de imagens, não esperavam nem consentiram que o seu trabalho fosse utilizado dessa forma. Não há dúvida de que imagens de alta qualidade são cruciais para as empresas de IA continuarem adicionando conteúdo aos seus produtos e construindo novos modelos. Mas algumas agências e plataformas fotográficas escondem que estão fazendo esse tipo de acordo com empresas de IA, segundo o site PetaPixel – que fez uma lista de todas as empresas que têm (ou há rumores de que têm) acordos com plataformas de IA. O assunto é tão polêmico que o congressista americano Adam Schiff apresentou um projeto de lei que exige que as empresas de IA revelem quais dados usam para treinar modelos.

Muitos fotógrafos certamente estarão interessados em saber como e para que o seu conteúdo está sendo usado, além de ser exibido na agência, aplicativo ou plataforma fotográfica de sua escolha. No caso do Facebook e, principalmente, no Instagram, a Meta de Mark Zuckerberg não dá consentimento de treinamento a nenhuma empresa externa de IA – mas isso ocorre porque a empresa está construindo suas próprias ferramentas generativas de IA. Durante sua divulgação dos resultados do quarto trimestre, Zuckerberg deixou claro que usará imagens postadas no Facebook e Instagram para treinar suas ferramentas generativas de IA. Portanto, qualquer foto no Instagram ou no Facebook pode ser usada para treinar o gerador de imagens de IA do Meta.

A Shutterstock, líder de mercado em banco de imagens há muitos anos, foi uma das primeiras a adotar a IA. Ela construiu seu próprio gerador de imagens por inteligência artificial, mas também fechou acordos com Meta, Google, Amazon e Apple para licenciar centenas de milhões de imagens de sua biblioteca para fins de treinamento, de acordo com agência Reuters – que informa que esses acordos giram em torno de US$ 25 milhões a US$ 50 milhões cada, mas os detalhes não foram divulgados. Pelo seu lado, a Getty Images, apesar de se posicionar contra o Stable Diffusion, acusando o gerador de imagens de IA usar 12 milhões de fotos sem consentimento, lançou Generative IA da Getty Images AI desenvolvido pela NVIDIA, bem como o Generative IA iStock, que permite aos clientes criar seus próprios banco de imagens de IA. A Getty diz que ambos os modelos foram “treinados exclusivamente usando conteúdo de alta qualidade e dados proprietários das bibliotecas criativas da Getty Images”. A agência diz que criou um sistema para os colaboradores que pagará aos fotógrafos se seu trabalho for usado nos dados de treinamento. A empresa enfatiza que está adotando uma abordagem “responsável” em relação aos direitos autorais.

A Adobe é elogiada por construir seu modelo de IA “da maneira certa”. Seu modelo de imagem Firefly AI foi gerado exclusivamente com base em imagens do Adobe Stock, conteúdo licenciado abertamente e obras de domínio público. Mas em janeiro de 2024 houve uma confusão depois que a Adobe adicionou uma seção de “Análise de Conteúdo” às suas permissões de privacidade e coleta de dados pessoais, deixando alguns se perguntando se a Adobe estava se servindo de imagens na Creative Cloud. No entanto, a empresa por trás do Photoshop insistiu que não está usando fotos de fotógrafos para treinar IA.

A plataforma EyeEm foi comprado pelo Freepik em 2023 e uma carta recente informou que uma atualização em seus Termos e Condições significa que a EyeEm agora tem o direito de licenciar fotos de colaboradores para fins de treinamento de IA. A empresa diz que os colaboradores podem optar por não participar, mas não mencionou se haveria pagamento por esse tipo de licenciamento. Mas, em um comentário no Facebook para um colaborador insatisfeito, EyeEm escreveu “Você será compensado com a habitual participação 50/50. Estamos construindo relatórios para apoiar isso.” Enquanto isso, a Freepik, controladora da EyeEm, disse à Reuters que assinou acordos com duas grandes empresas de tecnologia para licenciar a maior parte de seu arquivo de 200 milhões de imagens por cerca de 3 centavos por imagem. O CEO Joaquin Cuenca Abela afirmou que há mais cinco negócios semelhantes em andamento, mas não quis identificar os compradores.

O Tumblr é um bom exemplo de plataforma que caiu em popularidade nos últimos anos, mas agora busca lucrar com o crescimento da IA – mas não quer que ninguém saiba disso. Em fevereiro de 2024, segundo a 404 Media, o Tumblr estava fechando um acordo com a OpenAI e a Midjourney para licenciar seu conteúdo. Exatamente que tipo de conteúdo é um mistério, mas se Midjourney estiver envolvida, é provável que inclua imagens. A denúncia veio de um funcionário anônimo do Tumblr, de propriedade da Automattic, que também é dona do WordPress.com. Já a plataforma Photobucket está em negociações com empresas de para licenciar seu conteúdo para fins de treinamento de algoritmos. O CEO Ted Leonard disse à Reuters que está em negociações com “várias empresas de tecnologia” para licenciar os 13 bilhões de fotos e vídeos do site. Ele discutiu taxas de 5 centavos a US$ 1 por foto e mais de US$ 1 por vídeo, com preços variando dependendo do comprador e dos tipos de imagens que procuram. Ele se recusou a revelar a identidade dos potenciais compradores.

Um acordo supostamente avaliado em US$ 60 milhões por ano dá ao Google acesso em tempo real aos dados do Reddit, mas não está claro se isso é apenas texto ou inclui imagens. Até agora, tanto o Reddit quanto o Google se recusaram a comentar o acordo. Já no caso do Flickr, não há relatos sobre o licenciar seu vasto conjunto de conteúdo para empresas de IA, mas dada a visibilidade da plataforma na web e que inclui tags que descrevem as fotos, há uma grande chance de que as imagens já tenham sido usadas para treinamento de IA sem o consentimento do Flickr.

likes / 0 Comments

Compartilhe:

Facebook Twitter Google+