Fotos de usuários são usadas sem autorização para treinar reconhecimento facial

Já pensou se a sua foto vai parar em um banco de dados para melhorar um sistema de reconhecimento facial sem a sua autorização? Bem, talvez você queira acender o sinal amarelo: milhões de fotos publicadas na internet estão sendo utilizadas por pesquisadores e companhias para treinar algoritmos.

A informação foi publicada nesta terça-feira (12) pelo site NBC News. A reportagem ainda descobriu que as imagens varridas da internet são categorizadas por idade, sexo, cor da pele e dezenas de outras métricas.

O reconhecimento facial é uma tecnologia que pode aprender a identificar traços humanos para diferenciar indivíduos, mas não consegue fazer isso a partir do zero – por isso, o recurso tem de ser alimentado por milhares de imagens. E quer maneira mais fácil de conseguir fotos do que no vasto universo digital?

Só que especialistas e defensores dos direitos civis estão soando o alarme sobre o uso de fotos de pessoas comuns por pesquisadores. O problema é que não há nenhum consentimento.

“Esse é segredinho sujo dos treinamentos de inteligência artificial. Pesquisadores geralmente pegam as imagens que estão disponíveis”, disse o professor da NYU School of Law, Jason Schultz.

A mais recente companhia a entrar neste território foi a IBM, que em janeiro retirou uma coleção de quase um milhão de fotos do site Flickr e codificou as imagens para retratar a aparência dos fotografados. A empresa promoveu a coleta para pesquisadores e disse se tratar de um grande passo para reduzir falhas no reconhecimento facial – que enfrenta problema para diferenciar pessoas negras e mulheres.

A NBC News conseguiu acesso à coleção da IBM e entrou em contato com os fotográfos responsáveis pelas imagens. Segundo a reportagem, eles reagiram com surpresa e desconforto ao descobrir que a empresa havia anotado detalhes das pessoas como geometria do rosto e tom de pele.

“Nenhuma das pessoas que eu fotografei tem a menor ideia de que suas imagens estão sendo usadas dessa forma”, disse Greg Peverill-Conti, que tem mais de 700 fotos na coleção da IBM.

John Smith, que supervisiona a pesquisa de inteligência artificial na IBM, disse que a empresa está comprometida em “proteger a privacidade dos indivíduos” e “trabalhará com quem solicitar que uma URL seja removida do conjunto de dados”.

Apesar das garantias de que os usuários do Flickr podem optar por sair do banco de dados, a NBC News descobriu que é quase impossível remover as fotos. A IBM exige que os fotógrafos enviem links por e-mail das fotos que desejam remover, mas a empresa não compartilhou publicamente a lista de usuários e fotos do Flickr incluídos no conjunto de dados, portanto não há maneira fácil de descobrir quais fotos estão incluídas.

Empresas usam fotos de pessoas comuns para treinar sistema de reconhecimento facial. GIF: Erik Carter / NBC News
O conjunto de dados da IBM não vincula pessoas com suas imagens. Isso significa que o sistema não é capaz de identificar indivíduos pelos seus nomes, mas defensores da liberdade civil e pesquisadores de ética tecnológica questionam os motivos do banco de dados da IBM, que tem um histórico negativo por vender ferramentas de vigilância que supostamente infringirem as liberdades civis.

Depois dos ataques de 11 de setembro, por exemplo, a empresa vendeu para o departamento de polícia de Nova York uma tecnologia capaz de procurar em imagens de câmeras de segurança por pessoas de determinados tons de pele ou cor de cabelo. A IBM também lançou um produto de “análise de vídeo inteligente” que usa câmeras corporais para detectar pessoas por etnia, como asiáticos e negros.

A IBM disse em ao NBC News que os sistemas “não são inerentemente discriminatórios”, mas acrescentou: “Acreditamos que tanto os desenvolvedores desses sistemas quanto as organizações que os implementam têm a responsabilidade de trabalhar ativamente para mitigar o preconceito. É a única maneira de garantir que os sistemas de inteligência artificial ganhem a confiança de seus usuários e do público. A IBM aceita totalmente essa responsabilidade e não participaria de trabalhos envolvendo perfis raciais ”.

Evolução da tecnologia
Antes da expansão da internet, os pesquisadores costumavam pagar às pessoas para irem a seus laboratórios, assinar formulários de consentimento e tirar fotos em diferentes poses e condições de iluminação. Como isso era caro e demorado, os conjuntos de dados iniciais eram limitados a algumas centenas de indivíduos.

Mas a partir dos anos 2000, os pesquisadores passaram a ter acesso a milhões de fotos.

“Eles entrariam em um mecanismo de busca, digitariam o nome de uma pessoa famosa e baixariam todas as imagens”, disse Jonathon Phillips, que coleciona dados para medir o desempenho de algoritmos de reconhecimento facial para o Instituto Nacional de Padrões e Tecnologia. “No início, as fotos eram de pessoas famosas, celebridades, atores e esportistas”.

Com as redes sociais e o conteúdo gerado pelos usuários, o trabalho ficou até mais fácil. Era possível obter uma variedade enorme de faces a partir do YouTube, Facebook, Google Images, Wikipedia e outros bancos de dados.

Os acadêmicos geralmente apelam para a natureza não comercial de seu trabalho para contornar questões de direitos autorais. O Flickr tornou-se um recurso valioso porque muitos usuários publicaram suas imagens sob licenças “Creative Commons”, o que significa que é possível reutilizar as fotos sem pagar taxas de licenciamento.

A IBM não está sozinha no uso de fotos publicamente disponíveis na internet dessa maneira. Dezenas de outras organizações de pesquisa coletam fotos para treinamento de sistemas de reconhecimento facial, e muitas das coleções maiores e mais recentes foram extraídas da internet.

Alguns especialistas e ativistas argumentam que isso não é apenas uma violação da privacidade de milhões de pessoas, mas que a prática também levanta preocupações mais amplas sobre a melhoria da tecnologia de reconhecimento facial e o medo de que ela seja usada por governos e forças policiais para atingir de forma desproporcional as minorias.

“As pessoas deram seu consentimento para compartilhar suas fotos em um ecossistema de internet diferente”, disse a codiretora do AI Now Institute, Meredith Whittaker, que estuda as implicações sociais da inteligência artificial. “Agora eles estão sendo involuntariamente ou sem saber, envolvidos no treinamento de sistemas que poderiam potencialmente ser usados de maneira opressiva contra suas comunidades”.

Fonte: CanalTech