Tecnologia
Sucesso do ChatGPT força busca de ‘antídoto’ contra IA
Nas últimas semanas, o ChatGPT transformou o tema da inteligência artificial (IA) em conversa de mesa de bar. A ferramenta da OpenAI rompeu a bolha tecnológica ao conseguir produzir textos bem organizados e trazer informações sobre assuntos diversos. Porém, da mesma maneira que impressionou, o sistema levantou preocupações sobre como a máquina pode nos enganar com facilidade – e gerou uma corrida por um “antídoto”, algo que possa detectar quando um texto foi escrito por uma IA.
Treinada com 175 bilhões de parâmetros (representações matemáticas de padrões e tipos de texto), a IA por trás do ChatGPT é capaz de produzir discursos de casamento, e-mails corporativos, listas de organização, poemas malucos e código de computação. O sistema, porém, também consegue escrever trabalhos acadêmicos, artigos científicos, projetos de pesquisa, currículos falsos e mensagens que emulam o estilo de escrita de pessoas notáveis.
As possibilidades de mau uso são variadas. Imagine um currículo criado pela máquina que inclui habilidades que o candidato não tem (e de difícil comprovação na entrevista de contratação). Ou, em um cenário extremo, torna-se real a possibilidade de um pesquisador ganhar uma bolsa de pesquisa a partir de um projeto gerado pela máquina – não à toa, a revista Nature publicou um editorial no qual chama o ChatGPT de ameaça à ciência transparente.
Apesar de “criativo”, o ChatGPT não está isento de plágio. Como é impossível determinar a origem dos dados que permitem ao sistema escrever bem, também é bastante difícil determinar se ele transcreve trechos inteiros ou se reproduz estruturas de artigos.
Acusações de plágio por máquinas são comuns em relação a sistemas que geram imagens a partir de comandos de textos. A OpenAI está também no centro desse problema, pois a startup é dona do DALL-E 2, IA “ilustradora” acusada de copiar o estilo de artistas visuais.
Uma das primeiras iniciativas para tentar detectar se um texto foi gerado pelo ChatGPT surgiu já em dezembro pelas mãos de um estudante da Universidade Princeton. Edward Tian, 22 anos, desenvolveu o GPTZero, que analisa textos e aponta suas chances de terem sido escritos por uma IA. O serviço gratuito usa o próprio ChatGPT para fazer a detecção e mede a “aleatoriedade de sentenças” (ou seja, a escolha pouco comum de palavras em uma frase) e o “agrupamento dessas aleatoriedades” (volume de frases escritas com palavras pouco comuns).
O texto fica próximo de ser classificado como “escrito por humano” quando reúne um grande volume de frases escritas com palavras pouco óbvias.
Pressionada, a OpenAI lançou no final de janeiro o seu próprio detector – também classifica os resultados entre “muito pouco provável” e “provável” que o material tenha sido gerado pela máquina. A companhia ressalva: o sistema funciona com textos a partir de mil caracteres, não enxerga diferenças em códigos de computação e tem maior eficiência em inglês.
Frustração
Segundo os próprios criadores, a ferramenta foi capaz de identificar só 26% dos textos criados por máquinas nos primeiros testes. A baixa efetividade persiste após o detector ter sido treinado com textos escritos por 34 sistemas de cinco organizações.
“Atualmente, a detecção de textos criados por IA beira o impossível”, diz Fernando Osório, professor da USP São Carlos. “A detecção de comparar texto com texto não funciona, porque o ChatGPT não está apenas copiando. Estamos falando de síntese de texto. Encontrar a síntese é muito difícil”, diz. Isso significa que ferramentas tradicionais usadas em universidades para detecção de plágio mal nasceram e já se tornaram obsoletas.
Uma alternativa estudada por pesquisadores é uma espécie de “marca d’água”: uma anotação digital aplicada, invisível aos olhos das pessoas, a ser aplicada em todos os textos gerados pelos sistemas.
Criado por pesquisadores da Universidade de Maryland (EUA), o algoritmo de marca d’água tem funcionamento simples. Ele divide aleatoriamente em dois grupos as palavras dentro de um modelo de linguagem: um com palavras “permitidas” e outro com “bloqueadas”
A partir disso, o modelo de linguagem seria direcionado a compor frases com mais palavras “permitidas”. Então, os detectores passam a olhar para a quantidade da presença de palavras permitidas em um texto.
“O problema desse processo é que ele pode engessar a sofisticação na produção de texto”, diz Diogo Cortiz, professor da PUC-SP.
Há outra limitação importante. Para funcionar, a OpenAI teria de inserir o algoritmo de marca d’água dentro do GPT-3, o cérebro do ChatGPT. É uma possibilidade que parece pequena no momento.
Os pesquisadores de Maryland testaram o algoritmo no OPT-6.7B, modelo de linguagem disponibilizado publicamente pela Meta (empresa-mãe do Facebook). Não é possível saber também se o algoritmo funcionaria bem em um modelo diferente.
Outro movimento para tentar frear a capacidade de IAs escritoras é atrapalhar o treinamento delas. Os grandes modelos de linguagem aprendem “lendo” informações de sites e redes sociais, como a Wikipédia, o StackOverflow e o Reddit. É possível, porém, proibir que sistemas automáticos encontrem essas páginas – isso é feito com uma simples alteração no arquivo “robot.txt”.
Pode ser também que a máquina force mais contato entre os humanos. “Isso muda como avaliadores de projetos, contratantes e professores terão de lidar com aquilo que é apresentado. O elemento pessoal ganha força, mas nem sempre é possível fazer isso”, diz Osório. “Acho que estamos diante de um cenário caótico.”
“A OpenAI apressou o passo e deixou a gente para lidar com os problemas depois”, diz Diogo Cortiz.
Via Estadão Conteúdo