INOVAÇÃO

Search
Close this search box.

ChatGPT faz pálgio muito mais sofisticado do que simplesmente copiar e colar

Diversas instancias de plágio feitas pelo ChatGPT que foram detectadas pelo sistema desenvolvido pelos pesquisadores.

Respostas plagiadas

Alunos e cientistas podem querer pensar duas vezes antes de usar o ChatGPT ou similares para fazer sua prxima tarefa ou escrever seu prximo artigo cientfico.

Acontece que esses modelos de linguagem, que geram texto em resposta a solicitaes do usurio, plagiam o contedo de onde aprenderam de vrias maneiras.

“O plgio vem em diferentes sabores,” disse Dongwon Lee, professor de cincias da informao e tecnologia da Universidade do Estado da Pensilvnia, nos EUA. “Queramos ver se os modelos de linguagem no apenas copiam e colam, mas tambm recorrem a formas mais sofisticadas de plgio sem perceber.”

Os pesquisadores se concentraram em identificar trs formas de plgio: Literal, que consiste em copiar e colar diretamente o contedo; parafrasear, consistindo em reformular e reestruturar o contedo sem citar a fonte original; e ideia, ou usar a ideia principal de um texto sem a devida atribuio da autoria.

Para fazer tudo de forma automatizada, a equipe construiu um condutor, um software que analisa os dados manipulados por outro programa sem interferir neles. Os testes foram feitos usando o GPT-2, da OpenAI, porque os dados de treinamento desse modelo de linguagem esto disponveis online, permitindo comparar textos gerados com os 8 milhes de documentos usados para pr-treinar o GPT-2.

A equipe ajustou trs modelos de linguagem para se concentrar em documentos cientficos, artigos acadmicos relacionados covid-19 e pedidos de patentes. Eles usaram um mecanismo de pesquisa de cdigo aberto para recuperar os 10 principais documentos de treinamento mais semelhantes a cada texto gerado e modificaram um algoritmo de alinhamento de texto j disponvel para detectar melhor as instncias de plgio literal, parfrase e ideia.

Trs tipos de plgio

A equipe descobriu que os modelos de linguagem cometeram todos os trs tipos de plgio e que, quanto maior o conjunto de dados e os parmetros usados para treinar o modelo, mais frequentemente o plgio ocorreu.

Eles tambm observaram que os modelos de linguagem ajustados para cada tipo de documento reduziram o plgio literal, mas aumentaram as instncias de parfrase e plgio de ideias.

Alm disso, eles identificaram instncias do modelo de linguagem expondo informaes privadas de indivduos por meio de todas as trs formas de plgio.

“As pessoas trabalham para construir grandes modelos de linguagem porque, quanto maior o modelo fica, as habilidades de gerao [de texto] aumentam,” disse Lee. “Ao mesmo tempo, eles esto colocando em risco a originalidade e a criatividade do contedo dentro do corpus de treinamento. Esta uma descoberta importante.”

Papagaio high-tech

Embora a grande maioria das revistas cientficas j esteja banindo a citao de modelos de linguagem como o ChatGPT da lista de autores de artigos cientficos, ainda no se sabe como as escolas podero lidar com o problema.

Ou, talvez, essa seja outra questo que ser relegada a segundo plano, assim como a preocupao com a privacidade pessoal sumiu das preocupaes conforme as mdias sociais tomaram o mundo de assalto.

“Assim como fazemos com um papagaio, ensinamos os modelos de linguagem a imitar a escrita humana sem ensin-los a no plagiar adequadamente”, disse Lee. “Agora, hora de ensin-los a escrever corretamente, e ainda temos um longo caminho a percorrer.”

Fonte: Inovação Tecnologica