Com o uso indiscriminado de ferramentas de IA para criação de conteúdo de texto, é natural que os professores, endossados pelas gestões acadêmicas, se utilizem de programas para assinalar este tipo de escrita. Softwares, como o Turnitin, utilizado por mais de 16.000 instituições de ensino em todo o mundo, já acusavam textos plagiados e agora determinam – ou propagandeiam determinar – a redação automatizada.
Alguns casos, porém, ocorridos na Universidade Johns Hopkins, chamaram a atenção para a possibilidade de falsas detecções. Um dos professores, ao avaliar um trabalho de aluno do curso de Comunicação, foi informado pelo Turnitin que mais de 90% do material apresentado havia sido gerado por IA. Uma reunião foi marcada com o estudante que, sem saber do que se tratava, mostrou ao professor vários itens de pesquisa, como rascunhos e PDFs com conteúdo sublinhado. Após o encontro, o docente se viu convencido de que a ferramenta da Turnitin havia cometido um erro.
Em outra oportunidade o mesmo professor trabalhou diretamente com um aluno em um esboço e rascunhos de um trabalho e, mesmo assim, a maior parte dele foi assinalada como tendo sido gerada por IA.
Padrão de falsos positivos
Um padrão foi percebido nos falsos positivos: a ferramenta tinha muito mais chances de marcar os trabalhos dos estudantes não falantes de inglês como língua materna como tendo sido gerados por IA, surgindo, então, o interesse de um grupo de pesquisadores de Stanford, que concebeu uma experiência para compreender melhor a fiabilidade dos detectores de IA.
O resultado foi um artigo publicado em julho deste ano, constatando que os aplicativos assinalaram a escrita de falantes não-nativos como sendo gerada por IA em 61% das vezes.
Em cerca de 20% dos artigos a avaliação errada foi unânime por parte dos softwares pesquisados. Os detectores, é bom frisar, quase nunca cometeram os mesmos erros ao analisar a escrita de falantes nativos do inglês.
O Turnitin não esteve dentre os aplicativos pesquisados, mas sete outros classificaram frequentemente mal a escrita de falantes não-nativos de inglês.
Por qual motivo isto pode acontecer?
Os detectores de IA provavelmente foram programados para classificar a redação como gerada por IA quando a escolha das palavras for mais previsível e as frases forem mais simples. E a escrita de falantes não-nativos de inglês se encaixa – em geral - neste padrão, gerando todo o problema.
Nas línguas maternas nós normalmente possuímos um vocabulário mais extenso, mais complexo e nossa compreensão da gramática costuma ser melhor. Por outro lado, os falantes não-nativos de qualquer língua tendem a escrever de forma mais simples.
Com o ChatGPT não é diferente. Ele pode ‘imitar’ a redação humana analisando o material que já processou e suas frases são elaboradas usando palavras e expressões mais corriqueiras. E o interessante é que, de acordo com este estudo, ainda que os detectores de IA não sejam especificamente treinados para apontar a escrita menos complexa, as ferramentas aprendem a fazê-lo, pois logo “percebem” que a escrita gerada pela IA é, de fato, menos complexa.
A reportagem do The Markup que cita diretamente o estudo relata a experiência de um dos pesquisadores, falante nativo de cantonês e mandarim antes do inglês. Ele já desconfiava do viés das ferramentas e desconfiava das afirmações de que existiria uma precisão quase perfeita destes detectores de IA; quis, então, analisar o seu funcionamento para alunos cujos antecedentes linguísticos fossem como o seu.
O resultado não foi diferente: o professor Weixin Liang, coautor do estudo de Stanford, foi bem claro ao afirmar que muitos detectores de GPT discriminam os autores não-nativos, em especial os que apresentam vocabulário mais limitado.
ChatGPT
O ChatGPT foi lançado em novembro do ano passado e os professores ficaram (ainda estão) muito preocupados com as implicações de seu uso irrestrito.
No caso dos estudantes estrangeiros no Reino Unido ou nos Estados Unidos, muitos são autorizados a estudar no país com vistos específicos para a educação e se tornam vulneráveis nesta briga entre geradores e detectores de IA.
Realmente, para um aluno que pesquisou, leu, estudou, redigiu e reviu seus trabalhos é assustador ter sua dedicação posta em cheque por conta de detectores de IA pouco confiáveis. Estas ferramentas são uma verdadeira ameaça para sua reputação e, por conseguinte, para a sua bolsa de estudos.
Dependendo do país de origem e do país receptor pode haver uma dose de preconceito e xenofobia contra o estudante e uma acusação de má conduta acadêmica tem o potencial de gerar uma suspensão ou expulsão, o que é grave para o detentor do visto de estudante.
O professor Shyam Sharma, associado na Universidade de Stony Brook, de Nova Iorque, trabalha a abordagem dada pelos Estados Unidos à educação de estudantes internacionais. Segundo ele, em tradução livre do texto Ferramentas de detecção de IA acusam falsamente de trapaça os estudantes internacionais,:
“as universidades não apoiam regularmente este subgrupo nos seus campus e os professores muitas vezes não compreendem as suas circunstâncias únicas”.
Para este pesquisador, o uso continuado de detectores de IA defeituosos é um exemplo de como algumas instituições ignoram os estudantes internacionais do país.
Falantes nativos do português
O estudo apresentado tem grande importância para nós. Somos todos falantes não-nativos de inglês.
Ainda que o material que apresentemos à ferramenta detectora de IA seja todo em português, os softwares – em sua grande maioria ou pelo menos os mais conhecidos e usados - foram concebidos em inglês e para falantes nativos de inglês.
O resultado que obtemos destes aplicativos – seja de escrita generativa ou de detecção de produção automatizada – é uma adaptação do inglês para o português. A máquina “sabe”, portanto, que ela “lida” com um falante não-nativo de inglês; sujeito, portanto, ao viés preconceituoso que existe desde sua concepção.
É muito importante que isto seja difundido. A experiência ordinária nos mostra que os professores têm encontrado muito material que supostamente foi produzido por IA. Nesta hora eles nem sabem o que fazer, já que a maioria das instituições de ensino sequer regulou o uso deste tipo de tecnologia.
Encontrar falsos positivos é um problema; eles podem ser prejudiciais para a carreira acadêmica do aluno, sem dizer que ele se torna obrigado a provar sua própria inocência.
Leia:
O estudo que ora repercutimos entende que o potencial de desconfiança e ansiedade provocado pela implantação de detectores de IA não compensa o impacto negativo no ambiente de aprendizagem. Os danos superam os benefícios percebidos.
A Universidade de Pittsburgh enviou nota aos professores no final de junho deste ano e sinalizou que não apoiava a utilização de qualquer tipo de detector de IA. Foram citados os falsos positivos, o risco de perda de confiança e motivação dos estudantes, a má publicidade e as potenciais sanções legais.
Aparentemente nem foi a experiência dos estudantes internacionais que motivou a decisão: o diretor interino de apoio ao ensino na Universidade disse que sua equipe testou vários detectores de IA disponíveis e decidiu que os falsos positivos eram comuns demais. Na mesma nota ele afirma que entende a preocupação dos professores com o uso excessivo dos apps de IA generativa para burlar a pesquisa e o estudo, mas que os encorajava a concentrarem-se nos potenciais benefícios da tecnologia.
O que dizem as empresas
Chamadas ao imbróglio, a OpenAI informou que encerrou o seu detetor de IA no final de julho deste ano devido à baixa precisão, e a Quill.org e a CommonLit fizeram o mesmo com o seu AI Writing Check, afirmando que as ferramentas de IA generativa são muito sofisticadas para a detecção.
A Turnitin, em contrapartida, duplicou as suas alegações de elevada precisão. Sua diretora de produto disse que a ferramenta foi treinada em escrita por falantes de inglês nos EUA e no estrangeiro, assim como por estudantes multilingues, motivo pelo qual não deveria ter o preconceito que o artigo identificou. Informou que está realizando sua própria investigação para determinar se a ferramenta é menos precisa quando avalia a escrita de falantes não-nativos de inglês, mas que já adiantaria a inexistência de viés preconceituoso.
Também, admitiu que a ferramenta aprende que a escrita mais complexa tem mais probabilidades de ser humana, tendo em conta os padrões dos ensaios de treino. Neste ponto, porém, não deixou expresso que assim ocorre por conta dos padrões pré-estabelecidos pelos próprios programadores.
Por fim, a empresa informou que atualizou seu app para permitir que as instituições de ensino desativassem o indicador de uso de IA generativa de escrita, mas que apenas 02% de seus clientes optaram pela alternativa.
É preciso lembrar que a tecnologia é uma extensão do desejo do usuário. O ChatGPT, por exemplo, não foi desenvolvido para propósitos educacionais e, no entanto, tem sido usado por muitos alunos para redação de textos e trabalhos.
Ainda não possuímos todas as respostas sobre como lidar com as ferramentas de criação de texto automatizado e seu uso indiscriminado dentro das instituições de ensino. A proibição nos parece inócua.
Talvez precisemos de ferramentas específicas e direcionadas para os estudantes, de conscientização para o uso adequado, de focar mais no processo da aprendizagem do que no resultado e de repensar a forma de avaliação. Por fim, de ensinar sobre ética digital, respeitando, inclusive, a competência 05 da Base Nacional Comum Curricular (BNCC).
Gostou deste texto? Faça parte de nossa lista de e-mail para receber regularmente materiais como este. Fazendo seu cadastro você também pode receber notícias sobre nossos cursos, que oferecem informações atualizadas e metodologias adaptadas aos participantes.
Temos cursos regulares já consagrados e modelamos cursos in company sobre temas gerais ou específicos relacionados ao Direito da Educação Superior. Conheça nossas opções e participe de nossos eventos.
Comments