top of page

O ChatGPT ditará as regras de nossa linguagem?

Pesquisadores alemães fizeram um estudo utilizando-se de  740.249 horas de fala humana extraídas de 360.445 palestras acadêmicas no YouTube e 771.591 episódios de podcasts conversacionais e detectaram um aumento no uso de palavras prioritariamente geradas pelo ChatGPT, após seu lançamento.


Esses achados sugerem um cenário em que máquinas, originalmente treinadas em dados humanos e apresentando seus próprios traços culturais, podem moldar de maneira mensurável a cultura humana, iniciando um ciclo fechado de retroalimentação cultural. Os resultados devem motivar novas pesquisas sobre a evolução da cultura humano-máquina e levantar preocupações sobre erosão linguística, homogeneização cultural e riscos de manipulação em escala. Vejamos o estudo com mais detalhes.

 

Modelos de linguagem de larga escala como agentes de transformação cultural 


A pesquisa apresentada por Hiromu YakuraEzequiel Lopez-LopezLevin BrinkmannIgnacio SernaPrateek Gupta e Iyad Rahwan se inicia trazendo a ideia de que  a linguagem humana evolui por meio de processos contínuos nos quais indivíduos percebem, internalizam e reproduzem padrões linguísticos. Esse processo é essencial para a comunicação e também para a evolução cultural. A forma como falamos é influenciada por diversos fatores: ambiente social, meios de comunicação e, mais recentemente, claro, as tecnologias digitais.


Historicamente, inovações como escrita, imprensa, rádio, televisão e redes sociais mudaram a maneira como as  ideias se propagam e essas mudanças influenciaram padrões de fala e escrita, produzindo transformações culturais duradouras. No Brasil, por exemplo, bordões de programas televisivos são claros exemplos do mencionado.


Ocorre que, hoje, um novo agente entrou nesse sistema: são os modelos de linguagem de larga escala (LLMs). É que as ferramentas como o ChatGPT já fazem parte do cotidiano de milhões de pessoas, especialmente em contextos acadêmicos e profissionais. Usuários recorrem a esses modelos para redigir, revisar, expandir ou polir textos e, desta maneira, os LLMs vêm agindo como mediadores da comunicação humana e introduzindo padrões linguísticos novos ou amplificados.


A pesquisa, originalmente denominada Empirical evidence of Large Language Model’s influence on human spoken communication, mostra que textos acadêmicos escritos após o surgimento de LLMs apresentam maior frequência de termos típicos desses sistemas. O dado levanta uma questão crítica: será que a linguagem falada humana, e não apenas a escrita, está sendo influenciada por modelos de IA?


Se sim, isso significaria que representações culturais aprendidas artificialmente poderiam retornar ao ambiente humano e influenciar, em larga escala, nosso discurso oral.


Para investigar a hipótese, os pesquisadores analisaram uma grande quantidade de comunicação falada humana antes e depois do lançamento do ChatGPT, buscando  entender se padrões lexicais característicos do modelo passaram a aparecer com maior frequência em fala espontânea, especialmente em contextos públicos como podcasts e palestras.


Os dados coletados


Já iniciamos nosso texto mencionando os grandes conjuntos de dados representando a fala humana espontânea e pública que foram analisados na pesquisa, mas vamos esmiuçar o que foi  feito.


Foram estudadas 360.445 palestras acadêmicas no YouTube, abrangendo disciplinas de ciência, tecnologia, ciências sociais, engenharia, direito e economia. Nestas áreas, o uso frequente do ChatGPT por acadêmicos sugere que o grupo seria particularmente suscetível a influência linguística.


Também foram avaliados 771.591 episódios de podcasts que debatiam temáticas amplas sobre cultura, ciência, política, esportes, educação e outros. Nos podcats a linguagem se apresentava mais natural, menos formal, em diálogos e conversas longas.


No total, foram analisadas 740.249 horas de fala humana, todas transcritas em inglês usando reconhecedores automáticos de voz; todo o conteúdo foi processado em escala, com limpeza de ruído, padronização e tokenização, ou seja, o texto foi dividido em unidades menores para ser processado por algoritmos e permitir a pesquisa. 


Como foi feita a análise dos dados 

 

Para detectar a influência do ChatGPT, foram selecionadas  palavras que são usadas com frequência acima do esperado pelo programa, em comparação ao inglês comum, bem como que são relativamente raras na fala humana antes do ChatGPT.


Foi criado, então, um índice de preferência do ChatGPT para cada palavra analisada e medida sua frequência ao longo do tempo nos corpora de fala humana.

 

Corpora de fala humana (ou, no singular, corpus de fala humana) são grandes coleções de gravações de áudio da fala, que são selecionadas, categorizadas e, muitas vezes, transcritas e anotadas para análise linguística e desenvolvimento de tecnologias.


A hipótese da pesquisa, no caso, é: se o ChatGPT influencia a fala humana, essas palavras específicas deveriam aumentar após novembro de 2022 (lançamento público do ChatGPT).


Além disso, foram empregados métodos que ajudaram a descartar fatores externos, como modismos, mudanças culturais gerais, eventos específicos etc. Afinal, o objetivo foi detectar mudanças causais e não apenas correlações  no uso de palavras preferidas pelo modelo.


Seleção do vocabulário característico do ChatGPT

Os autores definem um conjunto de palavras características de LLMs da seguinte forma:

Preferência lexical do ChatGPT: cada palavra do inglês foi avaliada quanto à sua probabilidade de aparecer em respostas do ChatGPT. Palavras usadas muito mais frequentemente pelo ChatGPT do que por humanos são consideradas “marcadas”.


Baixa frequência na fala humana antes de 2022: o objetivo foi eliminar palavras naturalmente comuns no inglês ou já em tendência de ascensão antes do surgimento de LLMs. Essa filtragem gerou um conjunto de termos “diagnósticos”, que funcionaram como indicadores de influência do ChatGPT.


Para cada corpus, os autores construíram séries mensais, registrando: o número total de palavras faladas; a frequência de cada palavra característica e a frequência relativa (proporção) desses termos.


As séries foram de 2018 a 2024, permitindo capturar tendências prévias ao ChatGPT, variações sazonais, tendências naturais do idioma e mudanças temáticas nos conteúdos.

Para evitar falsos positivos, os pesquisadores fizeram alguns testes placebo e todos retornaram resultados positivos.


Conclusão – resultados principais


Após o lançamento do ChatGPT, observou-se um aumento estatisticamente significativo no uso de palavras (na língua inglesa, obviamente) como delve, underscore, boast, comprehend, swift e meticulous.


Esse aumento ocorreu tanto em podcasts, nas falas espontâneas, como em palestras acadêmicas. O evento deu-se de forma imediata após novembro de 2022, ou seja, não foi gradual, houve uma quebra abrupta.


Também se observou que o efeito foi consistente entre os domínios. Nos podcasts, o aumento foi mais difuso, mas ainda significativo. Em palestras acadêmicas, o efeito foi mais pronunciado,  possivelmente porque acadêmicos estão usando o ChatGPT com alta frequência; adotam estilos de escrita padronizados e podem internalizar expressões ao ler textos gerados pela IA.


Outra conclusão é que o efeito é causal, não acidental. O que quer dizer: os testes estatísticos mostram que não havia tendência prévia de aumento dessas palavras; que os modelos placebo não exibiram saltos em outras datas e que palavras não características do ChatGPT não mostraram o mesmo padrão.


Os pesquisadores interpretaram que os resultados padrões linguísticos do ChatGPT estão sendo transferidos para a fala humana e que tudo indica que o efeito não é temporário.


Mesmo em 2024, a frequência das palavras típicas de IA continua crescendo; a diferença entre pré e pós ChatGPT se mantém e o vocabulário humano está mudando de maneira estruturada.


Os autores também mediram o impacto dessas ocorrências de maneira percentual. Nos podcasts o aumento foi de até 30% no uso relativo de palavras preferidas pelo ChatGPT e nas palestras acadêmicas o aumento foi de 50–70% para certas palavras.


No entender dos pesquisadores isso é muito elevado para fenômenos linguísticos em larga escala. Para efeitos de comparação, as inovações tecnológicas anteriores demoraram décadas para moldar padrões lexicais, enquanto o ChatGPT produziu impacto em menos de 6 meses.


Uma nova era de evolução cultural mediada por modelos de IA


Os LLMs são treinados em linguagem humana e produzem padrões linguísticos específicos. Posteriormente, humanos passam a imitá-los e esses padrões retornam a novos modelos como parte dos dados de treinamento. Isso cria um ciclo fechado, com evidente retroalimentação cultural humano-máquina.  

 

Pode nos parecer inofensivo a princípio, mas os pesquisadores levantam três preocupações. A primeira é com a homogeneização linguística. Se milhões de pessoas imitarem o estilo de um mesmo modelo, a diversidade linguística pode diminuir.


Também pode ocorrer a difusão de traços culturais não humanos, com os modelos introduzindo preferências estilísticas próprias, que não necessariamente representam culturas humanas reais.


E, por fim, manipulação em escala. Se LLMs influenciam estilos de fala, sistemas mal-intencionados poderiam tentar influenciar ideias, crenças e comportamentos.


Transformações que antes levariam décadas acontecem agora no intervalo de meses, o que faz com que os autores enfatizem que estamos testemunhando o início de uma mudança cultural mediada por IA.


Com isso, afirma-se também a necessidade urgente de políticas públicas relativas ao uso da tecnologia, regulamentações adequadas, pesquisas sociolinguísticas, sem contar as análises culturais de longo prazo.

 

Leia o texto da pesquisa na íntegra:


ree

Gostou deste texto? Faça parte de nossa lista de e-mail para receber regularmente materiais como este. Fazendo seu cadastro você também pode receber mais informações sobre nossos cursos, que oferecem informações atualizadas e metodologias adaptadas aos participantes.

  

Temos cursos regulares, já consagrados, dos quais já participaram mais de 800 profissionais das IES. Também modelamos cursos in company sobre temas gerais relacionados ao Direito da Educação Superior, ou mais específicos. Conheça nossas opções e participe de nossos eventos.

 

Comentários


bottom of page