Prévia do material em texto
1/4 Detectando fraudes em publicações científicas: os perigos e a promessa da IA – Entrevista com Cyril Labbé As ferramentas de IA estão mudando o cenário editorial e o valor da detecção humana de fraudes de publicação científica. Isso deu origem a um novo tipo de fraude. No Dia das Inovações da STM, realizado na Associação Médica Britânica, em Londres, em dezembro de 2023, Sabine Lout, fundadora do SciencePOD, teve a oportunidade de falar com um dos principais especialistas na detecção de artigos problemáticos. Seu nome é Cyril Labbé, e ele é professor de ciência da computação na equipe do Laboratório de Informática Grenoble SIGMA. Ele compartilha suas opiniões e experiência nesta entrevista. Ouça a ENTRE A ENTRE A ENTRE Leitor de áudio 00:00 (m) 2 00:00 (m) 2 00:00 (m) 2 Use as teclas de seta para cima/baixo para aumentar ou diminuir o volume. Detectar o fato de que o texto foi escrito pelo ChatGPT é, por si só, sem uso. Você realmente tem que tentar descobrir se a ciência por trás do que está escrito é boa. Cyril Labbé (em of Cyril Lab Tweet Você poderia nos dar uma visão geral de alto nível dos tipos de tecnologias que estão disponíveis hoje em dia para os editores detectar fraudes em publicações científicas? Bem, é uma questão difícil porque eu acho que a literatura científica está meio ameaçada porque mais e mais artigos falsos foram publicados. A comunidade editorial precisa encontrar uma maneira de detectar esses documentos falsos com mais eficiência. E os “serviços de integridade” da comunidade editorial não estão equipados o suficiente para fazer isso, eles não têm pessoas suficientes, eles não estão realmente conseguindo lidar com o nível de problemas que encontram. Então é por isso que eles precisam, e eles estão tentando, investir em novas ferramentas para detectar esses artigos problemáticos. Reserve uma consulta gratuita hoje Você pode nos contar sobre os tipos de tecnologia que os editores normalmente usam para detectar tais documentos problemáticos? Geralmente ou tradicionalmente, digamos, o foco tem sido tentar detectar plágio. Mas mais e mais questões de preocupação são evidentes. Há problemas com imagens, então elas também estão tentando investir em novas ferramentas que detectarão imagens problemáticas. Você pode conhecer https://undefined/ javascript:void(0); https://twitter.com/intent/tweet?text=Detecting+the+fact+that+the+text+has+been+written+by+ChatGPT+is%2C+in+itself%2C+of+no+use.+You+really+have+to+try+to+find+out+if+the+science+behind+what+is+written+is+good.+%E2%80%94+Cyril+Labb%C3%A9&url=https%3A%2F%2Fsciencepod.net%2Fdetecting-fraud-in-scientific-publications%2F https://calendly.com/sabine-louet/sciencepod?back=1&month=2024-05 2/4 Elizabeth Bik, por exemplo, que é realmente hábil em detectar imagens problemáticas. Então, eles estão tentando encontrar ferramentas que farão esse tipo de trabalho, tente descobrir quando uma imagem em um artigo científico foi manipulada. E há muitos problemas com o texto. Antes do ChatGPT, as pessoas estavam usando ferramentas de parafrasação para ocultar o plágio. Eles estavam apenas pedindo a uma ferramenta de IA para reformular o texto para que eles não pudessem ser pegos por um detector de plágio, mas essas ferramentas estavam cometendo erros. Por exemplo, as ferramentas estavam usando sinônimos para cada palavra. Eles podem traduzir ou parafrasear as palavras “inteligência artificial” como “consciência de contrafação”, por exemplo. E então você obtém essa redação muito estranha e um texto muito incompreensível com frases completamente torturadas, como as chamamos. Podemos tentar detectar textos problemáticos, trabalhos científicos problemáticos detectando esses tipos de frases torturadas. Guillaume Cabanac e seus colegas criaram uma ferramenta que identifica publicações suspeitas e constrói um banco de dados de artigos problemáticos. Nós chamamos isso de um rastreador de papel problemático, é on-line e você pode verificá-lo. Você pode encontrar estatísticas sobre onde eles foram publicados. E você verá que todas as grandes editoras aceitaram, venderam e levaram APCs para esses tipos de papéis. Conte-nos sobre o ChatGPT. Imagino que tenha tornado o seu trabalho ainda mais interessante. Que tipo de pistas você está procurando quando está tentando detectar artigos escritos usando IA generativa? O ChatGPT mudou completamente a paisagem. Agora, as fábricas de papel, as empresas especializadas na geração de artigos destinados a cientistas, podem usar o ChatGPT como um impulso para a produtividade. Então, precisamos detectar esses tipos de papéis que são gerados usando o ChatGPT. Mas o problema é que o ChatGPT também pode ser usado de forma muito ética, de uma maneira muito boa. Você pode usar o Chat GPT para reescrever uma frase em inglês correto que pode ter sido mal escrita originalmente. Isso é perfeitamente bom; este é um bom uso do Chat GPT. Poderia ser muito útil para mim [como um falante não-nativo de inglês], por exemplo, para tornar o meu inglês muito melhor. Então, detectar o fato de que o texto foi escrito pelo ChatGPT é, por si só, de nenhum uso. Você realmente tem que tentar descobrir se a ciência por trás do que está escrito é boa. O que precisamos saber é se há uma alucinação, ou conteúdo falso, ou algo que deveria ter sido feito ou relatado, mas não foi, etc. Estes são os tipos de coisas que devemos tentar encontrar. Mas, por enquanto, a única coisa que somos capazes de detectar é erros óbvios. Como, por exemplo, o botão “regenerar” que foi copiado e inserido no texto. Você pode encontrar em alguns artigos científicos a “resposta regenerada” no meio de uma frase, ou uma resposta indicando que a linguagem do modelo não pode gerar uma resposta, ou uma resposta ou frase que é cortada, algo assim. Estas são pistas que o ChatGPT foi usado. Mas então você tem que verificar – um ser humano tem que verificar – Se o conteúdo está certo ou não. https://www.linkedin.com/in/elisabeth-bik-4376782/ https://www.linkedin.com/in/guillaumecabanac/ https://dbrech.irit.fr/pls/apex/f?p=9999:1:::::: 3/4 Reserve uma consulta gratuita hoje Existe algum tipo de arquivo ou catálogo de todas essas impressões digitais de linguagem errônea para documentos problemáticos? Sim, então nós os chamamos de impressões digitais e temos uma lista que está disponível online. Esta lista foi construída por muitas pessoas porque há uma comunidade por trás disso. Muitas pessoas estão tentando encontrar todos esses artigos estranhos, e estão postando comentários no PubPeer, que é uma plataforma aberta para as pessoas expressarem e postarem comentários em diferentes artigos científicos. Então, há muitas pessoas procurando novas impressões digitais que não sabíamos antes. Esta lista foi construída através de uma espécie de efeito bola de neve, com muitas pessoas participando da criação da lista. Onde podemos encontrar esta lista? A lista está disponível no problemático rastreador de papel, site, muitas pessoas estão usando-o, na verdade, para integrar em suas próprias ferramentas. Por exemplo, o STM Integrity Hub está usando esta lista para detectar frases torturadas ou texto que foi muito parafraseado. Quanto a indústria editorial chama sua experiência hoje em dia? Você tem colaborações com editores individuais ou com sociedades e associações de pesquisa? Estamos colaborando com qualquer pessoa que queira colaborar conosco, e fazemos isso inteiramente pro bono. Não aceitamos financiamento das diferentes editoras que ajudamos. Trabalhamos com a IOP, por exemplo, que está na vanguarda da abordagem desses problemas de integridade. Trabalhamos com o STM Integrity Hub, com a Morressier. Colaboramos com qualquer um que nos pergunte ‘onde está esta lista?’ Nós fornecemos a lista para eles usarem. É totalmente gratuito e disponível para qualquer pessoa. https://calendly.com/sabine-louet/sciencepod?back=1&month=2024-05 https://dbrech.irit.fr/pls/apex/f?p=9999:1:::::: https://dbrech.irit.fr/pls/apex/f?p=9999:1:::::: https://www.stm-assoc.org/stm-integrity-hub/4/4 De onde você vê as ferramentas da próxima geração vindo? E que tipo de ângulo você espera que seja usado do ponto de vista da tecnologia para detectar publicações suspeitas? Eu acho que há uma nova ameaça chegando, além do problema de detecção – esse é o fato de que novos modelos são capazes de gerar dados e texto. Esses novos modelos multimodais são capazes de fazer muitas coisas, como gerar gráficos em conjunto com texto e imagens, etc. Estas são ferramentas realmente úteis para pessoas que querem gerar artigos científicos apenas pressionando um botão. Então, sim, há um problema aqui. E a maneira de detectar esse problema, creio eu, é ir além de simplesmente detectar se uma publicação foi gerada ou não. Em vez disso, precisamos tentar detectar o significado científico por trás do texto e verificar se há realmente algo por trás do que é publicado. Precisamos adotar a abordagem da “ciência aberta”, apoiando a divulgação de dados para que as pessoas possam verificar e avaliar o que está em um texto. E eu acho que os editores têm que investir em trabalho humano. Eles precisam garantir que a revisão por pares seja feita corretamente e investir em avaliação pós-publicação. Eles devem ser capazes de lidar com retrações e correções e coisas como isso muito mais facilmente e rapidamente. O que você está dizendo é que a tecnologia só pode fazer tanto e então o resto do trabalho tem que ser feito por humanos qualificados que entendem de onde as falhas podem vir? Sim, essa é a minha tomada, é onde eu estou nisso. Reserve uma consulta gratuita hoje Registre-se para receber nossa newsletter e fique atualizado https://calendly.com/sabine-louet/sciencepod?back=1&month=2024-05