Introduction : le test de Turing à l’épreuve des grands modèles linguistiques
Il y a 75 ans, le mathématicien et logicien Alan Turing proposait un jeu simple, mais profondément provocateur : le « jeu de l’imitation ». Ce concept, rapidement devenu célèbre sous le nom de Test de Turing, visait à déterminer si une machine pouvait converser de manière si convaincante qu’un interrogateur humain ne parviendrait pas à la distinguer d’un autre être humain (Jones & Bergen, 2025a, 1, 2). Depuis sa formulation, ce test n’a cessé de susciter commentaires et controverses, demeurant la référence ultime dans la quête de l’intelligence artificielle et soulevant des questions fondamentales sur la nature même de la pensée et de la conscience (Jones & Bergen, 2025a, 1).
Aujourd’hui, cette quête a pris une nouvelle dimension avec l’avènement fulgurant des grands modèles linguistiques (LLM). Des systèmes comme GPT-4, LLaMa et leurs successeurs ont transformé le paysage de l’intelligence artificielle, capables de générer un langage d’une cohérence et d’une richesse contextuelle sans précédent (Ghassemi & Al-Hussaini, 2025, 2, Gordon, 2025, 3). Leur fluidité, souvent troublante, a ravivé le débat : ces machines se contentent-elles d’imiter l’intelligence humaine avec une habileté déconcertante, ou possèdent-elles une forme d’entendement authentique? Cette évolution technologique nous pousse à reconsidérer nos définitions de l’intelligence et les limites des capacités des machines (Jones & Bergen, 2025a, 1, Gordon, 2025, 3). Le Test de Turing, jadis perçu comme un graal lointain, se retrouve désormais au cœur de cette interrogation, sa pertinence et sa signification étant redéfinies par les performances étonnantes des LLM.
Dans ce contexte effervescent, une étude récente, « Large Language Models Pass the Turing Test », menée par Cameron R. Jones et Benjamin K. Bergen et publiée sur arXiv (arXiv:2503.23674v1), a fait l’effet d’une bombe (Jones & Bergen, 2025b, 4, Jones & Bergen, 2025a, 1). Les auteurs affirment avoir obtenu la « première preuve empirique qu’un système artificiel passe un test de Turing standard à trois parties » (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, AI Explained, 2025, 6, Ethical Psychology, 2025, 7). Le résultat le plus frappant, qui a fait le tour du monde, est que GPT-4.5, lorsqu’il a été invité à adopter une « persona » humaine, a été jugé humain 73 % du temps, soit « significativement plus souvent que les interrogateurs n’ont sélectionné le véritable participant humain » (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, AI Explained, 2025, 6, Ethical Psychology, 2025, 7). Cette affirmation audacieuse soulève des questions profondes sur l’avenir de l’IA et ses implications sociétales. Les auteurs, Cameron R. Jones, doctorant en sciences cognitives à l’Université de Californie à San Diego, spécialisé dans la persuasion et la tromperie des LLM (Jones, n.d., 8, Jones & Bergen, 2025d, 9), et Benjamin K. Bergen, professeur agrégé dans le même département et directeur du Language and Cognition Lab (Bergen, n.d.a, 10, Bergen, n.d.b, 11), apportent à cette recherche une expertise reconnue dans le domaine.
Le présent dossier de fond se propose d’explorer en profondeur cette étude marquante. Loin de se contenter des titres sensationnalistes, cette analyse vise à fournir une compréhension nuancée des méthodes, des résultats et des implications de cette recherche. Une pierre angulaire de cette démarche journalistique est le respect scrupuleux des règles et normes déontologiques québécoises, telles qu’énoncées par le Conseil de presse du Québec (CPQ) (Conseil de presse du Québec, n.d.a, 12, Conseil de presse du Québec, 2017, 13, Conseil de presse du Québec, n.d.b, 14) et la Fédération professionnelle des journalistes du Québec (FPJQ) (Fédération professionnelle des journalistes du Québec, 1996, 15, Fédération professionnelle des journalistes du Québec, n.d., 13). Cela implique un engagement inébranlable envers l’exactitude, l’impartialité, l’intégrité et une vérification rigoureuse des faits (Conseil de presse du Québec, n.d.a, 12, Conseil de presse du Québec, 2017, 13, Office québécois de la langue française, 2017, 16). En outre, pour analyser et interpréter les résultats de l’étude avec la rigueur requise, l’approche s’inspire des principes méthodologiques établis dans les guides de recherche universitaire, notamment ceux de TELUQ, afin de garantir une critique solide et crédible (Anonyme, n.d.a, 17).
L’étude Jones & Bergen : quand les LLM défient la perception humaine
Les objectifs et la conception expérimentale : comment le test de Turing a été appliqué.
L’objectif principal de l’étude de Jones et Bergen était d’évaluer de manière rigoureuse si les modèles linguistiques avancés pouvaient réussir un test de Turing standard à trois parties (Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5). Il s’agissait de déterminer si ces systèmes pouvaient imiter la conversation humaine à un point tel que les interrogateurs humains ne seraient pas en mesure de les distinguer de manière fiable de véritables participants humains (Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5).
La conception expérimentale était méticuleuse, reposant sur deux tests de Turing randomisés, contrôlés et pré-enregistrés, menés auprès de populations indépendantes (Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7). Dans chaque session, des participants, agissant comme interrogateurs, engageaient des conversations textuelles simultanées de cinq minutes avec deux « témoins » : l’un était un être humain, l’autre un système d’IA (Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7). La tâche des interrogateurs était de juger quel partenaire de conversation ils pensaient être humain (AI Explained, 2025, 6, Ethical Psychology, 2025, 7). Cette configuration à « trois parties » est essentielle, car elle reproduit le concept original du « jeu de l’imitation » de Turing, où l’humain et la machine tentent activement de convaincre l’interrogateur de leur humanité (Jones & Bergen, 2025a, 1).
Les acteurs : ELIZA, GPT-4o, LLaMa-3.1, GPT-4.5 et le rôle crucial de la « persona ».
Les chercheurs ont évalué quatre systèmes d’IA distincts, représentant un éventail de capacités conversationnelles, des systèmes anciens basés sur des règles aux LLM de pointe : ELIZA, un chatbot historique servant de référence ; GPT-4o ; LLaMa-3.1-405B ; et GPT-4.5 (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7).
Un élément méthodologique d’une importance capitale fut l’utilisation d’une instruction de « persona humaine » pour certains LLM (Jones & Bergen, 2025a, 1, Ethical Psychology, 2025, 7, The Moonlight, n.d., 18, Perina, 2025, 19). Cette instruction demandait spécifiquement aux modèles d’adopter des caractéristiques humaines détaillées. Par exemple, l’IA devait se comporter comme une « jeune personne introvertie et familière avec la culture internet » (IE University, 2025, 20), ou encore comme un « jeune adulte socialement maladroit, utilisant de l’argot » et même intégrant des « fautes de frappe mineures » pour renforcer le mimétisme du discours humain (The Moonlight, n.d., 18, Perina, 2025, 19). Cette « humanisation stratégique » était conçue pour améliorer la capacité de l’IA à imiter le comportement conversationnel humain (Ethical Psychology, 2025, 7, Perina, 2025, 19). En contraste, d’autres modèles ont reçu des instructions « sans persona », se contentant de directives de base pour convaincre l’interrogateur de leur humanité, servant ainsi de groupe de contrôle pour isoler l’effet de la persona (Jones & Bergen, 2025a, 1, IE University, 2025, 20).
Les résultats chocs : les chiffres qui ont fait le tour du monde.
L’étude a produit des résultats quantitatifs frappants qui ont rapidement capté l’attention internationale. Le « taux de victoire » d’un système était défini comme la proportion de fois où un interrogateur a choisi ce modèle comme le témoin qu’il pensait être humain (Jones & Bergen, 2025a, 1).
Les performances ont été les suivantes :
- GPT-4.5 avec persona : Ce modèle a été jugé humain un étonnant 73 % du temps. Ce taux n’était pas seulement significativement supérieur au hasard (50 %), mais aussi « significativement plus souvent que les interrogateurs n’ont sélectionné le véritable participant humain » (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, AI Explained, 2025, 6, Ethical Psychology, 2025, 7, Perina, 2025, 19, IE University, 2025, 20).
- LLaMa-3.1 avec persona : Ce modèle a atteint un taux de victoire de 56 %, ce qui n’était pas significativement différent du taux auquel les participants humains étaient identifiés comme humains (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7).
- Modèles de référence (ELIZA, GPT-4o) : Ces systèmes plus anciens ou moins adaptés ont obtenu des performances médiocres, avec des taux de victoire de 23 % et 21 % respectivement (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7). Leur performance, significativement inférieure au hasard, a servi de vérification cruciale, confirmant que les interrogateurs et la conception expérimentale étaient suffisamment sensibles pour détecter les différences entre les humains et les machines lorsque celles-ci existaient (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, AI Explained, 2025, 6, Ethical Psychology, 2025, 7).
- Modèles sans persona : GPT-4.5-NO-PERSONA et LLAMA-NO-PERSONA ont obtenu des taux de victoire de 36 % et 38 % respectivement, démontrant l’impact critique de l’instruction de persona sur la performance (Jones & Bergen, 2025a, 1).
Le fait que GPT-4.5-PERSONA ait été plus susceptible d’être cru humain que les véritables participants humains, un résultat répliqué de manière robuste sur deux populations distinctes (étudiants de l’UCSD et participants de Prolific), marque une étape importante dans la recherche en IA (Jones & Bergen, 2025a, 1, IE University, 2025, 20).
Table 1: Performances des LLM au Test de Turing (Synthèse de l’étude Jones & Bergen)
| Modèle AI Testé | Condition de Prompt | Taux de Victoire (Jugé Humain) | Comparaison avec Humains Réels |
| GPT-4.5 | Avec Persona | 73% | Significativement plus souvent |
| LLaMa-3.1-405B | Avec Persona | 56% | Non significativement différent |
| GPT-4.5 | Sans Persona | 36% | Significativement moins souvent |
| LLaMa-3.1-405B | Sans Persona | 38% | Significativement moins souvent |
| ELIZA | N/A | 23% | Significativement moins souvent |
| GPT-4o | N/A | 21% | Significativement moins souvent |
Cette table est essentielle car elle condense les principales conclusions quantitatives de l’étude Jones & Bergen (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, AI Explained, 2025, 6, Ethical Psychology, 2025, 7, Perina, 2025, 19, IE University, 2025, 20) dans un format facilement digestible. Elle permet aux lecteurs de saisir rapidement les résultats fondamentaux, de comparer les performances des différents LLM dans diverses conditions (avec/sans persona) et de comprendre pourquoi le chiffre de 73 % pour GPT-4.5-Persona est si significatif par rapport aux autres modèles et à la performance humaine. Cette représentation visuelle renforce l’affirmation centrale de l’étude et prépare le terrain pour un examen critique plus approfondi.
Premières conclusions des chercheurs : une IA « indistinguable » de l’humain.
Les auteurs concluent que ces résultats constituent la première preuve empirique qu’un système artificiel, en l’occurrence GPT-4.5 et LLaMa-3.1 lorsqu’ils sont incités à adopter une persona, réussit un test de Turing standard à trois parties (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7). Leur interprétation est que le succès au test signifie que les interrogateurs n’ont pas pu distinguer de manière fiable l’IA d’un être humain (Jones & Bergen, 2025a, 1). Ils soulignent que ces résultats ont des implications significatives pour les débats sur le type d’intelligence dont font preuve les grands modèles linguistiques, ainsi que sur les impacts sociaux et économiques que ces systèmes sont susceptibles d’avoir (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4).
Analyse critique et interprétation des résultats : décrypter la « victoire »
Pour comprendre pleinement la portée de l’étude de Jones et Bergen, il est impératif de soumettre leurs découvertes à une analyse critique rigoureuse. Cette démarche s’appuie sur les principes de la méthodologie de recherche universitaire, en s’inspirant notamment des lignes directrices de TELUQ pour l’analyse et l’interprétation des résultats de recherche, telles que détaillées dans des documents comme « Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4 » (Anonyme, n.d.a, 17). Bien que certains liens directs vers les ressources TELUQ n’aient pas été accessibles (Anonyme, n.d.b, 21, Anonyme, n.d.c, 22), le contenu disponible via des sources alternatives (Anonyme, n.d.a, 17) et les descriptions de cours (Université TÉLUQ, n.d., 23) fournissent un cadre solide pour cette évaluation.
Cadre d’analyse méthodologique (inspiré de TELUQ)
L’analyse des résultats de recherche, comme le souligne le cadre de TELUQ, implique des opérations de segmentation, de classement, de regroupement et de comparaison des informations recueillies pour en dégager un sens et des conclusions (Anonyme, n.d.a, 17). L’objectif est d’identifier les données significatives à la lumière des objectifs de recherche et d’établir des relations entre elles, formant ainsi la base de l’interprétation (Anonyme, n.d.a, 17).
Table 2: Principes d’Analyse et d’Interprétation de la Recherche (inspiré de TELUQ)
| Phase d’Analyse | Description et Objectif | Critères de Qualité Associés | Pertinence pour l’étude Jones & Bergen |
| 1. Identification des informations à traiter | Transcrire, codifier, catégoriser toutes les données pertinentes (participants, notes, etc.) (Anonyme, n.d.a, 17). | Exhaustivité, Fidélité des données | S’assurer que toutes les interactions et jugements des interrogateurs ont été systématiquement capturés et préparés pour l’analyse. |
| 2. Analyse des données | Présenter les données quantitatives (statistiques, fréquences, analyses de variance) et qualitatives (sens des catégories, relations) (Anonyme, n.d.a, 17). | Rigueur statistique, Pertinence des catégories, Cohérence | Évaluer la robustesse des « taux de victoire » et l’analyse des stratégies des interrogateurs. |
| 3. Interprétation ou discussion | Donner un sens aux résultats observés, identifier les éléments nouveaux, dégager les éléments déjà observés, établir la signification théorique et pratique (portée) (Anonyme, n.d.a, 17). | Crédibilité (« Validité Interne ») (Tecfa, Université de Genève, n.d., 24), Transférabilité (« Validité Externe ») (Tecfa, Université de Genève, n.d., 24), Fiabilité (« Dépendabilité ») (Méthodo Recherche, 2018, 25), Confirmabilité (Fortin, 2019, 26) | Apprécier si les conclusions des auteurs sont pleinement justifiées par les données et leurs implications. |
| 4. Recommandations (Prospective) | Suggérer des pistes pour approfondir les résultats et améliorer les méthodologies futures (Anonyme, n.d.a, 17). | Pertinence, Faisabilité | Évaluer la pertinence des pistes de recherche future proposées par les auteurs et la communauté scientifique. |
Cette table est précieuse car l’utilisateur a explicitement demandé de s’inspirer des références de TELUQ pour l’analyse et l’interprétation. En décrivant les principes dérivés de TELUQ (Anonyme, n.d.a, 17), le rapport démontre de manière transparente la rigueur méthodologique appliquée à sa propre analyse. Elle sert d’outil de méta-analyse, montrant comment le rapport journalistique évalue de manière critique l’article scientifique. Cela renforce le caractère « expert » du rapport et la crédibilité de l’analyse, en établissant un pont entre la rigueur académique et la profondeur journalistique. Elle aide également le lecteur à comprendre les critères selon lesquels la validité et les implications de l’étude sont évaluées.
Évaluation de la validité interne et externe (crédibilité, transférabilité, confirmabilité).
La « crédibilité » (ou validité interne) de l’étude de Jones et Bergen est renforcée par plusieurs aspects de sa conception. Le fait que les tests soient randomisés, contrôlés et pré-enregistrés (Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7) réduit les risques de biais et augmente la confiance dans la relation de cause à effet entre les variables étudiées. L’inclusion d’ELIZA comme vérification de manipulation est particulièrement pertinente (Jones & Bergen, 2025a, 1). ELIZA, un chatbot historique, a obtenu un taux de victoire significativement inférieur au hasard (23 %) (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7). Cette performance très faible démontre que les interrogateurs et la conception expérimentale étaient suffisamment sensibles pour détecter les différences entre les humains et les machines lorsque ces différences étaient prononcées. Cela renforce la conviction que le succès de GPT-4.5 et LLaMa-3.1 n’était pas dû à un simple hasard ou à une incapacité des interrogateurs à distinguer les entités. Sans cette vérification, il aurait été difficile d’affirmer que les résultats supérieurs des LLM étaient réellement le fruit de leur capacité de mimétisme et non d’une faille méthodologique.
Cependant, des questions subsistent quant à la profondeur de l’interaction. La limite de conversation de cinq minutes (Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7) pourrait avoir masqué des limitations plus profondes des LLM, qui se manifestent souvent lors d’échanges plus longs ou plus complexes. De plus, la dépendance à des juges non formés (Ghassemi & Al-Hussaini, 2025, 2) pourrait introduire une variabilité dans les critères d’évaluation implicites utilisés par les interrogateurs. L’utilisation de la « persona », bien qu’efficace, peut être perçue comme une amélioration artificielle qui oriente le test vers la tromperie plutôt que vers une capacité brute de l’IA (Ghassemi & Al-Hussaini, 2025, 2).
Concernant la « transférabilité » (ou validité externe), l’étude a répliqué ses résultats sur deux populations indépendantes (étudiants de l’UCSD et participants de Prolific) (Jones & Bergen, 2025a, 1, Ethical Psychology, 2025, 7), ce qui renforce la généralisabilité des conclusions à des groupes similaires. Cependant, la nature limitée des interactions (5 minutes, texte uniquement) (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4) soulève des doutes quant à la transférabilité des résultats à des scénarios du monde réel impliquant des conversations plus longues, des interactions multimodales (voix, vidéo) ou des contextes culturels différents (Ghassemi & Al-Hussaini, 2025, 2). Le succès des LLM dans ce test pourrait être spécifique à des conditions très contraintes, ne reflétant pas nécessairement leur capacité à passer un test de Turing dans un environnement plus naturel et complexe.
Enfin, la « confirmabilité » de l’étude est bien établie. Le fait que l’étude ait été pré-enregistrée (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Jones & Bergen, 2025c, 5, Ethical Psychology, 2025, 7) et que le document soit disponible en prépublication (Jones, n.d., 8) témoigne d’un engagement envers la transparence scientifique. Ces pratiques permettent à d’autres chercheurs d’examiner en détail la méthodologie, les données et les conclusions, facilitant ainsi la réplication et la vérification des résultats.
La rigueur de la collecte et du traitement des données (quantitatives et qualitatives).
L’étude s’appuie principalement sur des données quantitatives, notamment les « taux de victoire » des différents modèles, exprimés en pourcentages (Jones & Bergen, 2025a, 1). Les analyses statistiques, impliquant des z-scores et des p-values (Jones & Bergen, 2025a, 1), sont utilisées pour déterminer la signification statistique des résultats par rapport au hasard. Cette approche quantitative permet une comparaison claire et objective des performances des modèles.
Cependant, l’interprétation des résultats ne peut se limiter aux chiffres. L’étude a également exploré les aspects qualitatifs des interactions, notamment les stratégies utilisées par les interrogateurs et les indices (sociaux, émotionnels, linguistiques) sur lesquels ils se sont basés pour prendre leurs décisions (AI Explained, 2025, 6, The Moonlight, n.d., 18, Perina, 2025, 19). Cette dimension qualitative est essentielle pour comprendre
pourquoi les humains ont été trompés, et pas seulement s’ils l’ont été.
L’interprétation des résultats à la lumière des objectifs initiaux et du cadre théorique.
Les auteurs interprètent le succès des LLM comme une preuve de leur capacité à être « indistinguables » des humains dans le cadre du test de Turing (Jones & Bergen, 2025a, 1). Cette interprétation est directement liée à l’objectif initial du test de Turing, qui est de mesurer la « substituabilité » d’un système, c’est-à-dire sa capacité à remplacer une personne réelle sans que l’interlocuteur ne s’en aperçoive (Jones & Bergen, 2025a, 1). Les résultats de l’étude contribuent ainsi au débat en cours sur la nature de l’intelligence exhibée par les LLM (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4), suggérant qu’ils ont atteint un niveau de performance conversationnelle qui brouille les lignes entre l’humain et la machine.
Les limites du test de Turing face aux LLM :
Le débat fondamental : mimétisme ou véritable intelligence?
Le débat fondamental soulevé par cette étude ne porte pas tant sur la question de savoir si les LLM ont « passé » le test, mais plutôt sur ce que cette « réussite » signifie réellement. L’étude démontre principalement un mimétisme avancé et une capacité de tromperie sophistiquée, plutôt qu’une preuve d’une compréhension véritable ou d’une conscience (Ghassemi & Al-Hussaini, 2025, 2, Gordon, 2025, 3, IE University, 2025, 20). La critique centrale du Test de Turing est qu’il évalue avant tout le « talent d’une machine pour la tromperie plutôt qu’une compréhension profonde » (Gordon, 2025, 3). Les LLM ont réussi en « imitant les bizarreries et les erreurs humaines » (Gordon, 2025, 3) et en adoptant des personas spécifiques (Perina, 2025, 19, IE University, 2025, 20). Cela indique que le succès au test est une victoire de la simulation comportementale plutôt qu’une équivalence cognitive. Les LLM, souvent décrits comme des « perroquets statistiques mimant la forme sans compréhension sémantique » (Gordon, 2025, 3), excellent à produire des
sorties convaincantes sans nécessairement posséder des états internes ou une compréhension humaine. Cela signifie que le test, sous sa forme actuelle, pourrait mesurer l’efficacité d’un imitateur sophistiqué plutôt que la véritable intelligence.
L’influence des « prompts » et la question de l’ingénierie sociale.
Le rôle crucial de la « persona » est indéniable (Jones & Bergen, 2025a, 1, AI Explained, 2025, 6, Ethical Psychology, 2025, 7, Perina, 2025, 19, IE University, 2025, 20). Sans cette instruction spécifique, les performances des modèles ont chuté de manière significative (Jones & Bergen, 2025a, 1). Cela met en lumière l’importance de l’ingénierie des « prompts » et de ce qui peut être qualifié d’« ingénierie sociale » dans la capacité de l’IA à paraître humaine (The Moonlight, n.d., 18, Perina, 2025, 19). Le prompt n’a pas rendu GPT-4.5 plus intelligent ; il l’a rendu « plus humain » en lui conférant des caractéristiques comme l’hésitation, l’utilisation d’argot et un charme maladroit (Perina, 2025, 19). Cette capacité à adapter le comportement de l’IA en fonction de scénarios spécifiques est précisément ce qui la rend si flexible et, apparemment, si apte à passer pour humaine (Jones & Bergen, 2025a, 1).
Les failles persistantes des LLM : cohérence à long terme, « hallucinations », compréhension du monde réel.
Malgré leur succès au test de Turing, les LLM présentent encore des limitations bien connues. Ils manquent d’une véritable compréhension du monde, d’expériences sensorielles directes ou d’une vie humaine vécue (Gordon, 2025, 3). Ils sont sujets aux « hallucinations », produisant des déclarations factuellement fausses avec une confiance totale (Gordon, 2025, 3). De plus, ils peinent à maintenir une cohérence à long terme ou une personnalité constante sur des dialogues prolongés (Ghassemi & Al-Hussaini, 2025, 2, Gordon, 2025, 3). Ils peuvent également trébucher sur des raisonnements de bon sens élémentaires ou des pièges logiques (Gordon, 2025, 3). La durée limitée du test (cinq minutes) (Jones & Bergen, 2025b, 4) pourrait avoir masqué ces lacunes, car les erreurs et les incohérences des LLM sont plus susceptibles d’apparaître lors d’interactions plus longues et plus complexes (Ghassemi & Al-Hussaini, 2025, 2). Le cadre contraint du test, axé sur des échanges courts et textuels, joue aux forces des LLM (générer des réponses plausibles rapidement) tout en dissimulant leurs faiblesses, ce qui peut conduire à une perception exagérée de leur intelligence « humaine ».
La subjectivité des juges humains et leurs biais.
Les interrogateurs humains sont faillibles (Jones & Bergen, 2025a, 1) et peuvent être influencés par des facteurs subjectifs. L’étude a montré que les juges se sont souvent fiés à l’« ambiance », au « ton émotionnel, à l’argot et au flux » de la conversation plutôt qu’à des questions factuelles ou logiques pour prendre leur décision (Perina, 2025, 19). Cette observation s’aligne avec l’« effet ELIZA » (The Moonlight, n.d., 18), où les utilisateurs attribuent des qualités humaines même à des systèmes rudimentaires. Le test de Turing, en particulier avec les LLM modernes, se transforme ainsi moins en une évaluation de l’intelligence de la machine qu’en une évaluation de la capacité de discernement humain et de sa vulnérabilité à un mimétisme sophistiqué (Perina, 2025, 19). Cette dynamique suggère que l’IA, en excellant dans l’imitation de l’empathie, exploite les biais cognitifs humains et leur dépendance aux indices sociaux. Cela peut conduire à une préférence pour les « reflets » plutôt que pour les « relations » (Perina, 2025, 19), augmentant la vulnérabilité à la tromperie de l’IA dans des scénarios du monde réel. La capacité des évaluateurs humains à distinguer l’IA des humains est également influencée par des facteurs tels que l’âge et l’expérience préalable avec l’IA (Ghassemi & Al-Hussaini, 2025, 2).
Notre engagement journalistique : rigueur et vérification des faits à la Québécoise
Dans la production de ce dossier de fond, le respect des normes journalistiques québécoises a été une priorité absolue, garantissant la fiabilité et l’intégrité de l’information présentée.
Les piliers de la déontologie journalistique québécoise : exactitude, impartialité, intégrité.
Les principes fondamentaux de la déontologie journalistique au Québec, tels qu’énoncés par le Conseil de presse du Québec (CPQ) (Conseil de presse du Québec, n.d.a, 12, Conseil de presse du Québec, 2017, 13) et la Fédération professionnelle des journalistes du Québec (FPJQ) (Fédération professionnelle des journalistes du Québec, 1996, 15), ont guidé chaque étape de cette enquête. L’
exactitude est primordiale : il s’agit d’une fidélité inébranlable à la réalité, exigeant une collecte rigoureuse et une vérification minutieuse des informations, ainsi qu’une correction diligente de toute erreur (Conseil de presse du Québec, n.d.a, 12, Conseil de presse du Québec, 2017, 13, Fédération professionnelle des journalistes du Québec, 1996, 15). L’
impartialité est le deuxième pilier, se traduisant par une absence de parti pris en faveur d’un point de vue particulier, garantissant une présentation équilibrée des faits (Conseil de presse du Québec, n.d.a, 12, Conseil de presse du Québec, 2017, 13, Fédération professionnelle des journalistes du Québec, 1996, 15). Enfin, l’
intégrité exige des journalistes qu’ils évitent tout conflit d’intérêts, réel ou apparent, et qu’ils maintiennent leur indépendance tant dans leur vie professionnelle que personnelle (Conseil de presse du Québec, n.d.a, 12, Conseil de presse du Québec, 2017, 13, Fédération professionnelle des journalistes du Québec, 1996, 15). La « rigueur de raisonnement » est également une qualité essentielle attendue (Conseil de presse du Québec, 2017, 13).
Notre processus de vérification des faits : comment nous avons scruté l’étude et ses sources.
La vérification des faits pour ce rapport a été un processus méticuleux. Les affirmations de Jones et Bergen ont été systématiquement recoupées avec d’autres résumés et critiques de leur travail, provenant de sources académiques et journalistiques reconnues (Ghassemi & Al-Hussaini, 2025, 2, Gordon, 2025, 3, Jones & Bergen, 2025c, 5, AI Explained, 2025, 6, Ethical Psychology, 2025, 7, The Moonlight, n.d., 18, Perina, 2025, 19, IE University, 2025, 20, Cronin, 2025, 27, Jones & Bergen, 2025d, 9). La crédibilité des auteurs, Cameron R. Jones et Benjamin K. Bergen, a été établie par la vérification de leurs affiliations académiques (Université de Californie à San Diego, Département de sciences cognitives) et de leurs publications antérieures (Jones, n.d., 8, Bergen, n.d.a, 10, Bergen, n.d.b, 11).
Conformément aux directives de vérification des faits, une attention particulière a été portée à l’identification des « indices » pouvant signaler une désinformation, tels que le contenu déclenchant une réaction émotionnelle, des affirmations étonnantes ou un sensationnalisme (Gouvernement du Canada, n.d., 28). Le rapport a cherché à éviter ces pièges, même si le sujet est intrinsèquement spectaculaire. Un défi pratique a été l’inaccessibilité de certains liens TELUQ originaux (Anonyme, n.d.b, 21, Anonyme, n.d.c, 22). Pour surmonter cet obstacle, des sources alternatives accessibles fournissant le même contenu méthodologique (notamment le document « Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4 » (Anonyme, n.d.a, 17)) ont été utilisées, démontrant la persévérance dans la recherche d’informations fiables.
La distinction essentielle entre faits, analyse et opinion dans ce dossier.
En accord avec les normes journalistiques québécoises, ce rapport établit une distinction claire entre les faits, l’analyse et l’opinion (Conseil de presse du Québec, n.d.a, 12, Conseil de presse du Québec, 2017, 13, Fédération professionnelle des journalistes du Québec, 1996, 15). La présentation de la méthodologie et des résultats de l’étude Jones et Bergen relève du journalisme factuel. L’évaluation critique de l’étude, l’interprétation de ses implications et la discussion des limites du Test de Turing constituent l’analyse. Bien que cette analyse soit approfondie et nuancée, elle s’abstient d’exprimer des biais personnels, visant plutôt à présenter une vue équilibrée des débats en cours sur l’IA et le Test de Turing.
Les considérations éthiques : éviter le sensationnalisme, respecter la dignité.
Le sujet de l’IA « passant » le Test de Turing est par nature sensationnel. Cependant, ce rapport s’est efforcé d’éviter le « sensationnalisme » (Conseil de presse du Québec, n.d.a, 12) en se concentrant sur une analyse rigoureuse plutôt que sur une amplification des titres. Les implications éthiques de la capacité de l’IA à tromper, notamment les risques de manipulation sociale et de désinformation (Jones & Bergen, 2025a, 1, Gordon, 2025, 3, IE University, 2025, 20), sont abordées avec la gravité qu’elles méritent, mais sans alarmisme excessif. Le rôle du média est de rapporter ces risques avec exactitude, tout en respectant le principe de « respect des personnes et des groupes » (Conseil de presse du Québec, n.d.a, 12), assurant que la discussion reste objective et ne perpétue pas de stéréotypes nuisibles concernant l’IA ou ses développeurs. La vérification des faits dans ce contexte va au-delà de la simple validation des chiffres ; elle englobe l’évaluation de la validité des affirmations scientifiques elles-mêmes, ce qui nécessite l’application du cadre d’analyse de la recherche universitaire. Cela représente une forme avancée de vérification des faits, où le journaliste évalue la rigueur scientifique de l’étude, comblant ainsi le fossé entre le journalisme traditionnel et l’examen par les pairs.
Implications sociétales et éthiques : un avenir redéfini par l’IA?
Le succès des LLM au Test de Turing, même sous des conditions spécifiques, n’est pas qu’une prouesse technologique ; il annonce des transformations profondes pour la société, soulevant des questions éthiques et pratiques urgentes.
L’impact sur l’emploi et l’automatisation des interactions humaines.
La capacité des LLM à passer le Test de Turing suggère qu’ils peuvent « se substituer à des personnes dans des interactions courtes sans que personne ne puisse le dire » (IE University, 2025, 20). Cette « substituabilité » (Jones & Bergen, 2025a, 1) a des implications directes pour l’automatisation de nombreux emplois, en particulier ceux qui impliquent des interfaces conversationnelles, le service client, ou d’autres formes d’interaction humaine textuelle. Les auteurs de l’étude eux-mêmes soulignent les « impacts sociaux et économiques » potentiels de ces systèmes (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4). Le passage d’une IA d’un simple outil à un interlocuteur crédible marque un changement fondamental dans la nature des interactions humaines-IA, passant d’une relation purement utilitaire à une relation potentiellement sociale ou même émotionnelle (Perina, 2025, 19).
Les risques accrus de désinformation et de manipulation sociale.
La capacité des systèmes d’IA à imiter avec succès des personnes entraîne des « risques connexes », notamment la persuasion et la tromperie (Jones & Bergen, 2025d, 9). Des agents basés sur les LLM pourraient contribuer à la « désinformation, aux escroqueries ou être utilisés de manière malveillante à grande échelle », en particulier sur les forums en ligne et les plateformes de médias sociaux (Jones & Bergen, 2025a, 1, Gordon, 2025, 3, Jones & Bergen, 2025d, 9). Le fait que les humains se fient souvent à l’« ambiance » et aux indices émotionnels plutôt qu’à la logique pour identifier leurs interlocuteurs (Perina, 2025, 19) les rend particulièrement vulnérables à cette « empathie artificielle » (Perina, 2025, 19). Si les LLM peuvent imiter les humains de manière convaincante, même en les surpassant dans la perception humaine (Jones & Bergen, 2025a, 1, IE University, 2025, 20), et si les humains se fient plus aux émotions qu’à la logique, cela crée un terrain fertile pour la tromperie généralisée. Cet impact sociétal s’étend au-delà du déplacement d’emplois pour inclure une érosion potentielle de la confiance dans les interactions numériques.
La redéfinition de l’intelligence et de l’identité humaine à l’ère de l’IA.
Le passage du Test de Turing par une IA relance des questions philosophiques profondes : cela signifie-t-il que l’IA possède une conscience ou une capacité de « penser »? (IE University, 2025, 20). Bien que le test soit critiqué pour évaluer principalement le « mimétisme trompeur » plutôt que la « véritable intelligence » (Ghassemi & Al-Hussaini, 2025, 2, Gordon, 2025, 3), la capacité de l’IA à imiter de manière convaincante la conversation humaine remet en question notre compréhension de ce que signifie être humain et de ce qui constitue l’intelligence (Perina, 2025, 19, IE University, 2025, 20). C’est une confrontation avec l’idée que la simulation de l’empathie pourrait non seulement nous égaler, mais nous surpasser (Perina, 2025, 19).
Les défis réglementaires et la nécessité d’adapter les cadres d’évaluation de l’IA.
Les résultats de l’étude soulignent la nécessité d’une adaptation continue du Test de Turing et d’autres méthodes d’évaluation de l’IA à mesure que la technologie progresse (Ghassemi & Al-Hussaini, 2025, 2, Ghassemi & Al-Hussaini, 2025, 29). Il est impératif de développer de nouveaux cadres d’évaluation, y compris des tests multimodaux, des interactions à plus long terme, et des techniques d’atténuation des biais cognitifs chez les évaluateurs humains (Ghassemi & Al-Hussaini, 2025, 2). Les cadres réglementaires actuels, souvent en retard sur les avancées technologiques, sont probablement insuffisants. Le « passage » du Test de Turing par les LLM crée une urgence pour le développement de
nouveaux cadres adaptatifs pour la gouvernance de l’IA et l’éducation du public. Cela inclut des méthodologies de test affinées, des politiques pour lutter contre la désinformation et l’ingénierie sociale (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025d, 9), et des initiatives d’alphabétisation générale en IA. L’impact sociétal ne se limite pas à ce que l’IA « peut faire », mais à la manière dont la société humaine « s’adapte » à ses nouvelles capacités.
Conclusion : au-delà du test, vers une IA responsable et comprise
L’étude de Jones et Bergen marque une étape indéniable dans l’évolution de l’intelligence artificielle. Les grands modèles linguistiques, en particulier GPT-4.5 avec une persona spécifiquement conçue, ont démontré une capacité sans précédent à passer le Test de Turing, remettant en question la perception humaine de l’intelligence (Jones & Bergen, 2025a, 1, Jones & Bergen, 2025b, 4, Ethical Psychology, 2025, 7). Cette prouesse soulève une tension fondamentale : s’agit-il d’une véritable intelligence ou d’un mimétisme sophistiqué, et quelle est la signification de cette distinction pour notre compréhension de l’IA? (Ghassemi & Al-Hussaini, 2025, 2, Gordon, 2025, 3). Les implications sociétales sont vastes, allant de l’automatisation potentielle de certains emplois aux risques accrus de désinformation et à la redéfinition de la nature même de l’interaction humaine-IA (Jones & Bergen, 2025a, 1, Perina, 2025, 19, IE University, 2025, 20).
Le Test de Turing, loin d’être obsolète, doit évoluer pour rester un indicateur pertinent des capacités de l’IA (Ghassemi & Al-Hussaini, 2025, 2, Ghassemi & Al-Hussaini, 2025, 29). La recherche future devra explorer des tests multimodaux, des interactions prolongées, l’implication d’interrogateurs experts, et une meilleure compréhension des biais cognitifs humains dans l’évaluation de l’IA (Ghassemi & Al-Hussaini, 2025, 2). Il est crucial de comprendre
comment les humains sont trompés, et pas seulement si ils le sont. Le « passage » du Test de Turing par les LLM n’est pas seulement une réalisation scientifique, mais un point d’inflexion majeur pour le public. Les discussions qui en découlent se concentrent immédiatement sur les préoccupations éthiques (tromperie, manipulation (Gordon, 2025, 3, Perina, 2025, 19)) et les impacts sociétaux (automatisation des emplois, désinformation (Jones & Bergen, 2025a, 1, IE University, 2025, 20)). Le Test de Turing, quelle que soit sa validité philosophique en tant que mesure de l’« intelligence », sert de puissant catalyseur pour des discussions urgentes sur l’éthique de l’IA, la réglementation et la préparation de la société. Son poids symbolique force la société à faire face aux implications pratiques d’une IA de plus en plus humaine.
Dans ce contexte, un dialogue public éclairé et une éducation continue sont essentiels. Le journalisme responsable, ancré dans les principes éthiques rigoureux du Québec (Conseil de presse du Québec, n.d.a, 12, Conseil de presse du Québec, 2017, 13, Gouvernement du Canada, n.d., 28, Fédération professionnelle des journalistes du Québec, 1996, 15), joue un rôle crucial en favorisant cette compréhension et en aidant le public à naviguer dans le futur complexe de la coexistence humain-IA. Si les LLM peuvent imiter de manière convaincante les humains, même en les surpassant dans la perception humaine (Jones & Bergen, 2025a, 1, IE University, 2025, 20), et si les humains se fient plus à l’« ambiance » qu’à la logique (Perina, 2025, 19), cela implique un changement fondamental. La charge de la preuve pourrait désormais incomber aux humains pour prouver qu’ils ne sont
pas des IA, ou du moins pour faire preuve d’un scepticisme accru. Cela a des implications profondes pour l’identité numérique, la sécurité et la confiance, suggérant un avenir où les hypothèses par défaut sur les interlocuteurs pourraient passer de « humain jusqu’à preuve du contraire » à « IA jusqu’à preuve du contraire ».
Références et sources consultées
AI Explained. (2025, 23 avril). GPT-4.5 Passes the Turing Test [Vidéo]. YouTube. https://www.youtube.com/watch?v=bVHMIlV5r1M
Anonyme. (n.d.a). Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4. Scribd.(https://fr.scribd.com/document/844490109/Analyser-et-interpreter-les-resultats-de-la-recherche-ESSAI-1-2-3-et-4)
Anonyme. (n.d.b). Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4. Scribd.(https://fr.scribd.com/document/844490109/Analyser-et-interpreter-les-resultats-de-la-recherche-ESSAI-1-2-3-et-4)
Anonyme. (n.d.c). Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4. Scribd.(https://fr.scribd.com/document/844490109/Analyser-et-interpreter-les-resultats-de-la-recherche-ESSAI-1-2-3-et-4)
Bergen, B. K. (n.d.a). Benjamin K. Bergen. Edge.org. https://www.edge.org/memberbio/benjamin_k_bergen
Bergen, B. K. (n.d.b). Benjamin K. Bergen. UC San Diego. https://pages.ucsd.edu/~bkbergen/
Conseil de presse du Québec. (n.d.a). Porter plainte: Guide et formulaire. Conseil de presse du Québec. https://conseildepresse.qc.ca/porter-plainte/guide-formulaire/
Conseil de presse du Québec. (2017). Guide de déontologie journalistique. Conseil de presse du Québec. https://conseildepresse.qc.ca/wp-content/uploads/2017/12/Guide-de-deontologie-journalistique_CPQ.pdf
Conseil de presse du Québec. (n.d.b). Accueil – Conseil de presse du Québec. Conseil de presse du Québec. https://conseildepresse.qc.ca/
Cronin, S. (2025, 23 avril). LLMs Pass the Turing Test. Siobhan K. Cronin. https://siobhankcronin.com/posts/llm_turing/
Ethical Psychology. (2025, 2 avril). Large Language Models Pass the Turing Test. Ethical Psychology. https://www.ethicalpsychology.com/2025/04/large-language-models-pass-turing-test.html
Fédération professionnelle des journalistes du Québec. (1996). Code of Ethics. Accountable Journalism. https://accountablejournalism.org/ethics-codes/canada-professional-federation-of-quebec-journalists
Fortin, M.-J. (2019). Les critères de qualité en recherche qualitative : un état des lieux. Recherches Qualitatives, 38(1), 118-132. https://www.erudit.org/fr/revues/rechqual/2019-v38-n1-rechqual04566/1059647ar.pdf
Ghassemi, M., & Al-Hussaini, A. (2025). The Turing Test: A Re-evaluation in the Age of LLMs. arXiv. https://arxiv.org/abs/2505.02558
Ghassemi, M., & Al-Hussaini, A. (2025). The Turing Test: A Re-evaluation in the Age of LLMs. arXiv. https://arxiv.org/html/2505.02558v1
Gordon, P. (2025, 24 avril). Can Modern LLMs Pass the Turing Test? Medium. https://medium.com/@pavelgordon/can-modern-llms-pass-the-turing-test-cdf627d13938
Gouvernement du Canada. (n.d.). Désinformation en ligne. Gouvernement du Canada. https://www.canada.ca/fr/campagne/desinformation-enligne.html
IE University. (2025, 24 avril). Has AI passed the Turing Test? Uncover IE. https://www.ie.edu/uncover-ie/has-ai-passed-the-turing-test-science-technology/
Jones, C. R. (n.d.). Cameron Jones – Cognitive Science PhD Student. https://camrobjones.com/
Jones, C. R., & Bergen, B. K. (2025a). Large Language Models Pass the Turing Test (v1). arXiv. https://arxiv.org/html/2503.23674v1
Jones, C. R., & Bergen, B. K. (2025b). Large Language Models Pass the Turing Test. arXiv. https://arxiv.org/abs/2503.23674
Jones, C. R., & Bergen, B. K. (2025c). Large Language Models Pass the Turing Test. S-RSA. https://s-rsa.com/index.php/agi/article/view/14697
Jones, C. R., & Bergen, B. K. (2025d). GPT-4 is Judged More Human than Humans in Displaced and Inverted Turing Tests. ACL Anthology. https://aclanthology.org/2025.genaidetect-1.7.pdf
Méthodo Recherche. (2018, 14 mars). 4 indicateurs de la fidélité et la validité d’une étude qualitative [Vidéo]. YouTube.(https://www.youtube.com/watch?v=m2Dickr9Dgo)
Office québécois de la langue française. (2017). Vérification des faits | GDT. Vitrine linguistique. https://vitrinelinguistique.oqlf.gouv.qc.ca/fiche-gdt/fiche/26542752/verification-des-faits
Perina, K. (2025, 2 avril). AI Beat the Turing Test by Being a Better Human. Psychology Today. https://www.psychologytoday.com/us/blog/the-digital-self/202504/ai-beat-the-turing-test-by-being-a-better-human
Tecfa, Université de Genève. (n.d.). La validité dans une analyse qualitative. Tecfa, Université de Genève.(https://tecfa.unige.ch/guides/methodo/IDHEAP/slides/methodo-slides-111.html)
The Moonlight. (n.d.). People cannot distinguish GPT-4 from a human in a Turing test. The Moonlight. https://www.themoonlight.io/en/review/people-cannot-distinguish-gpt-4-from-a-human-in-a-turing-test
Université TÉLUQ. (n.d.). EDU 6450 – Essai I – Cours en ligne. Université TÉLUQ.(https://www.teluq.ca/site/etudes/offre/cours/TELUQ/EDU%206450/)
Sources des citations
- Large Language Models Pass the Turing Test – arXiv, consulté le août 2, 2025, https://arxiv.org/html/2503.23674v1
- The Turing Test is More Relevant Than Ever – arXiv, consulté le août 2, 2025, https://arxiv.org/html/2505.02558v1
- Can Modern LLMs Pass the Turing Test? | by Pavel Gordon – Medium, consulté le août 2, 2025, https://medium.com/@pavelgordon/can-modern-llms-pass-the-turing-test-cdf627d13938
- [2503.23674] Large Language Models Pass the Turing Test – arXiv, consulté le août 2, 2025, https://arxiv.org/abs/2503.23674
- Review: Large Language Models Pass the Turing Test, consulté le août 2, 2025, https://s-rsa.com/index.php/agi/article/view/14697
- UC San Diego: Large Language Models Pass the Turing Test – YouTube, consulté le août 2, 2025, https://www.youtube.com/watch?v=bVHMIlV5r1M
- Large Language Models Pass the Turing Test – Ethics and Psychology, consulté le août 2, 2025, https://www.ethicalpsychology.com/2025/04/large-language-models-pass-turing-test.html
- Cameron Jones – Cognitive Science PhD Student, consulté le août 2, 2025, https://camrobjones.com/
- GPT-4 is Judged More Human than Humans in Displaced and Inverted Turing Tests – ACL Anthology, consulté le août 2, 2025, https://aclanthology.org/2025.genaidetect-1.7.pdf
- Benjamin K. Bergen | Edge.org, consulté le août 2, 2025, https://www.edge.org/memberbio/benjamin_k_bergen
- Benjamin K. Bergen, consulté le août 2, 2025, https://pages.ucsd.edu/~bkbergen/
- Guide de déontologie journalistique – Conseil de presse du Québec, consulté le août 2, 2025, https://conseildepresse.qc.ca/porter-plainte/guide-formulaire/
- Guide de déontologie journalistique du Conseil de presse du Québec, consulté le août 2, 2025, https://conseildepresse.qc.ca/wp-content/uploads/2017/12/Guide-de-deontologie-journalistique_CPQ.pdf
- Conseil de presse du Québec: Accueil, consulté le août 2, 2025, https://conseildepresse.qc.ca/
- Quebec Journalists Code of Ethics – Accountable Journalism, consulté le août 2, 2025, https://accountablejournalism.org/ethics-codes/canada-professional-federation-of-quebec-journalists
- vérification des faits | GDT – Vitrine linguistique – Gouvernement du Québec, consulté le août 2, 2025, https://vitrinelinguistique.oqlf.gouv.qc.ca/fiche-gdt/fiche/26542752/verification-des-faits
- Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4 | PDF – Scribd, consulté le août 2, 2025, https://fr.scribd.com/document/844490109/Analyser-et-interpreter-les-resultats-de-la-recherche-ESSAI-1-2-3-et-4
- [Literature Review] People cannot distinguish GPT-4 from a human in a Turing test, consulté le août 2, 2025, https://www.themoonlight.io/en/review/people-cannot-distinguish-gpt-4-from-a-human-in-a-turing-test
- AI Beat the Turing Test by Being a Better Human | Psychology Today, consulté le août 2, 2025, https://www.psychologytoday.com/us/blog/the-digital-self/202504/ai-beat-the-turing-test-by-being-a-better-human
- The AI Turing test: Where are we headed? – IE, consulté le août 2, 2025, https://www.ie.edu/uncover-ie/has-ai-passed-the-turing-test-science-technology/
- consulté le décembre 31, 1969, https://essai-1234.teluq.ca/teluqDownload.php?file=2017/08/EDU6450_outil_18.pdf
- consulté le décembre 31, 1969, https://essai-1234.teluq.ca/phases-recherche/analyser-interpreter-resultats-recherche/
- EDU 6450 – Essai I – Cours en ligne | Université TÉLUQ – Formation à distance, consulté le août 2, 2025, https://www.teluq.ca/site/etudes/offre/cours/TELUQ/EDU%206450/
- 26.4 La validité dans une analyse qualitative – TECFA, consulté le août 2, 2025, https://tecfa.unige.ch/guides/methodo/IDHEAP/slides/methodo-slides-111.html
- 4 indicateurs de la fidélité et la validité d’une étude qualitative – YouTube, consulté le août 2, 2025, https://www.youtube.com/watch?v=m2Dickr9Dgo
- Recherches qualitatives et validités scientifiques – Érudit, consulté le août 2, 2025, https://www.erudit.org/fr/revues/rechqual/2019-v38-n1-rechqual04566/1059647ar.pdf
- LLMs Pass the Turing Test – Siobhan K Cronin, consulté le août 2, 2025, https://siobhankcronin.com/posts/llm_turing/
- Désinformation en ligne – Canada.ca, consulté le août 2, 2025, https://www.canada.ca/fr/campagne/desinformation-enligne.html
- [2505.02558] The Turing Test Is More Relevant Than Ever – arXiv, consulté le août 2, 2025, https://arxiv.org/abs/2505.02558
