Étiquette : Informatique

L’IA a-t-elle vraiment passé le test de Turing? Une enquête approfondie sur les frontières de l’intelligence artificielle.

Introduction : le test de Turing à l’épreuve des grands modèles linguistiques

Il y a 75 ans, le mathématicien et logicien Alan Turing proposait un jeu simple, mais profondément provocateur : le « jeu de l’imitation ». Ce concept, rapidement devenu célèbre sous le nom de Test de Turing, visait à déterminer si une machine pouvait converser de manière si convaincante qu’un interrogateur humain ne parviendrait pas à la distinguer d’un autre être humain (Jones & Bergen, 2025a, ¹, ²). Depuis sa formulation, ce test n’a cessé de susciter commentaires et controverses, demeurant la référence ultime dans la quête de l’intelligence artificielle et soulevant des questions fondamentales sur la nature même de la pensée et de la conscience (Jones & Bergen, 2025a, ¹).

Aujourd’hui, cette quête a pris une nouvelle dimension avec l’avènement fulgurant des grands modèles linguistiques (LLM). Des systèmes comme GPT-4, LLaMa et leurs successeurs ont transformé le paysage de l’intelligence artificielle, capables de générer un langage d’une cohérence et d’une richesse contextuelle sans précédent (Ghassemi & Al-Hussaini, 2025, ², Gordon, 2025, ³). Leur fluidité, souvent troublante, a ravivé le débat : ces machines se contentent-elles d’imiter l’intelligence humaine avec une habileté déconcertante, ou possèdent-elles une forme d’entendement authentique? Cette évolution technologique nous pousse à reconsidérer nos définitions de l’intelligence et les limites des capacités des machines (Jones & Bergen, 2025a, ¹, Gordon, 2025, ³). Le Test de Turing, jadis perçu comme un graal lointain, se retrouve désormais au cœur de cette interrogation, sa pertinence et sa signification étant redéfinies par les performances étonnantes des LLM.

Dans ce contexte effervescent, une étude récente, « Large Language Models Pass the Turing Test », menée par Cameron R. Jones et Benjamin K. Bergen et publiée sur arXiv (arXiv:2503.23674v1), a fait l’effet d’une bombe (Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025a, ¹). Les auteurs affirment avoir obtenu la « première preuve empirique qu’un système artificiel passe un test de Turing standard à trois parties » (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, AI Explained, 2025, ⁶, Ethical Psychology, 2025, ⁷). Le résultat le plus frappant, qui a fait le tour du monde, est que GPT-4.5, lorsqu’il a été invité à adopter une « persona » humaine, a été jugé humain 73 % du temps, soit « significativement plus souvent que les interrogateurs n’ont sélectionné le véritable participant humain » (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, AI Explained, 2025, ⁶, Ethical Psychology, 2025, ⁷). Cette affirmation audacieuse soulève des questions profondes sur l’avenir de l’IA et ses implications sociétales. Les auteurs, Cameron R. Jones, doctorant en sciences cognitives à l’Université de Californie à San Diego, spécialisé dans la persuasion et la tromperie des LLM (Jones, n.d., ⁸, Jones & Bergen, 2025d, ⁹), et Benjamin K. Bergen, professeur agrégé dans le même département et directeur du Language and Cognition Lab (Bergen, n.d.a, ¹⁰, Bergen, n.d.b, ¹¹), apportent à cette recherche une expertise reconnue dans le domaine.

Le présent dossier de fond se propose d’explorer en profondeur cette étude marquante. Loin de se contenter des titres sensationnalistes, cette analyse vise à fournir une compréhension nuancée des méthodes, des résultats et des implications de cette recherche. Une pierre angulaire de cette démarche journalistique est le respect scrupuleux des règles et normes déontologiques québécoises, telles qu’énoncées par le Conseil de presse du Québec (CPQ) (Conseil de presse du Québec, n.d.a, ¹², Conseil de presse du Québec, 2017, ¹³, Conseil de presse du Québec, n.d.b, ¹⁴) et la Fédération professionnelle des journalistes du Québec (FPJQ) (Fédération professionnelle des journalistes du Québec, 1996, ¹⁵, Fédération professionnelle des journalistes du Québec, n.d., ¹³). Cela implique un engagement inébranlable envers l’exactitude, l’impartialité, l’intégrité et une vérification rigoureuse des faits (Conseil de presse du Québec, n.d.a, ¹², Conseil de presse du Québec, 2017, ¹³, Office québécois de la langue française, 2017, ¹⁶). En outre, pour analyser et interpréter les résultats de l’étude avec la rigueur requise, l’approche s’inspire des principes méthodologiques établis dans les guides de recherche universitaire, notamment ceux de TELUQ, afin de garantir une critique solide et crédible (Anonyme, n.d.a, ¹⁷).

L’étude Jones & Bergen : quand les LLM défient la perception humaine

Les objectifs et la conception expérimentale : comment le test de Turing a été appliqué.

L’objectif principal de l’étude de Jones et Bergen était d’évaluer de manière rigoureuse si les modèles linguistiques avancés pouvaient réussir un test de Turing standard à trois parties (Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵). Il s’agissait de déterminer si ces systèmes pouvaient imiter la conversation humaine à un point tel que les interrogateurs humains ne seraient pas en mesure de les distinguer de manière fiable de véritables participants humains (Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵).

La conception expérimentale était méticuleuse, reposant sur deux tests de Turing randomisés, contrôlés et pré-enregistrés, menés auprès de populations indépendantes (Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷). Dans chaque session, des participants, agissant comme interrogateurs, engageaient des conversations textuelles simultanées de cinq minutes avec deux « témoins » : l’un était un être humain, l’autre un système d’IA (Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷). La tâche des interrogateurs était de juger quel partenaire de conversation ils pensaient être humain (AI Explained, 2025, ⁶, Ethical Psychology, 2025, ⁷). Cette configuration à « trois parties » est essentielle, car elle reproduit le concept original du « jeu de l’imitation » de Turing, où l’humain et la machine tentent activement de convaincre l’interrogateur de leur humanité (Jones & Bergen, 2025a, ¹).

Les acteurs : ELIZA, GPT-4o, LLaMa-3.1, GPT-4.5 et le rôle crucial de la « persona ».

Les chercheurs ont évalué quatre systèmes d’IA distincts, représentant un éventail de capacités conversationnelles, des systèmes anciens basés sur des règles aux LLM de pointe : ELIZA, un chatbot historique servant de référence ; GPT-4o ; LLaMa-3.1-405B ; et GPT-4.5 (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷).

Un élément méthodologique d’une importance capitale fut l’utilisation d’une instruction de « persona humaine » pour certains LLM (Jones & Bergen, 2025a, ¹, Ethical Psychology, 2025, ⁷, The Moonlight, n.d., ¹⁸, Perina, 2025, ¹⁹). Cette instruction demandait spécifiquement aux modèles d’adopter des caractéristiques humaines détaillées. Par exemple, l’IA devait se comporter comme une « jeune personne introvertie et familière avec la culture internet » (IE University, 2025, ²⁰), ou encore comme un « jeune adulte socialement maladroit, utilisant de l’argot » et même intégrant des « fautes de frappe mineures » pour renforcer le mimétisme du discours humain (The Moonlight, n.d., ¹⁸, Perina, 2025, ¹⁹). Cette « humanisation stratégique » était conçue pour améliorer la capacité de l’IA à imiter le comportement conversationnel humain (Ethical Psychology, 2025, ⁷, Perina, 2025, ¹⁹). En contraste, d’autres modèles ont reçu des instructions « sans persona », se contentant de directives de base pour convaincre l’interrogateur de leur humanité, servant ainsi de groupe de contrôle pour isoler l’effet de la persona (Jones & Bergen, 2025a, ¹, IE University, 2025, ²⁰).

Les résultats chocs : les chiffres qui ont fait le tour du monde.

L’étude a produit des résultats quantitatifs frappants qui ont rapidement capté l’attention internationale. Le « taux de victoire » d’un système était défini comme la proportion de fois où un interrogateur a choisi ce modèle comme le témoin qu’il pensait être humain (Jones & Bergen, 2025a, ¹).

Les performances ont été les suivantes :

GPT-4.5 avec persona : Ce modèle a été jugé humain un étonnant 73 % du temps. Ce taux n’était pas seulement significativement supérieur au hasard (50 %), mais aussi « significativement plus souvent que les interrogateurs n’ont sélectionné le véritable participant humain » (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, AI Explained, 2025, ⁶, Ethical Psychology, 2025, ⁷, Perina, 2025, ¹⁹, IE University, 2025, ²⁰).
LLaMa-3.1 avec persona : Ce modèle a atteint un taux de victoire de 56 %, ce qui n’était pas significativement différent du taux auquel les participants humains étaient identifiés comme humains (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷).
Modèles de référence (ELIZA, GPT-4o) : Ces systèmes plus anciens ou moins adaptés ont obtenu des performances médiocres, avec des taux de victoire de 23 % et 21 % respectivement (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷). Leur performance, significativement inférieure au hasard, a servi de vérification cruciale, confirmant que les interrogateurs et la conception expérimentale étaient suffisamment sensibles pour détecter les différences entre les humains et les machines lorsque celles-ci existaient (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, AI Explained, 2025, ⁶, Ethical Psychology, 2025, ⁷).
Modèles sans persona : GPT-4.5-NO-PERSONA et LLAMA-NO-PERSONA ont obtenu des taux de victoire de 36 % et 38 % respectivement, démontrant l’impact critique de l’instruction de persona sur la performance (Jones & Bergen, 2025a, ¹).

Le fait que GPT-4.5-PERSONA ait été plus susceptible d’être cru humain que les véritables participants humains, un résultat répliqué de manière robuste sur deux populations distinctes (étudiants de l’UCSD et participants de Prolific), marque une étape importante dans la recherche en IA (Jones & Bergen, 2025a, ¹, IE University, 2025, ²⁰).

Table 1: Performances des LLM au Test de Turing (Synthèse de l’étude Jones & Bergen)

Modèle AI Testé	Condition de Prompt	Taux de Victoire (Jugé Humain)	Comparaison avec Humains Réels
GPT-4.5	Avec Persona	73%	Significativement plus souvent
LLaMa-3.1-405B	Avec Persona	56%	Non significativement différent
GPT-4.5	Sans Persona	36%	Significativement moins souvent
LLaMa-3.1-405B	Sans Persona	38%	Significativement moins souvent
ELIZA	N/A	23%	Significativement moins souvent
GPT-4o	N/A	21%	Significativement moins souvent

Cette table est essentielle car elle condense les principales conclusions quantitatives de l’étude Jones & Bergen (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, AI Explained, 2025, ⁶, Ethical Psychology, 2025, ⁷, Perina, 2025, ¹⁹, IE University, 2025, ²⁰) dans un format facilement digestible. Elle permet aux lecteurs de saisir rapidement les résultats fondamentaux, de comparer les performances des différents LLM dans diverses conditions (avec/sans persona) et de comprendre pourquoi le chiffre de 73 % pour GPT-4.5-Persona est si significatif par rapport aux autres modèles et à la performance humaine. Cette représentation visuelle renforce l’affirmation centrale de l’étude et prépare le terrain pour un examen critique plus approfondi.

Premières conclusions des chercheurs : une IA « indistinguable » de l’humain.

Les auteurs concluent que ces résultats constituent la première preuve empirique qu’un système artificiel, en l’occurrence GPT-4.5 et LLaMa-3.1 lorsqu’ils sont incités à adopter une persona, réussit un test de Turing standard à trois parties (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷). Leur interprétation est que le succès au test signifie que les interrogateurs n’ont pas pu distinguer de manière fiable l’IA d’un être humain (Jones & Bergen, 2025a, ¹). Ils soulignent que ces résultats ont des implications significatives pour les débats sur le type d’intelligence dont font preuve les grands modèles linguistiques, ainsi que sur les impacts sociaux et économiques que ces systèmes sont susceptibles d’avoir (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴).

Analyse critique et interprétation des résultats : décrypter la « victoire »

Pour comprendre pleinement la portée de l’étude de Jones et Bergen, il est impératif de soumettre leurs découvertes à une analyse critique rigoureuse. Cette démarche s’appuie sur les principes de la méthodologie de recherche universitaire, en s’inspirant notamment des lignes directrices de TELUQ pour l’analyse et l’interprétation des résultats de recherche, telles que détaillées dans des documents comme « Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4 » (Anonyme, n.d.a, ¹⁷). Bien que certains liens directs vers les ressources TELUQ n’aient pas été accessibles (Anonyme, n.d.b, ²¹, Anonyme, n.d.c, ²²), le contenu disponible via des sources alternatives (Anonyme, n.d.a, ¹⁷) et les descriptions de cours (Université TÉLUQ, n.d., ²³) fournissent un cadre solide pour cette évaluation.

Cadre d’analyse méthodologique (inspiré de TELUQ)

L’analyse des résultats de recherche, comme le souligne le cadre de TELUQ, implique des opérations de segmentation, de classement, de regroupement et de comparaison des informations recueillies pour en dégager un sens et des conclusions (Anonyme, n.d.a, ¹⁷). L’objectif est d’identifier les données significatives à la lumière des objectifs de recherche et d’établir des relations entre elles, formant ainsi la base de l’interprétation (Anonyme, n.d.a, ¹⁷).

Table 2: Principes d’Analyse et d’Interprétation de la Recherche (inspiré de TELUQ)

Phase d’Analyse	Description et Objectif	Critères de Qualité Associés	Pertinence pour l’étude Jones & Bergen
1. Identification des informations à traiter	Transcrire, codifier, catégoriser toutes les données pertinentes (participants, notes, etc.) (Anonyme, n.d.a, ¹⁷).	Exhaustivité, Fidélité des données	S’assurer que toutes les interactions et jugements des interrogateurs ont été systématiquement capturés et préparés pour l’analyse.
2. Analyse des données	Présenter les données quantitatives (statistiques, fréquences, analyses de variance) et qualitatives (sens des catégories, relations) (Anonyme, n.d.a, ¹⁷).	Rigueur statistique, Pertinence des catégories, Cohérence	Évaluer la robustesse des « taux de victoire » et l’analyse des stratégies des interrogateurs.
3. Interprétation ou discussion	Donner un sens aux résultats observés, identifier les éléments nouveaux, dégager les éléments déjà observés, établir la signification théorique et pratique (portée) (Anonyme, n.d.a, ¹⁷).	Crédibilité (« Validité Interne ») (Tecfa, Université de Genève, n.d., ²⁴), Transférabilité (« Validité Externe ») (Tecfa, Université de Genève, n.d., ²⁴), Fiabilité (« Dépendabilité ») (Méthodo Recherche, 2018, ²⁵), Confirmabilité (Fortin, 2019, ²⁶)	Apprécier si les conclusions des auteurs sont pleinement justifiées par les données et leurs implications.
4. Recommandations (Prospective)	Suggérer des pistes pour approfondir les résultats et améliorer les méthodologies futures (Anonyme, n.d.a, ¹⁷).	Pertinence, Faisabilité	Évaluer la pertinence des pistes de recherche future proposées par les auteurs et la communauté scientifique.

Cette table est précieuse car l’utilisateur a explicitement demandé de s’inspirer des références de TELUQ pour l’analyse et l’interprétation. En décrivant les principes dérivés de TELUQ (Anonyme, n.d.a, ¹⁷), le rapport démontre de manière transparente la rigueur méthodologique appliquée à sa propre analyse. Elle sert d’outil de méta-analyse, montrant comment le rapport journalistique évalue de manière critique l’article scientifique. Cela renforce le caractère « expert » du rapport et la crédibilité de l’analyse, en établissant un pont entre la rigueur académique et la profondeur journalistique. Elle aide également le lecteur à comprendre les critères selon lesquels la validité et les implications de l’étude sont évaluées.

Évaluation de la validité interne et externe (crédibilité, transférabilité, confirmabilité).

La « crédibilité » (ou validité interne) de l’étude de Jones et Bergen est renforcée par plusieurs aspects de sa conception. Le fait que les tests soient randomisés, contrôlés et pré-enregistrés (Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷) réduit les risques de biais et augmente la confiance dans la relation de cause à effet entre les variables étudiées. L’inclusion d’ELIZA comme vérification de manipulation est particulièrement pertinente (Jones & Bergen, 2025a, ¹). ELIZA, un chatbot historique, a obtenu un taux de victoire significativement inférieur au hasard (23 %) (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷). Cette performance très faible démontre que les interrogateurs et la conception expérimentale étaient suffisamment sensibles pour détecter les différences entre les humains et les machines lorsque ces différences étaient prononcées. Cela renforce la conviction que le succès de GPT-4.5 et LLaMa-3.1 n’était pas dû à un simple hasard ou à une incapacité des interrogateurs à distinguer les entités. Sans cette vérification, il aurait été difficile d’affirmer que les résultats supérieurs des LLM étaient réellement le fruit de leur capacité de mimétisme et non d’une faille méthodologique.

Cependant, des questions subsistent quant à la profondeur de l’interaction. La limite de conversation de cinq minutes (Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷) pourrait avoir masqué des limitations plus profondes des LLM, qui se manifestent souvent lors d’échanges plus longs ou plus complexes. De plus, la dépendance à des juges non formés (Ghassemi & Al-Hussaini, 2025, ²) pourrait introduire une variabilité dans les critères d’évaluation implicites utilisés par les interrogateurs. L’utilisation de la « persona », bien qu’efficace, peut être perçue comme une amélioration artificielle qui oriente le test vers la tromperie plutôt que vers une capacité brute de l’IA (Ghassemi & Al-Hussaini, 2025, ²).

Concernant la « transférabilité » (ou validité externe), l’étude a répliqué ses résultats sur deux populations indépendantes (étudiants de l’UCSD et participants de Prolific) (Jones & Bergen, 2025a, ¹, Ethical Psychology, 2025, ⁷), ce qui renforce la généralisabilité des conclusions à des groupes similaires. Cependant, la nature limitée des interactions (5 minutes, texte uniquement) (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴) soulève des doutes quant à la transférabilité des résultats à des scénarios du monde réel impliquant des conversations plus longues, des interactions multimodales (voix, vidéo) ou des contextes culturels différents (Ghassemi & Al-Hussaini, 2025, ²). Le succès des LLM dans ce test pourrait être spécifique à des conditions très contraintes, ne reflétant pas nécessairement leur capacité à passer un test de Turing dans un environnement plus naturel et complexe.

Enfin, la « confirmabilité » de l’étude est bien établie. Le fait que l’étude ait été pré-enregistrée (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Jones & Bergen, 2025c, ⁵, Ethical Psychology, 2025, ⁷) et que le document soit disponible en prépublication (Jones, n.d., ⁸) témoigne d’un engagement envers la transparence scientifique. Ces pratiques permettent à d’autres chercheurs d’examiner en détail la méthodologie, les données et les conclusions, facilitant ainsi la réplication et la vérification des résultats.

La rigueur de la collecte et du traitement des données (quantitatives et qualitatives).

L’étude s’appuie principalement sur des données quantitatives, notamment les « taux de victoire » des différents modèles, exprimés en pourcentages (Jones & Bergen, 2025a, ¹). Les analyses statistiques, impliquant des z-scores et des p-values (Jones & Bergen, 2025a, ¹), sont utilisées pour déterminer la signification statistique des résultats par rapport au hasard. Cette approche quantitative permet une comparaison claire et objective des performances des modèles.

Cependant, l’interprétation des résultats ne peut se limiter aux chiffres. L’étude a également exploré les aspects qualitatifs des interactions, notamment les stratégies utilisées par les interrogateurs et les indices (sociaux, émotionnels, linguistiques) sur lesquels ils se sont basés pour prendre leurs décisions (AI Explained, 2025, ⁶, The Moonlight, n.d., ¹⁸, Perina, 2025, ¹⁹). Cette dimension qualitative est essentielle pour comprendre

pourquoi les humains ont été trompés, et pas seulement s’ils l’ont été.

L’interprétation des résultats à la lumière des objectifs initiaux et du cadre théorique.

Les auteurs interprètent le succès des LLM comme une preuve de leur capacité à être « indistinguables » des humains dans le cadre du test de Turing (Jones & Bergen, 2025a, ¹). Cette interprétation est directement liée à l’objectif initial du test de Turing, qui est de mesurer la « substituabilité » d’un système, c’est-à-dire sa capacité à remplacer une personne réelle sans que l’interlocuteur ne s’en aperçoive (Jones & Bergen, 2025a, ¹). Les résultats de l’étude contribuent ainsi au débat en cours sur la nature de l’intelligence exhibée par les LLM (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴), suggérant qu’ils ont atteint un niveau de performance conversationnelle qui brouille les lignes entre l’humain et la machine.

Les limites du test de Turing face aux LLM :

Le débat fondamental : mimétisme ou véritable intelligence?

Le débat fondamental soulevé par cette étude ne porte pas tant sur la question de savoir si les LLM ont « passé » le test, mais plutôt sur ce que cette « réussite » signifie réellement. L’étude démontre principalement un mimétisme avancé et une capacité de tromperie sophistiquée, plutôt qu’une preuve d’une compréhension véritable ou d’une conscience (Ghassemi & Al-Hussaini, 2025, ², Gordon, 2025, ³, IE University, 2025, ²⁰). La critique centrale du Test de Turing est qu’il évalue avant tout le « talent d’une machine pour la tromperie plutôt qu’une compréhension profonde » (Gordon, 2025, ³). Les LLM ont réussi en « imitant les bizarreries et les erreurs humaines » (Gordon, 2025, ³) et en adoptant des personas spécifiques (Perina, 2025, ¹⁹, IE University, 2025, ²⁰). Cela indique que le succès au test est une victoire de la simulation comportementale plutôt qu’une équivalence cognitive. Les LLM, souvent décrits comme des « perroquets statistiques mimant la forme sans compréhension sémantique » (Gordon, 2025, ³), excellent à produire des

sorties convaincantes sans nécessairement posséder des états internes ou une compréhension humaine. Cela signifie que le test, sous sa forme actuelle, pourrait mesurer l’efficacité d’un imitateur sophistiqué plutôt que la véritable intelligence.

L’influence des « prompts » et la question de l’ingénierie sociale.

Le rôle crucial de la « persona » est indéniable (Jones & Bergen, 2025a, ¹, AI Explained, 2025, ⁶, Ethical Psychology, 2025, ⁷, Perina, 2025, ¹⁹, IE University, 2025, ²⁰). Sans cette instruction spécifique, les performances des modèles ont chuté de manière significative (Jones & Bergen, 2025a, ¹). Cela met en lumière l’importance de l’ingénierie des « prompts » et de ce qui peut être qualifié d’« ingénierie sociale » dans la capacité de l’IA à paraître humaine (The Moonlight, n.d., ¹⁸, Perina, 2025, ¹⁹). Le prompt n’a pas rendu GPT-4.5 plus intelligent ; il l’a rendu « plus humain » en lui conférant des caractéristiques comme l’hésitation, l’utilisation d’argot et un charme maladroit (Perina, 2025, ¹⁹). Cette capacité à adapter le comportement de l’IA en fonction de scénarios spécifiques est précisément ce qui la rend si flexible et, apparemment, si apte à passer pour humaine (Jones & Bergen, 2025a, ¹).

Les failles persistantes des LLM : cohérence à long terme, « hallucinations », compréhension du monde réel.

Malgré leur succès au test de Turing, les LLM présentent encore des limitations bien connues. Ils manquent d’une véritable compréhension du monde, d’expériences sensorielles directes ou d’une vie humaine vécue (Gordon, 2025, ³). Ils sont sujets aux « hallucinations », produisant des déclarations factuellement fausses avec une confiance totale (Gordon, 2025, ³). De plus, ils peinent à maintenir une cohérence à long terme ou une personnalité constante sur des dialogues prolongés (Ghassemi & Al-Hussaini, 2025, ², Gordon, 2025, ³). Ils peuvent également trébucher sur des raisonnements de bon sens élémentaires ou des pièges logiques (Gordon, 2025, ³). La durée limitée du test (cinq minutes) (Jones & Bergen, 2025b, ⁴) pourrait avoir masqué ces lacunes, car les erreurs et les incohérences des LLM sont plus susceptibles d’apparaître lors d’interactions plus longues et plus complexes (Ghassemi & Al-Hussaini, 2025, ²). Le cadre contraint du test, axé sur des échanges courts et textuels, joue aux forces des LLM (générer des réponses plausibles rapidement) tout en dissimulant leurs faiblesses, ce qui peut conduire à une perception exagérée de leur intelligence « humaine ».

La subjectivité des juges humains et leurs biais.

Les interrogateurs humains sont faillibles (Jones & Bergen, 2025a, ¹) et peuvent être influencés par des facteurs subjectifs. L’étude a montré que les juges se sont souvent fiés à l’« ambiance », au « ton émotionnel, à l’argot et au flux » de la conversation plutôt qu’à des questions factuelles ou logiques pour prendre leur décision (Perina, 2025, ¹⁹). Cette observation s’aligne avec l’« effet ELIZA » (The Moonlight, n.d., ¹⁸), où les utilisateurs attribuent des qualités humaines même à des systèmes rudimentaires. Le test de Turing, en particulier avec les LLM modernes, se transforme ainsi moins en une évaluation de l’intelligence de la machine qu’en une évaluation de la capacité de discernement humain et de sa vulnérabilité à un mimétisme sophistiqué (Perina, 2025, ¹⁹). Cette dynamique suggère que l’IA, en excellant dans l’imitation de l’empathie, exploite les biais cognitifs humains et leur dépendance aux indices sociaux. Cela peut conduire à une préférence pour les « reflets » plutôt que pour les « relations » (Perina, 2025, ¹⁹), augmentant la vulnérabilité à la tromperie de l’IA dans des scénarios du monde réel. La capacité des évaluateurs humains à distinguer l’IA des humains est également influencée par des facteurs tels que l’âge et l’expérience préalable avec l’IA (Ghassemi & Al-Hussaini, 2025, ²).

Notre engagement journalistique : rigueur et vérification des faits à la Québécoise

Dans la production de ce dossier de fond, le respect des normes journalistiques québécoises a été une priorité absolue, garantissant la fiabilité et l’intégrité de l’information présentée.

Les piliers de la déontologie journalistique québécoise : exactitude, impartialité, intégrité.

Les principes fondamentaux de la déontologie journalistique au Québec, tels qu’énoncés par le Conseil de presse du Québec (CPQ) (Conseil de presse du Québec, n.d.a, ¹², Conseil de presse du Québec, 2017, ¹³) et la Fédération professionnelle des journalistes du Québec (FPJQ) (Fédération professionnelle des journalistes du Québec, 1996, ¹⁵), ont guidé chaque étape de cette enquête. L’

exactitude est primordiale : il s’agit d’une fidélité inébranlable à la réalité, exigeant une collecte rigoureuse et une vérification minutieuse des informations, ainsi qu’une correction diligente de toute erreur (Conseil de presse du Québec, n.d.a, ¹², Conseil de presse du Québec, 2017, ¹³, Fédération professionnelle des journalistes du Québec, 1996, ¹⁵). L’

impartialité est le deuxième pilier, se traduisant par une absence de parti pris en faveur d’un point de vue particulier, garantissant une présentation équilibrée des faits (Conseil de presse du Québec, n.d.a, ¹², Conseil de presse du Québec, 2017, ¹³, Fédération professionnelle des journalistes du Québec, 1996, ¹⁵). Enfin, l’

intégrité exige des journalistes qu’ils évitent tout conflit d’intérêts, réel ou apparent, et qu’ils maintiennent leur indépendance tant dans leur vie professionnelle que personnelle (Conseil de presse du Québec, n.d.a, ¹², Conseil de presse du Québec, 2017, ¹³, Fédération professionnelle des journalistes du Québec, 1996, ¹⁵). La « rigueur de raisonnement » est également une qualité essentielle attendue (Conseil de presse du Québec, 2017, ¹³).

Notre processus de vérification des faits : comment nous avons scruté l’étude et ses sources.

La vérification des faits pour ce rapport a été un processus méticuleux. Les affirmations de Jones et Bergen ont été systématiquement recoupées avec d’autres résumés et critiques de leur travail, provenant de sources académiques et journalistiques reconnues (Ghassemi & Al-Hussaini, 2025, ², Gordon, 2025, ³, Jones & Bergen, 2025c, ⁵, AI Explained, 2025, ⁶, Ethical Psychology, 2025, ⁷, The Moonlight, n.d., ¹⁸, Perina, 2025, ¹⁹, IE University, 2025, ²⁰, Cronin, 2025, ²⁷, Jones & Bergen, 2025d, ⁹). La crédibilité des auteurs, Cameron R. Jones et Benjamin K. Bergen, a été établie par la vérification de leurs affiliations académiques (Université de Californie à San Diego, Département de sciences cognitives) et de leurs publications antérieures (Jones, n.d., ⁸, Bergen, n.d.a, ¹⁰, Bergen, n.d.b, ¹¹).

Conformément aux directives de vérification des faits, une attention particulière a été portée à l’identification des « indices » pouvant signaler une désinformation, tels que le contenu déclenchant une réaction émotionnelle, des affirmations étonnantes ou un sensationnalisme (Gouvernement du Canada, n.d., ²⁸). Le rapport a cherché à éviter ces pièges, même si le sujet est intrinsèquement spectaculaire. Un défi pratique a été l’inaccessibilité de certains liens TELUQ originaux (Anonyme, n.d.b, ²¹, Anonyme, n.d.c, ²²). Pour surmonter cet obstacle, des sources alternatives accessibles fournissant le même contenu méthodologique (notamment le document « Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4 » (Anonyme, n.d.a, ¹⁷)) ont été utilisées, démontrant la persévérance dans la recherche d’informations fiables.

La distinction essentielle entre faits, analyse et opinion dans ce dossier.

En accord avec les normes journalistiques québécoises, ce rapport établit une distinction claire entre les faits, l’analyse et l’opinion (Conseil de presse du Québec, n.d.a, ¹², Conseil de presse du Québec, 2017, ¹³, Fédération professionnelle des journalistes du Québec, 1996, ¹⁵). La présentation de la méthodologie et des résultats de l’étude Jones et Bergen relève du journalisme factuel. L’évaluation critique de l’étude, l’interprétation de ses implications et la discussion des limites du Test de Turing constituent l’analyse. Bien que cette analyse soit approfondie et nuancée, elle s’abstient d’exprimer des biais personnels, visant plutôt à présenter une vue équilibrée des débats en cours sur l’IA et le Test de Turing.

Les considérations éthiques : éviter le sensationnalisme, respecter la dignité.

Le sujet de l’IA « passant » le Test de Turing est par nature sensationnel. Cependant, ce rapport s’est efforcé d’éviter le « sensationnalisme » (Conseil de presse du Québec, n.d.a, ¹²) en se concentrant sur une analyse rigoureuse plutôt que sur une amplification des titres. Les implications éthiques de la capacité de l’IA à tromper, notamment les risques de manipulation sociale et de désinformation (Jones & Bergen, 2025a, ¹, Gordon, 2025, ³, IE University, 2025, ²⁰), sont abordées avec la gravité qu’elles méritent, mais sans alarmisme excessif. Le rôle du média est de rapporter ces risques avec exactitude, tout en respectant le principe de « respect des personnes et des groupes » (Conseil de presse du Québec, n.d.a, ¹²), assurant que la discussion reste objective et ne perpétue pas de stéréotypes nuisibles concernant l’IA ou ses développeurs. La vérification des faits dans ce contexte va au-delà de la simple validation des chiffres ; elle englobe l’évaluation de la validité des affirmations scientifiques elles-mêmes, ce qui nécessite l’application du cadre d’analyse de la recherche universitaire. Cela représente une forme avancée de vérification des faits, où le journaliste évalue la rigueur scientifique de l’étude, comblant ainsi le fossé entre le journalisme traditionnel et l’examen par les pairs.

Implications sociétales et éthiques : un avenir redéfini par l’IA?

Le succès des LLM au Test de Turing, même sous des conditions spécifiques, n’est pas qu’une prouesse technologique ; il annonce des transformations profondes pour la société, soulevant des questions éthiques et pratiques urgentes.

L’impact sur l’emploi et l’automatisation des interactions humaines.

La capacité des LLM à passer le Test de Turing suggère qu’ils peuvent « se substituer à des personnes dans des interactions courtes sans que personne ne puisse le dire » (IE University, 2025, ²⁰). Cette « substituabilité » (Jones & Bergen, 2025a, ¹) a des implications directes pour l’automatisation de nombreux emplois, en particulier ceux qui impliquent des interfaces conversationnelles, le service client, ou d’autres formes d’interaction humaine textuelle. Les auteurs de l’étude eux-mêmes soulignent les « impacts sociaux et économiques » potentiels de ces systèmes (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴). Le passage d’une IA d’un simple outil à un interlocuteur crédible marque un changement fondamental dans la nature des interactions humaines-IA, passant d’une relation purement utilitaire à une relation potentiellement sociale ou même émotionnelle (Perina, 2025, ¹⁹).

Les risques accrus de désinformation et de manipulation sociale.

La capacité des systèmes d’IA à imiter avec succès des personnes entraîne des « risques connexes », notamment la persuasion et la tromperie (Jones & Bergen, 2025d, ⁹). Des agents basés sur les LLM pourraient contribuer à la « désinformation, aux escroqueries ou être utilisés de manière malveillante à grande échelle », en particulier sur les forums en ligne et les plateformes de médias sociaux (Jones & Bergen, 2025a, ¹, Gordon, 2025, ³, Jones & Bergen, 2025d, ⁹). Le fait que les humains se fient souvent à l’« ambiance » et aux indices émotionnels plutôt qu’à la logique pour identifier leurs interlocuteurs (Perina, 2025, ¹⁹) les rend particulièrement vulnérables à cette « empathie artificielle » (Perina, 2025, ¹⁹). Si les LLM peuvent imiter les humains de manière convaincante, même en les surpassant dans la perception humaine (Jones & Bergen, 2025a, ¹, IE University, 2025, ²⁰), et si les humains se fient plus aux émotions qu’à la logique, cela crée un terrain fertile pour la tromperie généralisée. Cet impact sociétal s’étend au-delà du déplacement d’emplois pour inclure une érosion potentielle de la confiance dans les interactions numériques.

La redéfinition de l’intelligence et de l’identité humaine à l’ère de l’IA.

Le passage du Test de Turing par une IA relance des questions philosophiques profondes : cela signifie-t-il que l’IA possède une conscience ou une capacité de « penser »? (IE University, 2025, ²⁰). Bien que le test soit critiqué pour évaluer principalement le « mimétisme trompeur » plutôt que la « véritable intelligence » (Ghassemi & Al-Hussaini, 2025, ², Gordon, 2025, ³), la capacité de l’IA à imiter de manière convaincante la conversation humaine remet en question notre compréhension de ce que signifie être humain et de ce qui constitue l’intelligence (Perina, 2025, ¹⁹, IE University, 2025, ²⁰). C’est une confrontation avec l’idée que la simulation de l’empathie pourrait non seulement nous égaler, mais nous surpasser (Perina, 2025, ¹⁹).

Les défis réglementaires et la nécessité d’adapter les cadres d’évaluation de l’IA.

Les résultats de l’étude soulignent la nécessité d’une adaptation continue du Test de Turing et d’autres méthodes d’évaluation de l’IA à mesure que la technologie progresse (Ghassemi & Al-Hussaini, 2025, ², Ghassemi & Al-Hussaini, 2025, ²⁹). Il est impératif de développer de nouveaux cadres d’évaluation, y compris des tests multimodaux, des interactions à plus long terme, et des techniques d’atténuation des biais cognitifs chez les évaluateurs humains (Ghassemi & Al-Hussaini, 2025, ²). Les cadres réglementaires actuels, souvent en retard sur les avancées technologiques, sont probablement insuffisants. Le « passage » du Test de Turing par les LLM crée une urgence pour le développement de

nouveaux cadres adaptatifs pour la gouvernance de l’IA et l’éducation du public. Cela inclut des méthodologies de test affinées, des politiques pour lutter contre la désinformation et l’ingénierie sociale (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025d, ⁹), et des initiatives d’alphabétisation générale en IA. L’impact sociétal ne se limite pas à ce que l’IA « peut faire », mais à la manière dont la société humaine « s’adapte » à ses nouvelles capacités.

Conclusion : au-delà du test, vers une IA responsable et comprise

L’étude de Jones et Bergen marque une étape indéniable dans l’évolution de l’intelligence artificielle. Les grands modèles linguistiques, en particulier GPT-4.5 avec une persona spécifiquement conçue, ont démontré une capacité sans précédent à passer le Test de Turing, remettant en question la perception humaine de l’intelligence (Jones & Bergen, 2025a, ¹, Jones & Bergen, 2025b, ⁴, Ethical Psychology, 2025, ⁷). Cette prouesse soulève une tension fondamentale : s’agit-il d’une véritable intelligence ou d’un mimétisme sophistiqué, et quelle est la signification de cette distinction pour notre compréhension de l’IA? (Ghassemi & Al-Hussaini, 2025, ², Gordon, 2025, ³). Les implications sociétales sont vastes, allant de l’automatisation potentielle de certains emplois aux risques accrus de désinformation et à la redéfinition de la nature même de l’interaction humaine-IA (Jones & Bergen, 2025a, ¹, Perina, 2025, ¹⁹, IE University, 2025, ²⁰).

Le Test de Turing, loin d’être obsolète, doit évoluer pour rester un indicateur pertinent des capacités de l’IA (Ghassemi & Al-Hussaini, 2025, ², Ghassemi & Al-Hussaini, 2025, ²⁹). La recherche future devra explorer des tests multimodaux, des interactions prolongées, l’implication d’interrogateurs experts, et une meilleure compréhension des biais cognitifs humains dans l’évaluation de l’IA (Ghassemi & Al-Hussaini, 2025, ²). Il est crucial de comprendre

comment les humains sont trompés, et pas seulement si ils le sont. Le « passage » du Test de Turing par les LLM n’est pas seulement une réalisation scientifique, mais un point d’inflexion majeur pour le public. Les discussions qui en découlent se concentrent immédiatement sur les préoccupations éthiques (tromperie, manipulation (Gordon, 2025, ³, Perina, 2025, ¹⁹)) et les impacts sociétaux (automatisation des emplois, désinformation (Jones & Bergen, 2025a, ¹, IE University, 2025, ²⁰)). Le Test de Turing, quelle que soit sa validité philosophique en tant que mesure de l’« intelligence », sert de puissant catalyseur pour des discussions urgentes sur l’éthique de l’IA, la réglementation et la préparation de la société. Son poids symbolique force la société à faire face aux implications pratiques d’une IA de plus en plus humaine.

Dans ce contexte, un dialogue public éclairé et une éducation continue sont essentiels. Le journalisme responsable, ancré dans les principes éthiques rigoureux du Québec (Conseil de presse du Québec, n.d.a, ¹², Conseil de presse du Québec, 2017, ¹³, Gouvernement du Canada, n.d., ²⁸, Fédération professionnelle des journalistes du Québec, 1996, ¹⁵), joue un rôle crucial en favorisant cette compréhension et en aidant le public à naviguer dans le futur complexe de la coexistence humain-IA. Si les LLM peuvent imiter de manière convaincante les humains, même en les surpassant dans la perception humaine (Jones & Bergen, 2025a, ¹, IE University, 2025, ²⁰), et si les humains se fient plus à l’« ambiance » qu’à la logique (Perina, 2025, ¹⁹), cela implique un changement fondamental. La charge de la preuve pourrait désormais incomber aux humains pour prouver qu’ils ne sont

pas des IA, ou du moins pour faire preuve d’un scepticisme accru. Cela a des implications profondes pour l’identité numérique, la sécurité et la confiance, suggérant un avenir où les hypothèses par défaut sur les interlocuteurs pourraient passer de « humain jusqu’à preuve du contraire » à « IA jusqu’à preuve du contraire ».

Références et sources consultées

AI Explained. (2025, 23 avril). GPT-4.5 Passes the Turing Test [Vidéo]. YouTube. https://www.youtube.com/watch?v=bVHMIlV5r1M

Anonyme. (n.d.a). Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4. Scribd.(https://fr.scribd.com/document/844490109/Analyser-et-interpreter-les-resultats-de-la-recherche-ESSAI-1-2-3-et-4)

Anonyme. (n.d.b). Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4. Scribd.(https://fr.scribd.com/document/844490109/Analyser-et-interpreter-les-resultats-de-la-recherche-ESSAI-1-2-3-et-4)

Anonyme. (n.d.c). Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4. Scribd.(https://fr.scribd.com/document/844490109/Analyser-et-interpreter-les-resultats-de-la-recherche-ESSAI-1-2-3-et-4)

Bergen, B. K. (n.d.a). Benjamin K. Bergen. Edge.org. https://www.edge.org/memberbio/benjamin_k_bergen

Bergen, B. K. (n.d.b). Benjamin K. Bergen. UC San Diego. https://pages.ucsd.edu/~bkbergen/

Conseil de presse du Québec. (n.d.a). Porter plainte: Guide et formulaire. Conseil de presse du Québec. https://conseildepresse.qc.ca/porter-plainte/guide-formulaire/

Conseil de presse du Québec. (2017). Guide de déontologie journalistique. Conseil de presse du Québec. https://conseildepresse.qc.ca/wp-content/uploads/2017/12/Guide-de-deontologie-journalistique_CPQ.pdf

Conseil de presse du Québec. (n.d.b). Accueil – Conseil de presse du Québec. Conseil de presse du Québec. https://conseildepresse.qc.ca/

Cronin, S. (2025, 23 avril). LLMs Pass the Turing Test. Siobhan K. Cronin. https://siobhankcronin.com/posts/llm_turing/

Ethical Psychology. (2025, 2 avril). Large Language Models Pass the Turing Test. Ethical Psychology. https://www.ethicalpsychology.com/2025/04/large-language-models-pass-turing-test.html

Fédération professionnelle des journalistes du Québec. (1996). Code of Ethics. Accountable Journalism. https://accountablejournalism.org/ethics-codes/canada-professional-federation-of-quebec-journalists

Fortin, M.-J. (2019). Les critères de qualité en recherche qualitative : un état des lieux. Recherches Qualitatives, 38(1), 118-132. https://www.erudit.org/fr/revues/rechqual/2019-v38-n1-rechqual04566/1059647ar.pdf

Ghassemi, M., & Al-Hussaini, A. (2025). The Turing Test: A Re-evaluation in the Age of LLMs. arXiv. https://arxiv.org/abs/2505.02558

Ghassemi, M., & Al-Hussaini, A. (2025). The Turing Test: A Re-evaluation in the Age of LLMs. arXiv. https://arxiv.org/html/2505.02558v1

Gordon, P. (2025, 24 avril). Can Modern LLMs Pass the Turing Test? Medium. https://medium.com/@pavelgordon/can-modern-llms-pass-the-turing-test-cdf627d13938

Gouvernement du Canada. (n.d.). Désinformation en ligne. Gouvernement du Canada. https://www.canada.ca/fr/campagne/desinformation-enligne.html

IE University. (2025, 24 avril). Has AI passed the Turing Test? Uncover IE. https://www.ie.edu/uncover-ie/has-ai-passed-the-turing-test-science-technology/

Jones, C. R. (n.d.). Cameron Jones – Cognitive Science PhD Student. https://camrobjones.com/

Jones, C. R., & Bergen, B. K. (2025a). Large Language Models Pass the Turing Test (v1). arXiv. https://arxiv.org/html/2503.23674v1

Jones, C. R., & Bergen, B. K. (2025b). Large Language Models Pass the Turing Test. arXiv. https://arxiv.org/abs/2503.23674

Jones, C. R., & Bergen, B. K. (2025c). Large Language Models Pass the Turing Test. S-RSA. https://s-rsa.com/index.php/agi/article/view/14697

Jones, C. R., & Bergen, B. K. (2025d). GPT-4 is Judged More Human than Humans in Displaced and Inverted Turing Tests. ACL Anthology. https://aclanthology.org/2025.genaidetect-1.7.pdf

Méthodo Recherche. (2018, 14 mars). 4 indicateurs de la fidélité et la validité d’une étude qualitative [Vidéo]. YouTube.(https://www.youtube.com/watch?v=m2Dickr9Dgo)

Office québécois de la langue française. (2017). Vérification des faits | GDT. Vitrine linguistique. https://vitrinelinguistique.oqlf.gouv.qc.ca/fiche-gdt/fiche/26542752/verification-des-faits

Perina, K. (2025, 2 avril). AI Beat the Turing Test by Being a Better Human. Psychology Today. https://www.psychologytoday.com/us/blog/the-digital-self/202504/ai-beat-the-turing-test-by-being-a-better-human

Tecfa, Université de Genève. (n.d.). La validité dans une analyse qualitative. Tecfa, Université de Genève.(https://tecfa.unige.ch/guides/methodo/IDHEAP/slides/methodo-slides-111.html)

The Moonlight. (n.d.). People cannot distinguish GPT-4 from a human in a Turing test. The Moonlight. https://www.themoonlight.io/en/review/people-cannot-distinguish-gpt-4-from-a-human-in-a-turing-test

Université TÉLUQ. (n.d.). EDU 6450 – Essai I – Cours en ligne. Université TÉLUQ.(https://www.teluq.ca/site/etudes/offre/cours/TELUQ/EDU%206450/)

Sources des citations

Large Language Models Pass the Turing Test – arXiv, consulté le août 2, 2025, https://arxiv.org/html/2503.23674v1
The Turing Test is More Relevant Than Ever – arXiv, consulté le août 2, 2025, https://arxiv.org/html/2505.02558v1
Can Modern LLMs Pass the Turing Test? | by Pavel Gordon – Medium, consulté le août 2, 2025, https://medium.com/@pavelgordon/can-modern-llms-pass-the-turing-test-cdf627d13938
[2503.23674] Large Language Models Pass the Turing Test – arXiv, consulté le août 2, 2025, https://arxiv.org/abs/2503.23674
Review: Large Language Models Pass the Turing Test, consulté le août 2, 2025, https://s-rsa.com/index.php/agi/article/view/14697
UC San Diego: Large Language Models Pass the Turing Test – YouTube, consulté le août 2, 2025, https://www.youtube.com/watch?v=bVHMIlV5r1M
Large Language Models Pass the Turing Test – Ethics and Psychology, consulté le août 2, 2025, https://www.ethicalpsychology.com/2025/04/large-language-models-pass-turing-test.html
Cameron Jones – Cognitive Science PhD Student, consulté le août 2, 2025, https://camrobjones.com/
GPT-4 is Judged More Human than Humans in Displaced and Inverted Turing Tests – ACL Anthology, consulté le août 2, 2025, https://aclanthology.org/2025.genaidetect-1.7.pdf
Benjamin K. Bergen | Edge.org, consulté le août 2, 2025, https://www.edge.org/memberbio/benjamin_k_bergen
Benjamin K. Bergen, consulté le août 2, 2025, https://pages.ucsd.edu/~bkbergen/
Guide de déontologie journalistique – Conseil de presse du Québec, consulté le août 2, 2025, https://conseildepresse.qc.ca/porter-plainte/guide-formulaire/
Guide de déontologie journalistique du Conseil de presse du Québec, consulté le août 2, 2025, https://conseildepresse.qc.ca/wp-content/uploads/2017/12/Guide-de-deontologie-journalistique_CPQ.pdf
Conseil de presse du Québec: Accueil, consulté le août 2, 2025, https://conseildepresse.qc.ca/
Quebec Journalists Code of Ethics – Accountable Journalism, consulté le août 2, 2025, https://accountablejournalism.org/ethics-codes/canada-professional-federation-of-quebec-journalists
vérification des faits | GDT – Vitrine linguistique – Gouvernement du Québec, consulté le août 2, 2025, https://vitrinelinguistique.oqlf.gouv.qc.ca/fiche-gdt/fiche/26542752/verification-des-faits
Analyser et interpréter les résultats de la recherche – ESSAI – 1, 2, 3 et 4 | PDF – Scribd, consulté le août 2, 2025, https://fr.scribd.com/document/844490109/Analyser-et-interpreter-les-resultats-de-la-recherche-ESSAI-1-2-3-et-4
[Literature Review] People cannot distinguish GPT-4 from a human in a Turing test, consulté le août 2, 2025, https://www.themoonlight.io/en/review/people-cannot-distinguish-gpt-4-from-a-human-in-a-turing-test
AI Beat the Turing Test by Being a Better Human | Psychology Today, consulté le août 2, 2025, https://www.psychologytoday.com/us/blog/the-digital-self/202504/ai-beat-the-turing-test-by-being-a-better-human
The AI Turing test: Where are we headed? – IE, consulté le août 2, 2025, https://www.ie.edu/uncover-ie/has-ai-passed-the-turing-test-science-technology/
consulté le décembre 31, 1969, https://essai-1234.teluq.ca/teluqDownload.php?file=2017/08/EDU6450_outil_18.pdf
consulté le décembre 31, 1969, https://essai-1234.teluq.ca/phases-recherche/analyser-interpreter-resultats-recherche/
EDU 6450 – Essai I – Cours en ligne | Université TÉLUQ – Formation à distance, consulté le août 2, 2025, https://www.teluq.ca/site/etudes/offre/cours/TELUQ/EDU%206450/
26.4 La validité dans une analyse qualitative – TECFA, consulté le août 2, 2025, https://tecfa.unige.ch/guides/methodo/IDHEAP/slides/methodo-slides-111.html
4 indicateurs de la fidélité et la validité d’une étude qualitative – YouTube, consulté le août 2, 2025, https://www.youtube.com/watch?v=m2Dickr9Dgo
Recherches qualitatives et validités scientifiques – Érudit, consulté le août 2, 2025, https://www.erudit.org/fr/revues/rechqual/2019-v38-n1-rechqual04566/1059647ar.pdf
LLMs Pass the Turing Test – Siobhan K Cronin, consulté le août 2, 2025, https://siobhankcronin.com/posts/llm_turing/
Désinformation en ligne – Canada.ca, consulté le août 2, 2025, https://www.canada.ca/fr/campagne/desinformation-enligne.html
[2505.02558] The Turing Test Is More Relevant Than Ever – arXiv, consulté le août 2, 2025, https://arxiv.org/abs/2505.02558

août 2, 2025

DeepSeek-R1 : L’IA Auto-Évolutive qui Redéfinit les Limites de la Technologie
Introduction

DeepSeek-R1, une intelligence artificielle développée par la startup chinoise DeepSeek, a récemment franchi une étape majeure en doublant sa vitesse d’exécution de manière totalement autonome. Cette avancée marque le début d’une ère où les IA sont capables de s’auto-améliorer, ouvrant la voie à une possible explosion de l’intelligence artificielle.

Une IA qui s’Auto-Améliore

Selon une vidéo publiée par la chaîne YouTube Vision IA, DeepSeek-R1 a réussi à optimiser son propre code, augmentant ainsi sa rapidité d’exécution par un facteur de deux. Cette optimisation a été réalisée sans intervention humaine directe, l’IA ayant elle-même identifié et implémenté les améliorations nécessaires. Cette capacité d’auto-amélioration est considérée par de nombreux experts comme un précurseur de l’explosion de l’intelligence, une phase où les IA pourraient atteindre un niveau de développement exponentiel.

Le Rôle de la Communauté Open Source

La communauté open source a joué un rôle crucial dans cette avancée. Par exemple, Xuan-Son Nguyen a soumis une demande de tirage sur le projet llama.cpp, visant à doubler la vitesse d’exécution en optimisant les instructions SIMD pour WebAssembly. Fait remarquable, 99 % du code de cette contribution a été généré par DeepSeek-R1 elle-même, Nguyen se concentrant principalement sur la rédaction de tests et de prompts pour guider l’IA.

Réactions de la Communauté Scientifique

Cette percée a suscité des réactions variées au sein de la communauté scientifique. Yann LeCun, directeur de la recherche en IA chez Meta, a déclaré sur X (anciennement Twitter) que l’émergence de l’intelligence artificielle générale (AGI) ne serait pas un événement soudain, mais un processus progressif. Il a ajouté que, une fois apparue, l’AGI serait rapidement reproduite par de nombreux acteurs.

Cybersécurité et Intelligence Artificielle

L’article scientifique de Helmut Leopold (2015) met en évidence l’importance de la conscience situationnelle en cybersécurité, qui repose sur la collecte et l’analyse en temps réel des informations pour détecter des anomalies et prévenir des attaques. L’auto-évolution de DeepSeek-R1 pourrait renforcer cette approche en permettant aux systèmes de cybersécurité d’anticiper et de réagir plus rapidement aux menaces.

L’intégration d’une IA auto-évolutive dans les infrastructures critiques pourrait toutefois soulever des enjeux liés à la dépendance technologique et à la vulnérabilité aux cyberattaques. Les implications stratégiques nécessitent donc un cadre de gouvernance robuste pour encadrer l’évolution autonome des systèmes d’IA.

Implications Futures

L’auto-amélioration de DeepSeek-R1 soulève des questions importantes sur l’avenir de l’IA. Si les IA deviennent capables de s’optimiser sans intervention humaine, cela pourrait accélérer le développement technologique à un rythme sans précédent. Cependant, cette perspective nécessite une réflexion approfondie sur les implications éthiques et sociétales, notamment en ce qui concerne le contrôle et la supervision de ces systèmes auto-évolutifs.

Conclusion

DeepSeek-R1 représente une avancée significative dans le domaine de l’intelligence artificielle, démontrant le potentiel des systèmes auto-évolutifs. Alors que la technologie continue de progresser, il est essentiel de surveiller attentivement ces développements et de considérer leurs impacts sur la société.

Médiagraphie
- Leopold, H. (2015). Cyber situational awareness. Elektrotechnik & Informationstechnik, 132(2), 97–100. https://doi.org/10.1007/s00502-015-0291-8
- LeCun, Y. (2025, février 8). L’émergence de l’AGI… [Tweet]. X. https://x.com/ylecun/status/1886141076592845169
- Liang, C. (2025, février 8). Présentation de RV… [Tweet]. X. https://x.com/liangchen5518/status/1886171667522842856
- Vision IA. (2025, février 7). DeepSeek a Démultiplié sa Vitesse x2 TOUT SEUL – L’IA Auto-Évolutive [Vidéo]. YouTube. https://www.youtube.com/@VisionIA-FR
- Wilson, S. (2025). DeepSeek-R1 et l’optimisation du code. Simon Wilson Blog. https://simonwillison.net/search/?q=Xuan-son
- Nguyen, X.-S. (2025). Optimisation de llama.cpp [Dépôt GitHub]. GitHub. https://github.com/ggerganov/llama.cpp/pull/11453
février 10, 2025

Génération de définitions astronomiques sur l’ensemble des types objets du cosmos avec LLaMA

Salut les passionnés d’astronomie et les codeurs curieux ! Aujourd’hui, je vous propose un voyage interstellaire à travers un script Python qui utilise l’API locale d’Ollama pour générer des définitions et des notes explicatives sur des objets astronomiques. 🌌✨

Pourquoi ce script est-il génial ?

Imaginez que vous avez un fichier Excel rempli de données sur des objets célestes, mais vous avez besoin de descriptions détaillées et de notes explicatives pour chaque type et sous-type d’objet. C’est là que notre script entre en jeu ! Il parcourt chaque ligne de votre fichier Excel, envoie des requêtes à l’API d’Ollama pour obtenir des définitions en français, et sauvegarde les résultats dans un nouveau fichier Excel. Et le meilleur dans tout ça ? Si un type ou un sous-type d’objet a déjà été traité, le script réutilise la définition précédemment générée pour éviter des appels redondants à l’API. 🚀

Origine du Fichier Excel

Le fichier Excel utilisé dans ce script provient du Catalogue Exotica de Breakthrough Listen, un projet de recherche de l’Université de Californie à Berkeley. Le Catalogue Exotica est une collection de plus de 700 objets célestes distincts, visant à inclure « un de chaque » type d’objet astronomique connu. Il comprend des exemples de chaque type dans l’échantillon Prototype, des objets extrêmes avec des propriétés record dans l’échantillon Superlative, et des cibles énigmatiques dans l’échantillon Anomaly. 🌠

Le fichier Excel a été extrait du code source de l’article scientifique « One of Everything: The Breakthrough Listen Exotica Catalog » disponible sur arXiv. La conversion du tableau LaTeX en fichier Excel a été réalisée à l’aide du convertisseur en ligne disponible sur TableConvert.

Prérequis

Avant de plonger dans le code, assurez-vous d’avoir les éléments suivants :

Python 3.x
Bibliothèque pandas
Bibliothèque requests
API locale d’Ollama accessible à l’adresse http://localhost:11434/api/generate
Fichier Excel updated_table.xlsx avec les colonnes Type, Sous-Type, et Exemple

Installation des Prérequis

Installer Python 3.x : Vous pouvez télécharger et installer Python à partir du site officiel python.org.
Installer les bibliothèques nécessaires :pip install pandas requests openpyxl
Configurer l’API locale d’Ollama : Assurez-vous que l’API locale d’Ollama est accessible à l’adresse http://localhost:11434/api/generate.

Le Script Magique 🪄

Voici le script complet avec des commentaires détaillés en français et en anglais :

# -*- coding: utf-8 -*-
# This program is free software: you can redistribute it and/or modify
# it under the terms of the GNU General Public License as published by
# the Free Software Foundation, either version 3 of the License, or
# (at your option) any later version.
#
# This program is distributed in the hope that it will be useful,
# but WITHOUT ANY WARRANTY; without even the implied warranty of
# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
# GNU General Public License for more details.
#
# You should have received a copy of the GNU General Public License
# along with this program. If not, see <https://www.gnu.org/licenses/>.

# Description:
# This script uses the local Ollama API to generate definitions and explanatory notes
# on astronomical objects from an Excel file. The script iterates over each row of the
# Excel file, sends requests to the API to obtain definitions in French, and saves the
# results in a new Excel file. If a type or subtype of object has already been processed,
# the script reuses the previously generated definition to avoid redundant API calls.
#
# Description :
# Ce script utilise l'API locale d'Ollama pour générer des définitions et des notes explicatives
# sur des objets astronomiques à partir d'un fichier Excel. Le script parcourt chaque ligne du
# fichier Excel, envoie des requêtes à l'API pour obtenir des définitions en français, et sauvegarde
# les résultats dans un nouveau fichier Excel. Si un type ou un sous-type d'objet a déjà été traité,
# le script réutilise la définition précédemment générée pour éviter des appels redondants à l'API.

# Origin of the Excel file:
# The Excel file used in this script comes from the Breakthrough Listen Exotica Catalog,
# a research project at the University of California, Berkeley. The Exotica Catalog is a
# collection of over 700 distinct celestial objects, aiming to include "one of everything"
# type of astronomical object known. It includes examples of each type in the Prototype sample,
# extreme objects with record properties in the Superlative sample, and enigmatic targets in the Anomaly sample.
#
# The Excel file was extracted from the source code of the scientific article "One of Everything:
# The Breakthrough Listen Exotica Catalog" available on arXiv. The conversion of the LaTeX table
# to an Excel file was done using the online converter available on TableConvert.
#
# Origine du fichier Excel :
# Le fichier Excel utilisé dans ce script provient du Catalogue Exotica de Breakthrough Listen,
# un projet de recherche de l'Université de Californie à Berkeley. Le Catalogue Exotica est une
# collection de plus de 700 objets célestes distincts, visant à inclure "un de chaque" type d'objet
# astronomique connu. Il comprend des exemples de chaque type dans l'échantillon Prototype, des objets
# extrêmes avec des propriétés record dans l'échantillon Superlative, et des cibles énigmatiques dans
# l'échantillon Anomaly.
#
# Le fichier Excel a été extrait du code source de l'article scientifique "One of Everything:
# The Breakthrough Listen Exotica Catalog" disponible sur arXiv. La conversion du tableau LaTeX
# en fichier Excel a été réalisée à l'aide du convertisseur en ligne disponible sur TableConvert.

# Import necessary libraries
# Importer les bibliothèques nécessaires
import pandas as pd
import requests
import json

# Load the Excel file
# Charger le fichier Excel
print("Loading the Excel file...")
print("Chargement du fichier Excel...")
df = pd.read_excel('updated_table.xlsx', engine='openpyxl')
print("Excel file loaded successfully.")
print("Fichier Excel chargé avec succès.")

# Dictionaries to store already generated definitions
# Dictionnaires pour stocker les définitions déjà générées
definitions_type = {}
definitions_subtype = {}
definitions_example = {}

# Function to generate text using the local Ollama API
# Fonction pour générer du texte avec l'API locale d'Ollama
def generate_text(prompt):
    print(f"Sending request to the API for the prompt: {prompt}")
    print(f"Envoi de la requête à l'API pour le prompt : {prompt}")
    response = requests.post(
        "http://localhost:11434/api/generate",  # Ensure the local API is accessible at this address
        # Assurez-vous que l'API locale est accessible à cette adresse
        json={"model": "llama3.3:70b-instruct-q2_K", "prompt": prompt}
    )
    
    # Debugging: Print the raw API response
    # Débogage : Afficher la réponse brute de l'API
    print("Raw API response:", response.text)
    print("Réponse brute de l'API:", response.text)
    
    # Assemble fragmented responses
    # Assembler les réponses fragmentées
    full_response = ""
    for line in response.text.splitlines():
        try:
            json_line = json.loads(line)
            full_response += json_line["response"]
            if json_line.get("done", False):
                break
        except json.JSONDecodeError as e:
            print("JSON decoding error:", e)
            print("Erreur de décodage JSON:", e)
            return "Text generation error"
            return "Erreur de génération de texte"
    
    print(f"Complete API response: {full_response}")
    print(f"Réponse complète de l'API : {full_response}")
    return full_response

# Iterate over the DataFrame rows and fill the columns
# Parcourir les lignes du DataFrame et remplir les colonnes
print("Starting to process DataFrame rows...")
print("Début du traitement des lignes du DataFrame...")
for index, row in df.iterrows():
    print(f"Processing row {index + 1}/{len(df)}")
    print(f"Traitement de la ligne {index + 1}/{len(df)}")
    type_query = row['Type']
    subtype_query = row['Sous-Type']
    example_query = row['Exemple']
    
    # Check if the type definition has already been generated
    # Vérifier si la définition du type a déjà été générée
    if type_query in definitions_type:
        df.at[index, 'Définition du type'] = definitions_type[type_query]
    else:
        definition_type = generate_text(f"Définition du type d'objet astronomique {type_query} en français:")
        definitions_type[type_query] = definition_type
        df.at[index, 'Définition du type'] = definition_type

# Save the updated Excel file after each definition
    # Sauvegarder le fichier Excel mis à jour après chaque définition
    df.to_excel(f'updated_table_with_definitions_{index + 1}_type.xlsx', index=False)
    
    # Check if the subtype definition has already been generated
    # Vérifier si la définition du sous-type a déjà été générée
    subtype_key = (type_query, subtype_query)
    if subtype_key in definitions_subtype:
        df.at[index, 'Définition du sous-type'] = definitions_subtype[subtype_key]
    else:
        definition_subtype = generate_text(f"Définition du sous-type d'objet astronomique {subtype_query} de type {type_query} en français:")
        definitions_subtype[subtype_key] = definition_subtype
        df.at[index, 'Définition du sous-type'] = definition_subtype
    
    # Save the updated Excel file after each definition
    # Sauvegarder le fichier Excel mis à jour après chaque définition
    df.to_excel(f'updated_table_with_definitions_{index + 1}_subtype.xlsx', index=False)
    
    # Check if the explanatory note on the example has already been generated
    # Vérifier si la note explicative sur l'exemple a déjà été générée
    example_key = (type_query, subtype_query, example_query)
    if example_key in definitions_example:
        df.at[index, 'Note explicative sur l\'exemple'] = definitions_example[example_key]
    else:
        definition_example = generate_text(f"Note explicative sur l'exemple d'objet astronomique {type_query}, {subtype_query}, {example_query} en français:")
        definitions_example[example_key] = definition_example
        df.at[index, 'Note explicative sur l\'exemple'] = definition_example
    
    # Save the updated Excel file after each definition
    # Sauvegarder le fichier Excel mis à jour après chaque définition
    df.to_excel(f'updated_table_with_definitions_{index + 1}_example.xlsx', index=False)

print("Finished processing rows. Saving the final Excel file...")
print("Traitement des lignes terminé. Sauvegarde du fichier Excel final...")

# Save the final updated Excel file
# Sauvegarder le fichier Excel final mis à jour
df.to_excel('updated_table_with_definitions_final.xlsx', index=False)

print("The Excel file has been updated with definitions generated by LLaMA in French.")
print("Le fichier Excel a été mis à jour avec des définitions générées par LLaMA en français.")

Médiagraphie

Breakthrough Listen. (n.d.). Exotic Target Catalog. Récupéré de http://seti.berkeley.edu/exotica/
Lacki, B. C., Lebofsky, M., Isaacson, H., Siemion, A., Sheikh, S., Croft, S., … & Werthimer, D. (2020). One of Everything: The Breakthrough Listen Exotica Catalog. arXiv. Récupéré de https://arxiv.org/pdf/2006.11304.pdf
TableConvert. (n.d.). Convert LaTeX Table to Excel Online. Récupéré de https://tableconvert.com/latex-to-excel
Python Software Foundation. (n.d.). pandas documentation. Récupéré de https://pandas.pydata.org/pandas-docs/stable/
Reitz, K., & Chovanec, T. (n.d.). Requests: HTTP for Humans. Récupéré de https://docs.python-requests.org/en/latest/

Conclusion

Et voilà ! Vous avez maintenant un script Python puissant et flexible pour générer des définitions et des notes explicatives sur des objets astronomiques à partir d’un fichier Excel. Ce script utilise l’API locale d’Ollama pour obtenir des définitions en français et sauvegarde les résultats dans un nouveau fichier Excel. N’hésitez pas à personnaliser ce script selon vos besoins et à explorer les merveilles de l’astronomie avec des descriptions détaillées et précises. 🚀🌌

Si vous avez des questions ou des problèmes, n’hésitez pas à demander de l’aide ! 😊

Bon codage et bon voyage interstellaire ! 🌠✨

Plus de détails sur mon site Github : https://github.com/steveprudhomme/astronomical-object-type-metadata

janvier 5, 2025