Personas synthetiques, jumeaux numeriques et qualite des donnees IA

Les jumeaux numériques, quant à eux, sont des répliques d’IA au niveau individuel construites à partir de données client détaillées.

Cet article fait partie des mises à jour hebdomadaires sur les nouveaux développements dans l’utilisation des méthodes et outils d’IA pour les enquêtes (ménages, individus, exploitations agricoles…) et les données administratives pour les statistiques officielles.

Période couverte : 17–23 novembre 2025

Mots-clés : IA, recherche par sondage, statistiques officielles, apprentissage automatique, qualité des données, enquêtes auprès des ménages

Introduction

Cette mise à jour hebdomadaire fournit un résumé des nouveaux développements dans l’application de l’intelligence artificielle (IA) dans la recherche par sondage et les enquêtes auprès des ménages. Le rapport couvre les tendances récentes en matière d’édition, de nettoyage, de traitement, d’analyse, de rapport et de diffusion des données, offrant des informations précieuses aux chercheurs et aux bureaux de statistique. Les conclusions sont basées sur un examen d’articles de presse, d’articles universitaires et de publications de l’industrie de la semaine dernière.

Développements clés cette semaine

Cette semaine a été marquée par d’importantes discussions sur le potentiel transformateur de l’IA dans les études de marché, avec un fort accent sur les personas synthétiques et les jumeaux numériques pour simuler les réponses humaines [1]. La qualité des données reste un thème essentiel, avec l’émergence de nouveaux outils basés sur l’IA pour automatiser la validation et le nettoyage des données [2]. Le rôle de l’IA dans les statistiques officielles a été souligné dans le discours présidentiel de l’IMS, qui prévoyait que les données générées par l’IA pourraient dépasser 80 % du total des données d’ici 2030 [3]. En outre, une nouvelle étude a démontré l’application réussie d’algorithmes d’apprentissage automatique pour l’analyse des données d’enquêtes auprès des ménages basées sur la population [4], tandis qu’une autre a introduit un cadre pour l’utilisation de l’IA générative dans la narration de données [5].

L’IA dans les études de marché : Personas synthétiques et jumeaux numériques

Un article récent de la Harvard Business Review a détaillé comment l’IA générative est sur le point de révolutionner l’industrie des études de marché, d’une valeur de 140 milliards de dollars, grâce à l’utilisation de personas synthétiques et de jumeaux numériques [1]. Ces proxys générés par l’IA pour les répondants humains promettent de réduire le temps et le coût des méthodes d’enquête traditionnelles.

En utilisant des données accessibles au public ou propriétaires pour simuler les réponses humaines aux questions et aux enquêtes, ces nouveaux outils promettent de permettre aux spécialistes du marketing de mener des recherches et des expériences sans le temps, le coût et la charge des participants des entretiens ou des enquêtes traditionnels.

— Harvard Business Review [1]

Les personas synthétiques représentent un individu ou un groupe composite et peuvent être utilisés de deux manières : une approche descendante pour une seule meilleure réponse, ou une approche ascendante créant un “échantillon de silicium” avec une variabilité de réponse. Les jumeaux numériques, quant à eux, sont des répliques d’IA au niveau individuel construites à partir de données client détaillées. Les recherches de la Digital Twins Initiative de la Columbia Business School montrent des résultats prometteurs, avec une précision relative de 88 % dans les tests-retests, bien qu’ils ne soient pas encore “prêts pour le grand public” [1].

Qualité des données et édition automatisée

La qualité des données reste une préoccupation primordiale à mesure que l’adoption de l’IA se développe. AYTM, une plateforme d’études de marché, a introduit son système Data Centrifuge, un gardien de la qualité alimenté par l’IA qui utilise le PNL et l’apprentissage automatique pour identifier et supprimer les réponses d’enquête de faible qualité provenant de robots, de “speedsters” et de ceux qui donnent des réponses incohérentes [2]. Le système fonctionne selon la philosophie de révéler l’authenticité plutôt que de fabriquer des données, et comprend des défenses proactives comme des “pièges à miel” pour détecter les réponses d’enquête générées par les LLM.

Des recherches universitaires récentes soulignent également le passage croissant à l’édition automatisée des données dans les agences statistiques. Un article de K. Švambarytė de 2025 souligne la nécessité de techniques automatisées pour améliorer l’efficacité du traitement des données dans les statistiques de chiffre d’affaires des entreprises de services [6]. De même, un article du Statistical Journal of the IAOS discute de la rationalisation des flux de travail des données par la prise de décision automatisée pour remédier à la nature chronophage de l’édition manuelle [7].

Apprentissage automatique dans les enquêtes auprès des ménages

Une étude publiée dans BMC Infectious Diseases a démontré l’application de cinq algorithmes d’apprentissage automatique supervisé à des données d’enquête basées sur la population d’Afrique subsaharienne [4]. La recherche, qui a analysé les données de 123 132 femmes, a utilisé des modèles tels que CatBoost, XGBoost et LightGBM pour prédire la connaissance et la perception de la prophylaxie pré-exposition au VIH.

Le modèle CatBoost a atteint la plus grande précision à 91 %. L’étude a également utilisé SHAP (Shapley Additive Explanations) pour identifier les prédicteurs les plus influents, qui comprenaient l’éducation, l’exposition aux médias et l’utilisation des soins de santé. Cette recherche met en évidence le potentiel de l’apprentissage automatique pour extraire des informations exploitables à partir de données d’enquêtes auprès des ménages à grande échelle.

Tableau 1 : Performance des modèles d’apprentissage automatique sur les données d’enquêtes auprès des ménages [4]

L’IA pour la diffusion et la narration de données

L’IA générative est également explorée comme un outil de diffusion et de rapport de données. Un article du Journal of the Association for Information Science and Technology a introduit le cadre AI-DIKW (Data-Information-Knowledge-Wisdom) pour la co-conception d’histoires basées sur les données [5]. Ce cadre utilise l’IA générative comme co-concepteur pour aider les conteurs de données à encadrer et à éditer des récits à quatre étapes : extraire des informations des données, les enrichir de contexte, ajouter des étapes significatives et adapter l’histoire à des publics spécifiques. Cette approche a des implications significatives pour les bureaux de statistique qui cherchent à rendre leurs résultats plus accessibles et attrayants pour un public plus large.

L’avenir de l’IA dans les statistiques officielles

La prévalence croissante des données générées par l’IA présente à la fois des défis et des opportunités pour les agences statistiques. Dans son discours présidentiel à l’Institute of Mathematical Statistics, Tony Cai a projeté que les données générées par l’IA pourraient dépasser les données générées par l’homme dès 2026 et dépasser 80 % du total des données d’ici 2030 [3]. Ce changement nécessite le développement de cadres fondés sur des principes pour valider, faire confiance et interpréter les données générées par l’IA.

Le discours a souligné que les statistiques sont au centre de l’IA, avec des principes fondamentaux comme l’inférence, l’interprétabilité et la quantification de l’incertitude étant plus critiques que jamais. Les agences statistiques ont un rôle crucial à jouer pour garantir que les systèmes basés sur l’IA sont scientifiquement valides, conçus de manière éthique et rigoureusement évalués.

Références

[1] Korst, J., Puntoni, S., & Toubia, O. (2025, 15 novembre). Les outils d’IA qui transforment les études de marché. Harvard Business Review. Consulté à l’adresse https://hbr.org/2025/11/the-ai-tools-that-are-transforming-market-research

[2] AYTM. (2025, 12 novembre). Rencontrez vos gardiens de la qualité : Comment nous utilisons l’IA pour protéger votre recherche. Consulté à l’adresse https://aytm.com/post/meet-your-quality-guardians-how-we-use-ai-to-protect-your-research

[3] Cai, T. (2025, 15 novembre). Discours présidentiel de l’IMS : Les statistiques à la croisée des chemins – Défis et opportunités à l’ère de l’IA. Institute of Mathematical Statistics. Consulté à l’adresse https://imstat.org/2025/11/15/ims-presidential