Imputation, clustering des repondants et prediction des risques de sante

Cet article fait partie des mises à jour hebdomadaires sur les nouveaux développements dans l’utilisation des méthodes et outils d’IA pour les enquêtes (ménages, individus, exploitations agricoles…) et les données administratives pour les statistiques officielles.

Période couverte : 16–22 mars 2026

Mots-clés : IA, recherche par sondage, statistiques officielles, apprentissage automatique, qualité des données, enquêtes auprès des ménages, méthodes statistiques, analyse de données

Points clés à retenir

L’IA générative est une arme à double tranchant : tout en offrant un potentiel significatif de gains de productivité dans des domaines comme le codage et la conception de questionnaires, elle représente également une menace existentielle pour la recherche par sondage en ligne en générant de fausses réponses de haute qualité.

Accent sur la qualité des données et la non-réponse : Un thème majeur est l’application de l’IA pour améliorer la qualité des données grâce à la détection automatisée des erreurs, au nettoyage des données et à l’imputation, ainsi que pour faire face à la baisse des taux de réponse grâce à la conception adaptative d’enquêtes.

Les ONS explorent et adoptent activement l’IA : Les Offices Nationaux de Statistique (ONS) sont à l’avant-garde de l’exploration et de la mise en œuvre de l’IA, avec un fort accent sur le développement de cadres d’IA responsables, le renforcement des capacités organisationnelles et la collaboration sur les meilleures pratiques.

De nouveaux outils et cadres émergent : Le développement de nouveaux outils de visualisation et d’analyse de données, ainsi que de cadres pour une IA responsable, sera crucial pour l’adoption réussie de l’IA dans la recherche par sondage.

Édition et détection d’erreurs de données

Les développements récents en matière d’édition et de détection d’erreurs de données basées sur l’IA se concentrent sur l’exploitation de l’apprentissage automatique pour améliorer la qualité des données et identifier les défauts de conception des enquêtes. Les applications clés incluent l’imputation de données, le regroupement de répondants et la prédiction des risques liés à la santé à partir des données d’enquête. Cependant, la fiabilité de l’IA générative dans la détection de certains types d’erreurs de conception d’enquête reste une préoccupation.

Une étude de 2026 parue dans la revue Processes a présenté une approche d’apprentissage automatique pour la complétion, l’augmentation et l’interprétation d’une enquête auprès des ménages sur la gestion des déchets alimentaires, utilisant XGBoost pour l’imputation des données et K-means pour le regroupement des répondants [1]. Une autre étude de 2026 parue dans Scientific Reports a proposé un modèle d’apprentissage automatique transférable pour prédire le risque d’apport insuffisant en micronutriments à partir des données d’enquête auprès des ménages [2]. En revanche, une étude de 2025 parue dans l’IFLA Journal a révélé que si l’IA générative peut détecter certaines erreurs de conception d’enquête, elle a du mal avec des problèmes plus complexes comme les questions à double sens [3].

Traitement du langage naturel et LLM pour la conception d’enquêtes

L’utilisation des grands modèles linguistiques (LLM) dans la conception d’enquêtes est un domaine en évolution rapide, avec un potentiel significatif d’opportunités et de défis. Si les LLM peuvent améliorer le développement de questionnaires et les tests cognitifs, ils constituent également une menace pour l’intégrité de la recherche par sondage en ligne.

Une étude parue dans l’International Journal of Market Research a examiné l’utilisation des LLM pour les entretiens cognitifs, constatant que, bien que prometteurs, les modèles actuels nécessitent un développement supplémentaire [7]. Des recherches publiées dans PNAS en novembre 2025 ont révélé que les LLM avancés peuvent générer des réponses d’enquête de type humain difficiles à détecter, soulevant des préoccupations quant à la validité des données [8]. Un article dans Communication and Change offre un aperçu complet des opportunités et des défis de l’utilisation des LLM dans la recherche par sondage, soulignant la nécessité d’une rigueur méthodologique et de considérations éthiques [9].

IA pour le traitement, le codage et la classification des données d’enquête

Les Offices Nationaux de Statistique (ONS) explorent activement l’utilisation de l’IA pour le traitement, le codage et la classification des données d’enquête afin d’améliorer l’efficacité et la précision. Les initiatives clés incluent le développement de projets d’IA générative et d’ateliers pour partager les meilleures pratiques.

L’atelier HLG-MOS de la CEE-ONU en janvier 2026 a souligné le potentiel de l’IA générative pour les gains de productivité en matière de codage et l’importance de la supervision humaine [10]. Le projet ASCENT, une collaboration de 13 ONS, élabore des lignes directrices sur l’ajustement de la non-réponse et la gestion de ses effets sur la qualité des données, avec un manuel final attendu début 2026 [11]. Les National Academies of Sciences, Engineering, and Medicine organiseront une Journée de l’IA pour les statistiques fédérales en avril 2026 pour discuter des implications de l’IA pour les statistiques fédérales [12].

Apprentissage automatique et IA pour l’analyse, la pondération et l’estimation des données d’enquête

L’adoption responsable de l’IA et de l’apprentissage automatique dans l’analyse des données d’enquête est une priorité essentielle pour les ONS. Le développement de cadres et de lignes directrices est crucial pour garantir l’utilisation éthique et efficace de ces technologies.

Le HLG-MOS de la CEE-ONU a publié un rapport en septembre 2025 fournissant des orientations sur l’adoption, la mise en œuvre et la gouvernance responsables de l’IA générative pour les statistiques officielles [13]. En octobre 2025, le HLG-MOS a également publié un cadre pour une IA responsable dans les statistiques officielles, décrivant six principes directeurs fondamentaux [14].

IA dans les rapports d’enquête, la visualisation et la diffusion des données

Un article de Synergy Codes en novembre 2025 a passé en revue 17 outils de visualisation de données basés sur l’IA pour 2026, soulignant leurs diverses fonctionnalités [15]. Le Digital Project Manager a examiné 12 outils de reporting basés sur l’IA en janvier 2026, soulignant leur rôle dans la simplification des rapports de projet et de l’analyse de données [16]. Zonka Feedback a également comparé 12 outils d’analyse d’enquête basés sur l’IA en février 2026, en se concentrant sur leur capacité à transformer les réponses brutes d’enquête en informations exploitables [17].

IA dans la méthodologie d’enquête

L’atelier HLG-MOS de la CEE-ONU en janvier 2026 a discuté des travaux du projet ASCENT sur la conception adaptative d’enquêtes et les stratégies de collecte adaptatives en temps réel [10]. Un document de travail du FMI de mars 2026 a souligné la conception adaptative d’enquêtes comme une approche croissante pour lutter contre la non-réponse et améliorer la représentativité [18]. Une étude pilote menée par Open Research Lab au troisième trimestre 2025 a démontré le potentiel de l’IA conversationnelle pour améliorer la participation aux enquêtes et la richesse des données [19].

IA dans les statistiques officielles et les enquêtes auprès des ménages

Les ONS adoptent de plus en plus l’IA pour améliorer leurs écosystèmes de données et rendre les statistiques officielles plus accessibles et utilisables. Les développements clés incluent le lancement de portails de données basés sur l’IA et l’intégration de l’IA dans la classification statistique et les opérations d’enquête.

Eurostat a rapporté en février 2026 que 64 % des jeunes âgés de 16 à 24 ans dans l’UE ont utilisé l’IA générative en 2025, soulignant un changement démographique significatif dans l’adoption de l’IA [20]. Le Rapport sur le développement dans le monde 2026 de la Banque mondiale se concentrera sur l’IA pour le développement, en examinant ses implications pour la croissance économique, l’emploi et les services gouvernementaux [21]. En mars 2026, l’ONS de l’Inde a lancé plusieurs initiatives basées sur l’IA, y compris