Comment l'IA va décrypter un siècle de recensements de la population
Le projet Socface, piloté par l’Institut national d’études démographiques (Ined), vise à retranscrire automatiquement l’ensemble des recensements français entre 1836 et 1936. Une première mondiale, qui bénéficiera aux généalogistes.
D’une ampleur inédite, ce projet de reconnaissance automatique de caractère exploite des documents conservés et numérisés par les services d’archives départementales.
D’une ampleur inédite, ce projet de reconnaissance automatique de caractère exploite des documents conservés et numérisés par les services d’archives départementales.
C’est du jamais-vu en France - et même dans le monde : depuis octobre 2021, une équipe d’archivistes, de démographes, d’économistes, d’historiens et d’informaticiens travaille à mettre au point une technologie capable de retranscrire automatiquement l’ensemble des recensements de la population française entre 1836 et 1936.
« L’objectif, c’est de construire une base de données de tous les individus, ou presque, qui ont vécu en France sur cette période de 100 ans », explique Lionel Kesztenbaum, directeur de recherche à l’Institut national d’études démographiques (Ined) et coordinateur du projet Socface. « Les Américains l’ont déjà fait... mais seulement pour l’année 1950 », pointe la généalogiste Patricia Machet.
500 millions de lignes à analyser
Nom, année de naissance, profession… L’avantage des recensements, qui ont lieu tous les cinq ans, c’est qu’ils permettent d’« avoir des données individuelles fines, mais aussi de reconstituer les trajectoires des individus », poursuit l’historien et démographe. Jusqu’ici, cette source était « peu valorisée car difficile d’accès », les données étant conservées dans une centaine de services d’archives distincts.
« Compte tenu de la masse de données à traiter [quelque 500 millions d’entrées nominatives, NDLR], c’est juste impossible de les collecter à la main », constate Lionel Kesztenbaum. Mais comme il s’agit d’« une source relativement standardisée », elle est facilement exploitable par l’intelligence artificielle. Concrètement, les membres du projet Socface – mené par l’Ined, les Archives de France, l’École d’économie de Paris et la société française Teklia – entraînent l’IA à reconnaître le texte manuscrit contenu dans les images fournies par les services d’archives.
« Il y a des parties qui sont inexploitables, d’autres qui sont parfaites », reconnaît Lionel Kesztenbaum. Selon lui, ce n’est pas tant « la variabilité de l’écriture ou de la source elle-même » que la « variabilité des pratiques qui est problématique pour l’interprétation des résultats ». Difficile pour la machine, par exemple, de saisir les différents types d’abréviations du mot « cultivateur ».
Il va falloir patienter un peu
Le projet Socface devait initialement s’achever ce mois-ci mais a pris du retard, la collecte des listes nominatives ayant été « beaucoup plus longue que prévue », justifie Lionel Kesztenbaum. Il devrait finalement aboutir en mars 2026 et permettre aux chercheurs d’en apprendre plus sur l’évolution de la société française, les trajectoires migratoires ou encore les mobilités sociales.
Il va surtout être d’« une énorme utilité pour les personnes qui se mettent à la généalogie et ne sont pas habituées à lire des écritures manuscrites », estime la généalogiste Marie-Odile Mergnac. La base de données établie grâce à l’IA sera accessible sur le portail FranceArchives – sur le modèle de ce qui existe déjà pour les militaires français tués pendant la Première Guerre mondiale – et chaque archive départementale pourra diffuser les retranscriptions sur son site. Quand ? « Pas avant début 2026 », nous répond Lionel Kesztenbaum.
https://www.ledauphine.com/science-et-t ... AhhYxmFE6A
L'IA et les recensements
- Bernard-Thonon
- Marmottes
- Messages : 7805
- Enregistré le : 12 sept. 2009, 16:29
- Localisation : 74200 Thonon les bains
- Contact :
L'IA et les recensements
Bernard Bocchetta / Thonon
- Marmot91
- Marmottes
- Messages : 1750
- Enregistré le : 06 janv. 2019, 14:48
- Localisation : Brunoy (91)
Re: L'IA et les recensements

(oui, j'avais mis un sujet là dessus, avec un jalon pour mars 2025... le 14 juil. 2022 !

viewtopic.php?t=11355
.
Par contre, attendons le résultat final, car on risque d'être : (cochez la case idoine !)
o - Déçu(e)s
o - Étonné(e)s
o - Déboussolé(e)s
o - Autre ...
.
La progression à ce jour :
https://socface.site.ined.fr/fr/collabo ... collectes/
.
et pour rappel, en attendant cela, la Base de noms de France Archives :
https://francearchives.gouv.fr/fr/basedenoms
Daniel CHARIGNON - Marmot91