Les données de santé, tant dans le cadre du soin que de la recherche, sont devenues massives ; on parle de « Big Data ». Cette quantité croissante de données est liée à la digitalisation du monde et des progrès technologiques, notamment en biologie et en radiologie.
Au-delà des données issues d’expérimentations spécifiques (séquençage du génome, objets connectés comme les aides auditives), on peut accéder aussi aux données de la vie réelle telle que les données hospitalières (via des « entrepôts de données hospitaliers ») ou les données de remboursement de l’assurance maladie (via le Système national de données de santé, SNDS), ou encore grâce à des cohortes telles que Constances, qui a récemment fourni des informations sur l’épidémiologie de la perte auditive.
Associée à la croissance des capacités de calcul numérique et au progrès dans les méthodes notamment en intelligence artificielle, l’exploitation de ces données a déjà permis des résultats impactants et ouvre de nombreuses perspectives. Au cours de la pandémie de Covid-19, l’analyse de ces data a contribué au développement de vaccin (séquençage du virus, évaluation de l’efficacité), du suivi de l’épidémie et de son impact sur la santé des populations.
Cependant, leur exploitation nécessite des capacités techniques, des expertises multiples pour leur organisation, sécurisation et analyse et surtout une gouvernance bien établie pour contrôler et informer les citoyens sur qui accède à ces données et à quelles fins.