Sources de Big Data en médecine

by Kevin Hwang, MD, MPH; Évalué par Richard N. Fogoros, MD

Une définition simple des données volumineuses en médecine est «la totalité des données relatives aux soins de santé et au bien-être des patients» (Raghupathi 2014). Mais quels sont exactement ces types de données, et d'où viennent-elles?

Voici un aperçu général des types et des sources de données importantes qui intéressent les fournisseurs de soins de santé, les chercheurs, les payeurs, les décideurs et l'industrie.

Ces catégories ne sont pas mutuellement exclusives, car les mêmes données peuvent provenir de diverses sources.

Cette liste n'est pas non plus exhaustive, car l'application pratique de l'analyse de données volumineuses continuera sûrement à s'étendre.

Systèmes d'information clinique

Ce sont des sources traditionnelles de données cliniques que les fournisseurs de soins de santé ont l'habitude de consulter.

Les dossiers de santé électroniques (DSE) recueillent, conservent et affichent des données démographiques, antécédents médicaux, problèmes médicaux actifs, immunisations, allergies, médicaments, signes vitaux, résultats de tests de laboratoire et de radiologie, rapports de pathologie, notes d'évolution créées par les soins de santé. fournisseurs et documents administratifs et financiers
Les dossiers médicaux électroniques (DME) ne sont pas identiques aux DSE et se rapportent habituellement aux données stockées avec un médecin en particulier.
Les échanges d'information sur la santé servent de carrefour entre des systèmes d'information clinique disparates

Les registres des patients, tenus par les organismes de soins de santé sur leurs propres patients, sont souvent liés au DSE. D'autres registres suivent les vaccinations, le cancer, les traumatismes et d'autres problèmes de santé publique sur une plus grande échelle géographique.

Les portails de patients permettent aux patients d'accéder aux renseignements personnels sur la santé conservés dans le DSE d'un établissement de soins de santé. Certains portails de patients permettent également aux utilisateurs de demander des recharges d'ordonnance et d'échanger des messages électroniques sécurisés avec l'équipe soignante.

Les entrepôts de données cliniques regroupent les données sur les patients provenant de multiples systèmes d'information clinique, tels que les DSE et d'autres sources énumérées ci-dessus

Données sur les réclamations des payeurs

Les payeurs publics (par exemple Medicare) et les payeurs privés ont de grands dépôts de données de réclamations sur leurs bénéficiaires. Certains assureurs santé offrent maintenant des incitations pour partager vos données de santé.

Études de recherche

Les bases de données de recherche contiennent des informations sur les participants à l'étude, les traitements expérimentaux et les résultats cliniques. Les grandes études sont généralement parrainées par des sociétés pharmaceutiques ou des organismes gouvernementaux. Une application de la médecine personnalisée est de faire correspondre les patients individuels avec des traitements efficaces, en fonction des modèles dans les données des essais cliniques.

Cette approche va au-delà de l'application des principes de la médecine factuelle, selon laquelle un fournisseur de soins de santé détermine si un patient partage des caractéristiques générales (âge, sexe, race, statut clinique) avec les participants aux essais. Avec l'analyse de données volumineuses, il est possible de sélectionner un traitement basé sur des informations beaucoup plus granulaires, telles que le profil génétique du cancer d'un patient (voir ci-dessous).

Les systèmes d'aide à la décision clinique (CDSS) se sont également développés rapidement et représentent aujourd'hui une grande partie de l'intelligence artificielle (IA) en médecine.

Ils utilisent les données des patients pour aider les cliniciens à prendre leurs décisions et sont souvent combinés avec les DSE.

Bases de données génétiques

Le dépôt de l'information génétique humaine continue de s'accumuler rapidement. Depuis la fin du projet sur le génome humain en 2003, le coût du séquençage de l'ADN humain a été réduit d'un million de fois. Le Personal Genome Project (PGP), lancé en 2005 par la Harvard Medical School, vise à séquencer et à publier les génomes complets de 100 000 volontaires du monde entier. Le PGP lui-même est un excellent exemple de projet Big Data en raison du volume et de la variété des données.

Un génome personnel contient environ 100 gigaoctets de données. En plus du séquençage des génomes, le PGP recueille également des données à partir des DSE, des enquêtes et des profils de microbiome.

Un certain nombre de sociétés offrent un séquençage génétique direct au consommateur pour la santé, les traits personnels et la pharmacogénétique sur une base commerciale.

Ces informations personnelles pourraient être soumises à l'analyse de Big Data. Par exemple, 23andMe a cessé d'offrir des rapports génétiques liés à la santé à de nouveaux clients à compter du 22 novembre 2013, conformément à la Food and Drug Administration des États-Unis. Cependant, en 2015, la compagnie a commencé à offrir à nouveau certains composants de santé de leur test de salive génétique, cette fois avec l'approbation de la FDA.

Dossiers publics

Le gouvernement tient des registres détaillés des événements liés à la santé, tels que l'immigration, le mariage, la naissance et la mort. Le recensement des États-Unis a recueilli de vastes quantités d'informations tous les 10 ans depuis 1790. Le site Web des statistiques du recensement comptait 370 milliards de cellules en 2013, avec environ 11 milliards de plus ajoutés chaque année.

Recherches Web

Les informations de recherche sur le Web collectées par Google et d'autres fournisseurs de recherche sur le Web peuvent fournir des informations en temps réel sur la santé d'une population. Cependant, la valeur des grandes données provenant des modèles de recherche sur le Web pourrait être améliorée en les combinant avec des sources traditionnelles de données sur la santé.

Des médias sociaux

Facebook, Twitter et d'autres plates-formes de médias sociaux génèrent une riche variété de données 24 heures sur 24, donnant une vue sur les emplacements, les comportements de santé, les émotions et les interactions sociales des utilisateurs. L'application des données massives des médias sociaux à la santé publique a été désignée comme la détection numérique des maladies ou l'épidémiologie numérique. Twitter, par exemple, a été utilisé pour analyser les épidémies de grippe dans la population générale.

Le World Well-Being Project lancé à l'Université de Pennsylvanie est un autre exemple d'étude des médias sociaux pour mieux comprendre l'expérience et la santé des gens. Le projet rassemble des psychologues, des statisticiens et des informaticiens qui analysent la langue utilisée lors de l'interaction en ligne, par exemple lors de la rédaction de mises à jour sur Facebook et Twitter. Les scientifiques observent comment le langage des utilisateurs se rapporte à leur santé et à leur bonheur. Les progrès dans le traitement du langage naturel et l'apprentissage automatique contribuent à leurs efforts. Une publication récente de l'Université de Pennsylvanie a examiné les moyens de prédire la maladie mentale en analysant les médias sociaux. Il semble que les symptômes de la dépression et d'autres problèmes de santé mentale puissent être détectés en étudiant notre utilisation d'Internet. Les scientifiques espèrent que ces méthodes permettront à l'avenir de mieux identifier et aider les personnes à risque.

L'Internet des objets (IoT)

Des informations massives sur la santé sont également collectées et stockées sur des appareils mobiles et domestiques .

Smartphones : Des milliers d'applications mHealth capturent des informations sur l'activité physique de l'utilisateur, son apport nutritionnel, ses habitudes de sommeil, ses émotions et d'autres paramètres. Les applications de téléphone portable natif (par exemple GPS, email, textos) peuvent également donner des indices sur l'état de santé d'un individu.
Moniteurs et appareils portables: Les podomètres, accéléromètres, lunettes, montres et puces intégrées sous la peau recueillent également des informations relatives à la santé et peuvent également les envoyer dans le nuage.
Les appareils de télémédecine permettent aux professionnels de la santé de surveiller les paramètres des patients, tels que la tension artérielle, la fréquence cardiaque, la fréquence respiratoire, l'oxygénation, la température, les tracés ECG et le poids.

Transactions financières

Les transactions par carte de crédit des patients sont incluses dans les modèles prédictifs utilisés par Carolinas HealthCare System pour identifier les patients à haut risque d'être réadmis à l'hôpital. Le fournisseur de soins de santé basé à Charlotte utilise les données massives pour diviser les patients en divers groupes, par exemple, en fonction de la maladie et de l'emplacement géographique.

Implications éthiques et de confidentialité

Il faut souligner que, dans certains cas, il pourrait y avoir des implications éthiques et de confidentialité importantes lors de la collecte et de l'accès aux données dans les soins de santé. De nouvelles sources de données volumineuses peuvent améliorer notre compréhension de ce qui a une incidence sur les individus et la santé de la population. Cependant, différents risques doivent être soigneusement pris en compte et surveillés. Il a également été reconnu que les données précédemment considérées comme anonymes peuvent être réidentifiées. Par exemple, le professeur Latanya Sweeney du Data Privacy Lab de Harvard a examiné 1 130 volontaires impliqués dans le projet Personal Genome. Elle et son équipe ont pu nommer correctement 42% des participants en fonction des informations qu'ils partageaient (code postal, date de naissance, sexe). Cette connaissance peut augmenter notre conscience des risques potentiels et nous aider à prendre de meilleures décisions de partage de données.

> Sources:

> Conway M, O'Connor D. Médias sociaux, données massives et santé mentale: avancées actuelles et implications éthiques. Current Opinion in Psychology 2016; 9: 77-82.

> Fernandes L, O'Connor M, Weaver V. De grandes données, de plus grands résultats. Journal de l'American Health Information Management Association 2012; 83 (10): 38-43

> Guntuku S, Yaden D, Kern M, Ungar L, Eichstaedt J. Détecter la dépression et la maladie mentale sur les médias sociaux: un examen intégratif . Opinion actuelle dans Behavioral Sciences 2017; 18: 43-49.

> Lazer D, Kennedy R, Roi G, Vespignani A. La parabole de Google Grippe: Pièges dans l'analyse de Big Data . Science 2014; 343 (6176): 1203-1205.

> Raghupathi W, Raghupathi V. Analyse de données massives dans les soins de santé: promesse et potentiel al. Science et systèmes d'information sur la santé 2014; 2: 3.

> Sweeney L, Abu A, Winn J. Identification des participants au projet de génome personnel par nom . Université de Harvard. Data Privacy Lab. Livre blanc 1021-1. 24 avril 2013.