La base de données sur la consommation de médicaments prescrits à l’hôpital et délivrés en officine en France
Le saviez-vous ?
Vous pouvez rapidement observer et déterminer le profil (sexe, âge) des personnes consommant un médicament à prescription hospitalière en France en 2021, ainsi que la répartition géographique des établissements qui le prescrivent !
Ce tutoriel va vous expliquer comment le faire simplement en utilisant des données en accès libre (Open Data). Il s’inscrit dans une série de tutoriels créés par la CRO e-Health Services Sanoïa afin de promouvoir les usages des données Open-Data.
Énormément de données sur le système de santé français sont disponibles gratuitement et à portée de clic : mobilisons-les !
1. Quelle base open data choisir ?
1.1 Notre choix
Pour répondre à notre question nous avons choisi la base Open PHMEV.
Résumé : Depuis 2014, Open PHMEV recense l’usage des médicaments prescrits à l’hôpital et ESPIC (établissement de santé privés d’intérêt collectif) délivrés en pharmacie de ville en France. Les données sont extraites du Système National de Données de Santé (SNDS).
Origine : Open PHMEV est mise à disposition par l’Assurance Maladie.
Liens utiles :
Rafraîchissement des données : Une fois par an.
Description : La base Open PHMEV est en réalité composée de deux types de jeux de données :
la "base complète" : appelée “Open PHMEV 20XX”. Cette base s’appuie sur les dépenses annuelles de prescription hospitalières de médicaments délivrés en ville. Les données sont regroupés selon les caractéristiques des bénéficiaires dont le sexe, la tranche d’âge, la catégorie d’établissement et la région d’implantation de l’établissement. Chacun de ces groupes de consommant contient les indicateurs suivants : le nombre de boîtes délivrées, le montant remboursé et la base de remboursement.
la "base régionale" : afin de restituer les prescriptions hospitalières délivrées en ville à un niveau plus agrégé.
Le descriptif des données est disponible ici : Descriptif de la base de données Open PHMEV.
Limites : Les données collectées portent sur les médicaments prescrit à l’hôpital et délivrés en pharmacie de ville. Ainsi, par définition, elles ne contiennent pas les médicaments délivrés à l’hôpital.
De même, Open PHMEV ne permet pas de décrire l’utilisation des dispositifs médicaux. Pour ce faire, il faudra utiliser une autre base : Open LPP.
Les données exposées sont des données statistiques, agrégées et figées. En effet, si un même bénéficiaire a consommé des prestations pour 2 codes ATC4, il sera comptabilisé 2 fois.
A la différence d’Open Medic, dans la base Open PHMEV on n’a pas accès au nombre de consommants, le nombre de boîtes délivrées sera l’indicateur utilisé.
Pour finir, la base complète 2021 est la dernière base publiée à ce jour.
1.2 Jeu de données utilisé dans notre exemple
Dans notre cas, nous avons choisi d'utiliser la base complète datant de 2021 (fichier faisant tout de même 370 Mo ! ).
2. Exemple complet (avec code)
2.1 Utilisez notre Python
Un code Python (notebook Jupiter) vous est fourni dans cet article.
2.2 Précision des données : de fortes disparités
Il convient de noter que l’information exacte sur le médicament délivré n’est pas systématiquement reportée. Et que cela varie avec le niveau de détails (dans l’ordre du plus fin au plus gros) : nom CIP13, code CIP13, ATC5, ATC4, ATC3, ATC2, ATC1.
Niveau de précision | Nombre de boîtes | % |
aucun | 71 610 240 | n/a |
avec nom ATC1 <> “non restitué” | 71 610 240 | 100% |
avec nom ATC2 <> “non restitué” | 71 394 877 | 99,70% |
avec nom ATC3 <> “non restitué” | 70 989 483 | 99,13% |
avec nom ATC4 <> “non restitué” | 69 910 005 | 97,63% |
avec nom ATC5 <> “non restitué” | 67 558 324 | 94,34% |
avec nom CIP <> “non restitué” | 63 861 755 | 89,18% |
Ainsi pour la suite de l’exemple nous utiliserons (choix arbitraire) d’utiliser les code ATC4.
Remarque : on remarque une certaine inégalité de codage, car par exemple les antalgiques de type Paracétamol sont codés en ATC4 (N02BE Anilides) mais pas ensuite en ATC5, ni en CIP13. D’ailleurs il n’y aurait que 15 585 boîtes en 2021 alors qu’il y en avait 12 920 917 en 2019.
Plus surprenant encore, il y avait un total de 83 948 139 de boîtes en 2019 pour un total de 71 610 240 en 2021.
2.3 Cherchez le(s) ATC4
Dans cet exemple nous choisissons de déterminer le profil (sexe, âge, région) des patients consommant des bêtabloquants sélectifs.
Une recherche sur le site https://www.whocc.no/atc_ddd_index/ nous permet de choisir la classe ATC que l’on cherche.
Choix de l’ATC1 :
Choix de l’ATC2 :
Choix de l’ATC3 :
Choix de l’ATC4 :
Conclusion :
Le code ATC4 des bêta-bloquants sélectif est : C07AB
2.4 Que fait notre code ?
Dans un premier temps, pensez à téléverser le fichier Open_PHMEV_2021 dans votre environnement.
Notre code exemple réalise les actions suivantes :
Télécharger le notebook (Fichier code Open PHMEV Sanoia Il) et l’ouvrir dans votre environnement
Interroger l’utilisateur sur le(s) code(s) ATC4 à utiliser
vous pouvez copier/coller même avec des espaces et vous pouvez consulter plusieurs ATC4 à la fois en les séparant par des virgules
Parcourir le volumineux fichier Open PHMEV ligne à ligne
Monter dans un dataframe (c.à.d. un tableau de données filtrées, nommé “short_list” dans le code) les lignes correspondant au(x) code(s) ATC4 à utiliser
Forcer le type de certaines variables du dataframe (pour des contraintes de présentation du tableau)
Translater les valeurs de certaines variables avec un dictionnaire pour une meilleur lisibilité
Afficher les résultats sous forme de tableau et de graphique
Exporter le dataframe dans un fichier Excel
2.5 Résultats de notre code
L'exécution du code Python affiche :
ATTENTION : L'exécution du code prend un peu de temps… soyez patient. Et surveillez bien le bas de la fenêtre : c’est là que vous est demandé le code ATC4 après quelques secondes d'exécution.
Etape 1 :
Etape 2 : Les tableaux et graphiques sont ensuite affichés ainsi :
Sortie 1 : Nombre de boîtes par médicament correspondant au code ATC4
Sortie 2 : Répartition par sexe
Sortie 3 : Répartition par classe d’âge
Sortie 4 : Répartition par région (tableau et graphique)
Étape 3 : Le fichier filtré se télécharge automatiquement.
Que tirer de ces résultats ?:
Nous avons analysé trois caractéristiques du profil des patients traités par un bêtabloquant : le sexe, l’âge et la région d’implantation de l’établissement qui a prescrit le médicament :
Sortie 1 : En 2021, le nombre total de boîtes délivrées de bêtabloquant sélectif était de 1 749 104. Parmi les molécules identifiées, le bisoprolol est le plus prescrit, et le betaxolol est le moins prescrit.
Sortie 2 : Les bêtabloquants sélectifs sont majoritairement prescrits à l’hôpital à des hommes : parmi toutes les personnes ayant pris ce médicament en 2021, 482 169, soit 56,2%, étaient des hommes.
Sortie 3 : Les bêtabloquants sélectifs sont majoritairement prescrits à l’hôpital à des patients âgés de 60 ans ou plus : parmi toutes les personnes ayant pris ce médicament en 2021, 1 220 256 personnes, soit 69,8%, avaient plus de 60 ans.
Sortie 4 : Les bêtabloquants sélectifs sont majoritairement prescrits à l’hôpital à des patients en Île-de-France : parmi toutes les personnes ayant pris ce médicament en 2021, 479 285 personnes, soit 27,4 %, habitent en Île-de-France.
3. Autres usages possibles
Ce jeu de données permet de répondre à d’autres questions :
Quelles ont été les évolutions de la prescription hospitalière du médicament X entre 2014 et 2021 ? (pour cela il faudra utiliser les bases des années précédentes)
Quels sont les classes de médicaments les plus prescrits à une tranche d’âge donnée ?
4. Aller plus loin
Nous espérons vous avoir convaincu de l’utilité et du potentiel des données en Open Data. Cet exemple était volontairement simple à des fins pédagogiques mais des usages épidémiologiques plus poussés sont possibles !
👍 Retrouvez l’ensemble de nos fiches sur LinkedIn en suivant notre page Linkedin.
👉 Si vous avez des projets d’utilisation ou de génération de données, notre équipe se tient à votre disposition : contact@sanoia.com !
Comments