Data Use Case 2, décrypter les mécanismes de partage d’informations

Data Use Case #2 : Décrypter les mécanismes de partage d’informations en ligne dans un domaine thérapeutique

Les réseaux sociaux, et Twitter notamment, offrent la possibilité à tout un chacun de s’exprimer librement sur n’importe quel sujet. Cela constitue une immense source de données textuelles dont l’analyse permet d’identifier des courants de pensées et des signaux faibles, de comprendre les avis et ressentis des professionnels de santé, patients et autres internautes sur des thèmes donnés, ou encore d’identifier les liens d’influence entre communautés. Par conséquent, beaucoup d’acteurs se sont spécialisés dans l’analyse des réseaux sociaux. Les solutions proposées sont généralement génériques, recensant par exemple les acteurs les plus actifs, les tweets les plus partagés ou encore les termes et mentions les plus fréquents, et peuvent donc s’adapter à quasiment tous les sujets et toutes les industries. Cependant, bien que cette approche permette d’obtenir une première vue d’ensemble de l’environnement digital associé à certains domaines, elle ne permet pas de répondre à des questions plus spécifiques ou techniques que peuvent se poser notamment les acteurs de l’industrie pharmaceutique. Pour affiner la compréhension de l’environnement digital lié à une pathologie, Alcimed développe des approches « cousues main ». La première étape consiste à développer les algorithmes qui analysent les données brutes des réseaux sociaux pour ensuite permettre de répondre précisément à des questions spécifiques : quelle perception des résultats d’une étude clinique ? Quel impact d’une présence sur un ou des congrès ? Qui sont les acteurs influents dans une pathologie sur un sous thème donné ? Comment s’organise la communauté en ligne sur ces sujets ? etc.

L’objectif d’analyse de ce Data Use Case

Pour ce cas d’usage, nous avons choisi de réaliser une analyse des tweets faisant référence à la 81ème session scientifique de l’American Diabetes Association (ADA), qui s’est déroulée entre 25 et le 29 juin 2021. Cet évènement, à destination des chercheurs et des professionnels de santé, propose plus de 180 sessions et 1000 présentations de recherches dans le domaine du diabète, et ce autour de 8 grands thèmes : Acute and Chronic Complications ; Behavioral Medicine, Clinical Nutrition, Education, and Exercise ; Clinical Diabetes/Therapeutics ; Epidemiology/Genetics ; Immunology/Transplantation ; Insulin Action/Molecular Metabolism ; Integrated Physiology/Obesity ; Islet Biology/Insulin Secretion.

En considérant l’ADA 2021 comme un congrès fédérant l’ensemble des parties prenantes du diabète, l’objectif que nous nous sommes fixés est de comprendre précisément comment se propagent les informations communiquées sur cette pathologie auprès des internautes. Nous avons ainsi scindé notre analyse en deux phases, en s’intéressant dans un premier temps aux champs d’intérêt et d’engagement de la communauté, puis en se focalisant sur les liens d’influence existants au sein de cet écosystème. Cette analyse permet de déterminer la valeur que les industriels seront capables de générer grâce ce type d’exploration.

Analyse des sujets d’intérêt

Une analyse fine et non supervisée du contenu publié nous permet de faire émerger de la masse de données collectées sur la période, 3 grands thèmes (organisation de l’évènement, scientifique et  patients) recouvrant 6 champs d’intérêt principaux.

Cette analyse NLP (Natural Language Processes) a pour objectif de réaliser une classification non supervisée des données, c’est-à-dire de faire émerger, sans avoir d’a priori, une segmentation du contenu publié en grands champs thématiques. Au-delà de nettoyer les données en supprimant les tweets non pertinents et en harmonisant leur forme, nous avons comparé et combiné différentes méthodes de clustering pour obtenir une segmentation finale en 6 sujets :

  • Les informations générales par rapport au congrès (29%),
  • Les données relatives aux études scientifiques (25%),
  • Celles à propos des médicaments existants et en développement (13%),
  • Les nouveautés dans les besoins et dans les traitements (12%),
  • Les problèmes psychologiques et d’accès aux soins (11%),
  • Les contenus en lien avec le challenge virtuel mis en place par Novo Nordisk et ayant marqué le congrès (10%)

Ces 6 sujets peuvent se regrouper en trois catégories / types de tweets : ceux organisationnels (39%), ceux scientifiques (38%), et ceux autour des sujets patient (23%).

Au-delà de cette segmentation, on remarque dans le détail que certains sujets chauds spécifiques se détachent, comme la perte de poids, la pandémie de COVID-19 ou encore les problèmes psychologiques liés au diabète.

Cela se traduit notamment par une prédominance de certains mots et associations de mots dans les tweets. Pour dépasser les limites des méthodologies plus génériques, nous avons pu grâce à notre connaissance métier faire une sélection pertinente de mots à écarter ou au contraire à rassembler afin de ne pas polluer notre analyse.

Les laboratoires pharmaceutiques sont mentionnés très majoritairement dans des tweets scientifiques, et Novo Nordisk est le laboratoire ayant généré le plus de part de voix sur Twitter grâce à son implication dans le challenge virtuel 5K@ADA.

En effet, Novo Nordisk est le laboratoire le plus mentionné dans les tweets récoltés (51% des tweets mentionnant un acteur du top 10 Pharma). Cela s’explique aisément par le fait qu’il ait entièrement financé le 5K@ADA challenge : plus de la moitié des contenus le mentionnant en font référence. En enlevant ces tweets, Novo Nordisk garde la plus grande part de voix, suivi par Eli Lilly et Sanofi. Pour l’ensemble du top 10 des laboratoires pharmaceutiques, et ce malgré de nombreuses initiatives notamment autour des sujets du suivi du patient ou de sa qualité de vie, la majorité des tweets les mentionnant traitent de sujets scientifiques.

Analyse de l’influence des auteurs

Les comptes faisant partie des 20% les plus actifs sur la période étudiée sont représentés à 67% par des comptes professionnels, et ont généré 80% du contenu.

La différentiation entre les comptes personnels et professionnels a été possible grâce à des algorithmes de catégorisation renforcés par notre connaissance métier des Digital Opinion Leaders (DOLs) dans l’industrie pharmaceutique. Les deux comptes les plus actifs sont BeyondType1 et BeyondType2, deux associations, qui ont généré près de 550 tweets sur la période d’étude. KellyRawlings, avec ses 77 tweets, a été le compte personnel ayant le plus publié sur cette même période.

Par ailleurs, nous avons quantifié l’influence de chacun des DOLs en s’appuyant sur le nombre de réactions à leurs tweets et tweets les mentionnant, et ce sur une période d’un an. Avec ce procédé, nous avons identifié ArmarPut et drpatrickholmes comme étant les personnalités créant le plus de résonnance parmi les comptes Twitter analysés.

En analysant la façon dont les personnes s’associent en réseau, on parvient à délimiter deux groupes avec leurs nœuds et centres d’intérêt propres, définissant ainsi une communauté plus scientifique ET une communauté plus orientée patients dans lesquelles l’information se propage naturellement.

Pour définir ces communautés, nous avons commencé par qualifier les relations entre chacun des acteurs en s’intéressant à la façon dont ils interagissent entre eux sur les réseaux, et ce également en dehors de notre période d’étude. Pour diviser cet écosystème, nous nous sommes intéressés à deux typologies de méthode différentes : l’une reposant sur la structure même du graphe représentant les liens, et l’autre sur des procédés stochastiques modélisant les flux d’information. En combinant ces deux approches, nous avons pu définir de manière robuste trois communautés.

Bien que toutes les thématiques aient été abordées au sein des communautés, une tendance est bien présente et différencie leurs centres d’intérêts. Assez naturellement et sans pour autant que le processus de définition de ces communautés ait été dirigé, la première s’intéresse majoritairement aux sujets scientifiques, alors que la seconde s’oriente plutôt vers les sujets relatifs aux patients directement, avec les problèmes psychologiques et le besoin d’éducation. La troisième communauté représente peu de personnes et de tweets (6% des tweets sur l’ADA). Ils n’ont pas été clairement associés aux autres groupes. Pour les deux premiers groupes, certains DOLs ont été identifiés comme centraux : AmarPut et drpatrickholmes dans la communauté scientifique, et Diabetesalish et KellyRawlings dans celle orientée patients.

 

Data Use Case #2

Représentation graphique des trois communautés

 

Valeur de cette démarche pour les industriels

Ce type d’approche « cousue main » donne l’opportunité d’analyser les contenus engageants et d’intérêt et donc d’anticiper des éléments de communication.

L’analyse des tweets associés à l’ADA 2021 a mis en avant la faisabilité de l’identification de thèmes spécifiques faisant réagir les réseaux. Ces réactions peuvent avoir différentes natures, et elles témoignent d’un intérêt accru pour ces sujets  par les acteurs du diabète. Cela représente une opportunité de leur apporter des informations pertinentes.

Ensuite, l’identification des nœuds d’un réseau associé à un champ thématique permet d’envisager des points d’entrée permettant de générer le maximum d’impact pour une communication.

En effet, couplé à une analyse de l’influence des Digital Opinion Leaders, un regroupement en communautés permet de déterminer les personnes centrales capables de diffuser des informations, notamment sur un thème spécifique donné. S’intéresser en plus à leurs centres d’intérêt rend le choix des groupes dans lesquels pousser l’information plus intelligent et permet donc une transmission plus efficace.

Un pré-requis commun à tout projet de ce type est d’obtenir un volume suffisant de données. Il est donc nécessaire de récupérer des tweets ou autres données qui soient soit liés à un évènement marquant, soit liés à une thématique large (un domaine thérapeutique par exemple), ou encore à une période importante dans le but de réaliser une étude longitudinale qui s’étend sur plusieurs mois. Dans notre cas, nous avons récupéré les tweets écrits en anglais, entre le 23 Juin 2021 et le 7 Juillet 2021, associés aux recherches suivantes : ADA2021 ; American Diabetes Association ; American Diabetes Association Congress ; ADA Scientific Session. Après avoir nettoyé ces données, nous obtenons un total de 3319 tweets uniques que nous avons ensuite normalisés pour réaliser l’étude. Afin de définir les liens entre les influenceurs, nous avons ajouté à notre base de données l’ensemble des tweets publiés depuis 2020 de chacun d’entre eux.

La démarche ici présentée n’est qu’un exemple des possibilités offertes par les réseaux sociaux. L’avantage d’une telle source de données réside dans la diversité de l’information qu’il est possible d’en tirer. A chaque besoin sa méthodologie ! Ainsi, pour qu’une telle analyse soit la plus pertinente possible, il est nécessaire de bien en définir les enjeux et objectifs à adresser, et d’impliquer dans son déroulement les différentes fonctions impliquées dans l’organisation. Pour toutes ces questions liées à la sphère digitale et d’autres en lien avec les stratégies Data Driven – voir notre Data Use Case #1, Alcimed et notamment notre équipe Data sommes là pour vous aider !


A propos de l’auteur,

Victor, Consultant au sein de l’équipe Santé d’Alcimed en France

Vous avez un projet d’exploration ?
Nos explorateurs sont prêts à en discuter avec vous

Contactez nos explorateurs >

 

Pour continuer à explorer...