Home Notre offre Data science

Data Science

Utilisez le potentiel de la data et développez une culture Data driven

Fort de plus de 30 ans d’expérience auprès des décideurs métiers des industries et de compétences en Data Science, Alcimed accompagne ses clients dans leurs projets de stratégie liés à la Data et dans l’exploration et l’analyse de leurs données afin de délivrer des POC (Proof of Concept) sur leur cas d’usage métier.

Contactez notre équipe !

data science consulting cabinet conseil experts spécialistes

Les enjeux liés à la data science

  • Qu’est-ce que la data science ?

La Data Science est un domaine assez vaste qui vise à donner du sens à des données brutes.

Pour créer ce sens, la Data science couvre plusieurs disciplines avec l’objectif de faire émerger de ces données, des tendances, des motifs, des connexions et des corrélations, des prédictions, etc. Pour ce faire, la Data Science met en œuvre une large variété d’outils et de techniques telles que le développement d’algorithmes, les mathématiques appliquées et statistiques avancées, jusqu’à l’intelligence artificielle, pour réaliser différents types de modèles. Ces derniers peuvent être déterminés ou bien apprenants, grâce au machine learning qui permet de façon supervisée ou non supervisée de faire de l’analyse et de la prédiction des données.

On retrouve différents objectifs classiques selon les approches de Data Science :

  • L’analyse des liens entre les différentes variables, la recherche de motifs récurrents et d’anomalies statistiques, permet de trouver des associations et corrélations et d’identifier les plus fortes, mais aussi de regrouper et segmenter les données pour, par exemple, identifier des sous-populations dans des groupes d’études ou bien créer des persona de comportements client.
  • La régression et la classification permettent de prédire dans le temps ou d’estimer au-delà des données disponibles la valeur d’une variable, tel que le nombre d’hospitalisations liées à une pathologie, l’appartenance d’un nouveau point de données à une catégorie, par exemple la prédiction de l’acceptation d’un vaccin en fonction du profil patient ou la probabilité d’un certain diagnostic basé sur des données médicales et radiologiques.

La Data science est un domaine spécifique du monde de la data et le Data Scientist se distingue des profils de Data Analyst, Data Engineer, etc. En effet, un processus de Data Science nécessite d’avoir une donnée accessible, ce qui peut être mis en œuvre dans les grandes organisations par des Data Architects ou Data Engineers qui vont structurer les systèmes et les bases de données. Rendre cette donnée accessible est souvent la première étape incontournable d’un projet de Data Science.

La différence entre le travail des Data Analysts et des Data Scientists repose principalement pour les seconds sur l’exploitation de « Big Data » et la réalisation de modèle complexes pour mener à bien les analyses.

Cette différence se résume par 5 grands concepts en « V » :

  • Le Volume et la Vélocité, les données sont obtenues en grand nombre et sont accumulées par l’entreprise à une vitesse telle qu’elles ne peuvent être exploitées. Par exemple, de très nombreux indicateurs de performance, collectés lors d’une campagne marketing, sont reportés dans des templates qui doivent permettre aux experts métier d’en tirer les enseignements. Pourtant, sans l’aide de la Data science, ces données sont trop diffuses et brutes pour en tirer des enseignements sur la prochaine action à entreprendre.
  • La Variété, contrairement aux business analysts qui vont souvent pouvoir utiliser des rapports produits annuellement par des agences et des études de marché, les données à exploiter sont parfois très hétérogènes, sous forme de données structurées ou de données brutes.
  • La Véracité des données, qui sera liée à la rigueur et aux réflexes du Data Scientist dans la vérification de la qualité des données et à sa connaissance métier qui lui permettra d’en attester la crédibilité et de ne pas introduire de biais d’interprétation.
  • La Valeur qui permet d’obtenir des insights nouveaux pour guider les décisions scientifiques, techniques, médicales ou business.
  • Quels sont les enjeux liés à la data science ?

Les possibilités immenses offertes par la Data science ne doivent pas faire oublier les enjeux qui y sont associés. Parmi ces enjeux, on retrouve notamment :

Pour aider à ces objectifs ambitieux, la Data science a besoin de données de qualité accessibles et surtout de s’interfacer en amont avec les détenteurs de la Data et en aval avec les utilisateurs des conclusions qui auront été tirées. Valoriser les données pour les entreprises requiert donc des transformations vers une stratégie data-driven qui permettent d’exploiter au mieux le travail des Data Scientists.

Cette science de la donnée consiste à explorer et exploiter les gisements de données. Pour la mettre en œuvre, au-delà du nécessaire interfaçage avec les détenteurs de la donnée et le business, chaque Data Scientist est confronté à plusieurs enjeux, dont le premier est de faire comprendre ce qu’est la Data science et ses limites.

Quelles opportunités la Data science peut-elle générée pour mon activité ? Comment mieux valoriser cette activité dans mon entreprise ?
Cette étape cruciale de tout processus de Data science conditionne la réussite de l’analyse au niveau technique mais aussi sa valeur au niveau interprétatif. Elle peut nécessiter de faire des choix afin d’augmenter le ratio signal sur bruit qui peuvent conduire à éliminer une partie du signal. En particulier, le domaine de la Data science focalisé sur l’analyses de données textuelles, le Natural Langage Processing, ou NLP, peut nécessiter un nettoyage particulièrement important des données en fonction de la source utilisée. La récolte d’informations sur les réseaux sociaux par exemple requiert un travail important si l’on veut réussir à détecter et à interpréter des mots mal orthographiés ou des abréviations.

Quelles données sont suffisamment riches pour que leur analyse apporte de la valeur ? Comment tirer de la valeur de bases de données internes ou externes que l’on possède ?
La qualité et la représentativité des données d’entrée est clé pour pouvoir tirer des conclusions pertinentes. En particulier, des données mal équilibrées ou « imbalanced », peuvent biaiser l’apprentissage. Si on cherche à entrainer un algorithme à classifier des images de chats et de chiens sur la base de 1000 images de chats et 100 de chiens, la notion d’une plus grande fréquence d’occurrence de chats va ressortir dans la classification des nouvelles images. Ce déséquilibre peut être facile à identifier s’il concerne l’objectif principal de détection mais beaucoup moins s’il s’agit d’un élément parmi d’autres, par exemple une sur-représentation de chatons parmi les images. Les bases de données historiques peuvent être biaisées, comme par exemple les bases de données d’essais cliniques dans lesquels les hommes causasiens sont sur-représentés par rapport au ratio de la population générale. Il s’agit de repérer ces biais et de les corriger en diminuant la taille de l’échantillon sur-représenté (undersampling) ou en augmentant artificiellement celle de l’échantillon sous-représenté (oversampling).

Comment par exemple mieux cibler les centres cliniques pour atteindre une bonne représentativité de la population incluse ?
Dans la mise en place de modèles de machine learning, un autre enjeu technique est lié au fait de ne pas sur-adapter le modèle au jeu de données existant, qu’on appelle le phénomène d’overfitting. En effet, la qualité du modèle est testée par différents indicateurs qui rendent compte de la fiabilité de la prédiction telle que la précision (taux de détection correctes), la sensibilité (capacité à bien détecter les « vrais ») et la spécificité (capacité à bien détecter les « faux »). Essayer de maximiser ces indicateurs peut conduire à inclure énormément de variables dans l’analyse ou d’utiliser des modèles toujours plus complexes. Il est important de garder un échantillon de son jeu de données non pas pour entrainer le modèle mais pour le tester. Sachant que les données d’entrainement sont souvent plus homogènes que les données réelles, il est aussi important de limiter la complexité du modèle de machine learning choisi au minimum requis. Assembler les résultats de plusieurs modèles est aussi une technique pour limiter les biais inhérents à chacun des modèles.

Comment adapter un modèle de forecast pour anticiper des scenarios avec des évènements n’ayant jamais eu lieu dans le passé ?
Enfin, l’interprétabilité des résultats des modèles est un enjeu crucial. Certains modèles de machine learning parmi les plus puissants, les modèles de Deep Learning, ne permettent pas de remonter aux paramètres qui ont permis à la machine de proposer par exemple une classification donnée. Il peut parfois être préférable d’avoir une moins bonne précision du modèle mais de pouvoir l’expliquer. Par exemple si l’on veut créer une segmentation client, il est intéressant de savoir quels paramètres définissent les segments pour ensuite pouvoir créer des interactions et contenus adaptés. Enfin, une rigueur dans l’interprétation des données doit s’imposer et doit se transmettre aux destinataires des résultats. En particulier, il est souvent tentant d’interpréter la corrélation entre deux variables comme un lien de causalité de l’une sur l’autre, conclusion qui doit le plus souvent s’appuyer sur la connaissance métier ou des études spécifiques en plus des analyses déjà conduites.

Comment rendre les résultats des analyses Data Science utilisables et compréhensibles pour une diffusion en interne ?

Vous avez un projet ? Écrivez-nous !

Comment nous vous accompagnons dans vos projets data science

Depuis plus de 25 ans, Alcimed accompagne ses clients dans leurs projets d’innovation et de développement de nouveaux marchés.

Fort de cette expérience métier et de compétences en Data science avec une équipe dédiée, Alcimed se positionne comme un Data Lab externe, au service de vos problématiques métiers, et visant via des projets Data à générer une POC, un modèle ou un outil. Cette démarche peut constituer aussi bien une brique d’un projet comme une étude de marché qu’une mission à part entière.

Les données utilisées peuvent être vos données internes, des données externes en OpenData, privées ou obtenues par Web scraping. Il peut s’agir de données chiffrées, de texte, d’image, etc. Enfin, nous utilisons toute la palette des outils de nos Data Scientists pour mener ces projets à bien.

Au-delà de ces réalisations concrètes, notre contribution peut également s’inscrire dans un cadre stratégique plus large : mise en place d’une stratégie et d’une culture Data driven, création d’un processus innovation drivé par la data, etc.

Un projet ? Contactez nos explorateurs !

EXEMPLES DE PROJETS RÉCENTS MENÉS POUR NOS CLIENTS DANS LE DOMAINE DE LA DATA SCIENCE

Alcimed a accompagné un leader de l’industrie pharmaceutique dans la construction d’un indicateur agrégé de la mesure de l’engagement client.

A partir des bases de données internes de son client, l’équipe Alcimed a imaginé une méthode d’agrégation permettant de prendre en compte l’impact de toutes les interactions de l’entreprise avec les professionnels de santé. L’indicateur permet de mesurer l’évolution de l’engagement client au niveau individuel ou par profil client au cours du temps pour mieux mesurer l’impact d’évènements et de campagnes marketing, par exemple.
Alcimed a accompagné la filiale France d’un acteur pharmaceutique international dans la définition, la conception, et la mise en place d’un outil de visualisation des données recueilles dans sa base de données d’Information Médicale, permettant à l’équipe produit de suivre mensuellement les sujets de préoccupation inhabituels des professionnels de santé.

Notre équipe a mis en place des techniques de NLP et une analyse statistique poussée des requêtes textuelles permettant une détection automatique des thèmes et des mots inhabituellement mentionnés et a accompagné le déploiement de cette démarche dans l’équipe produit et dans les systèmes de notre client.
Afin de soutenir notre client industriel leader du BTP dans l’anticipation de son volume de business, Alcimed a développé un algorithme de machine learning pour prédire, avant qu’ils ne soient tous officiellement référencés par les administrations locales, le nombre de permis de construire total effectivement déposés dans le mois en cours sur la base de données publiques historiques.

Ce projet a ainsi permis à notre client d’anticiper ses projections de vente et d’adapter nombreuses de ses activités en amont en conséquence.
L’équipe de Data scientists d’Alcimed a mis en place un modèle de machine learning pour mener une analyse non supervisée des thèmes évoqués sur Twitter en lien avec le congrès Américain sur le Diabète, l’ADA2021 ainsi que des communautés d’utilisateurs de Twitter communiquant sur ce thème.

Notre analyse, publiée dans notre Data use case 2, permet de mettre en valeur 2 communautés concernées majoritairement par des thèmes différents avec la visualisation des données en réseau.

Créée en 1993, Alcimed est une société de conseil en innovation et développement de nouveaux marchés spécialisée dans les secteurs innovants : sciences de la vie (santé, biotechnologie, agroalimentaire), énergie, environnement, mobilité, chimie, matériaux, cosmétiques, aéronautique, spatial et défense.

Notre vocation ? Aider les décideurs privés et publics à explorer et développer leurs terres inconnues : les nouvelles technologies, les nouvelles offres, les nouveaux enjeux géographiques, les futurs possibles et les nouvelles manières d’innover.

Répartie dans nos 8 bureaux dans le monde (en France, en Europe, à Singapour et aux Etats-Unis), notre équipe est composée de 220 explorateurs de haut niveau, multiculturels et passionnés, ayant une double culture scientifique/technologique et business.

Notre rêve ? Être 1000, pour dessiner toujours plus avec nos clients le monde de demain.

PARLEZ-NOUS DE VOTRE TERRE INCONNUE

    Vous avez un projet et vous souhaitez en parler avec un de nos explorateurs, écrivez-nous ! Un de nos explorateurs vous recontactera très vite.

     

    Nos explorations