Santé Data - IA

Protein Language Models : l’IA déchiffre le code de la vie

Publié le 19 novembre 2025 Lecture 25 min

En 2024, le Prix Nobel de chimie a surpris la planète science : il a récompensé des chercheurs en intelligence artificielle — Demis Hassabis et John Jumper pour AlphaFold, et David Baker pour la conception de protéines par calcul. Un signal clair : l’avenir des protéines se joue désormais autant dans le silicium que dans les laboratoires !

AlphaFold a levé le voile sur la structure 3D des protéines. Mais une nouvelle vague arrive : les Protein Language Models (PLMs). Au-delà de la structure, les PLMs cherchent à comprendre la grammaire cachée des séquences elles-mêmes, comme si chaque protéine était une phrase dans un alphabet de 20 lettres. Résultat : ces modèles commencent à parler couramment « protéine » — jusqu’à rivaliser avec certaines expériences de laboratoires.

Buzzword ou révolution scientifique ? Dans cet article, Alcimed explore le fonctionnement des Protein Language Models et les opportunités créées par cette innovation.

Qu’est-ce qu’un Protein Language Model ?

Un modèle de langage de protéine, c’est un peu le ChatGPT des séquences d’acides aminés. Il s’agit d’une intelligence artificielle entraînée à prédire ou générer des éléments de séquences de protéines, à la manière d’un modèle de langage qui anticipe les prochains mots d’une phrase. Ainsi, tout comme les IA ont appris la syntaxe et le vocabulaire en ingérant des bibliothèques de textes, un PLM apprend la “grammaire du langage de la vie” inscrite dans les séquences protéiques.

Comment apprend-on le “parlé protéine” à une machine ? Principalement via l’auto-apprentissage sur de volumineuses bases de données de séquences. On va par exemple présenter au modèle des milliers de fois des morceaux de séquence dont certains acides aminés manquent, et lui demander de deviner les pièces manquantes. À force, le modèle retient les régularités et les motifs dans les protéines. Le PLM condense ensuite tout ce savoir dans des représentations mathématiques appelées embeddings – des vecteurs de nombres – qui encapsulent l’information essentielle de la séquence. Ces embeddings agissent comme un concentré de connaissances : on peut ensuite les utiliser comme point de départ pour prédire toutes sortes de propriétés d’une protéine, sans même avoir besoin de comparer des séquences entre elles. Ainsi, un modèle de langage de protéine apprend à lire et écrire dans la langue des protéines, ouvrant la voie à de nombreuses applications.

Quelles applications concrètes ?

Les Protein Language Model (PLMs) ne sont pas juste des curiosités académiques – ils trouvent déjà des applications concrètes en recherche et en industrie :

  • Prédiction de structure 3D : Deviner la forme qu’adoptera une protéine rien qu’en lisant sa séquence. C’est le grand défi que des outils comme AlphaFold de Google DeepMind ont relevé.). Aujourd’hui, de nouveaux modèles sans alignement multiple – c’est-à-dire sans passer par la comparaison d’une séquence avec des milliers d’autres pour en extraire des similarités évolutives – (ex. ESMFold de Meta1ESMFold predicted protein: farnesyltransferase subunit alpha colored by pLDDT confidence (blue, yellow) compared to experimental structure PDB 7t0a (white) with farnesyltransferase subunit beta shown as a surface. https://www.rbvi.ucsf.edu/chimerax/data/esmfold-nov2022/esmfold.html) prédisent des structures en un clin d’œil, même pour des protéines “orphelines” sans homologues connus.
  • Annotation fonctionnelle : Identifier la fonction d’une protéine, ses interactions ou son rôle biologique à partir de la séquence. Les Protein Language Models excellent pour dégager le profil fonctionnel d’une protéine en se basant sur leur connaissance implicite des motifs de séquence. Cela accélère la découverte de cibles thérapeutiques et la compréhension des mécanismes des maladies.
  • Conception de nouvelles protéines (protein design) : Les PLMs peuvent générer des séquences originales optimisées pour une fonction donnée. Par exemple, le modèle ProGen a créé de toutes pièces des enzymes lysozymes fonctionnelles dont la séquence ne ressemble presque à aucune protéine naturelle – pourtant elles fonctionnent presque aussi bien que les enzymes authentiques ! On entrevoit ici un potentiel énorme pour concevoir de nouveaux médicaments biologiques, enzymes industrielles ou vaccins.
  • Prédiction d’effet de mutations : Dans le domaine de la santé personnalisée, savoir rapidement si une mutation dans un gène sera délétère est crucial. Les Protein Language Models permettent une prédiction “zéro-shot” – c’est-à-dire sans données expérimentales préalables – de l’impact d’une mutation sur la protéine correspondante. Par exemple, certains modèles ont surclassé des approches classiques pour prédire quelles mutations du cancer sont les plus dangereuses. De quoi accélérer le diagnostic et le développement de thérapies ciblées.

Découvrez comment notre équipe spécialisée peut vous accompagner dans vos projets liés à l’intelligence artificielle


Les modèles de langage : les nouveaux interprètes du code du vivant ?

Les Protein Language Models sont en train de changer la donne dans la prédiction des propriétés des protéines. Pendant plus de 30 ans, la méthode reine pour prédire la structure ou la fonction d’une protéine consistait à chercher des protéines similaires via des alignements multiples de séquences (MSA), et à tirer parti des informations évolutives ainsi obtenues. Désormais, pour de nombreuses applications, les prédictions d’un modèle de langage surpassent celles basées sur les alignements multiples. Pourquoi un tel exploit ? D’une part, les embeddings de PLM capturent l’essence de l’information évolutive de façon extrêmement compacte, si bien que des modèles relativement petits peuvent faire de bonnes prédictions. D’autre part, les PLMs donnent des réponses spécifiques à chaque protéine, là où les alignements misaient sur des moyennes de famille. Ainsi, l’IA traite chaque protéine comme un individu unique plutôt qu’un membre lambda de sa famille.

Le succès des PLMs s’explique dans un premier temps par la disponibilité massive de données : les bases publiques comme UniProt ou MGnify regroupent aujourd’hui des centaines de millions de séquences de protéines. Cela permet d’alimenter l’entraînement des modèles. Ensuite par les progrès en deep learning : l’architecture Transformer, déjà utilisée pour ChatGPT, s’est révélée particulièrement performante pour traiter les séquences d’acides aminés grâce à son mécanisme d’attention. Enfin, l’émergence de l’apprentissage auto-supervisé a été décisive : au lieu de nécessiter des annotations biologiques rares et coûteuses, les modèles apprennent en complétant des acides aminés masqués ou en prédisant la prochaine position dans une séquence. En combinant ces briques, les PLMs atteignent aujourd’hui des performances qui rivalisent, dans certains cas, avec des approches expérimentales en prédiction de structure ou d’effet de mutations.

Pour autant, les Protein Language Models ne sont pas une baguette magique universelle. Les méthodes à base d’alignements multiples conservent l’avantage dans certains scénarios très pointus, et la communauté scientifique reste prudente. Il n’en demeure pas moins que la tendance est claire : les modèles de langage prennent de plus en plus le relais comme “clé universelle” de la prédiction en biologie structurale et fonctionnelle.

Quels défis pour les Protein Language Models ?

Comme souvent avec les technologies prometteuses, le potentiel s’accompagne de nouveaux défis à relever. Pour que la révolution des Protein Language Models tienne toutes ses promesses dans la durée, voici quelques points d’attention :

  • Explicabilité et confiance : Les PLMs sont des boîtes noires statistiques qui captent des motifs complexes. Pour des applications critiques (santé, décisions R&D coûteuses), il est vital de faire confiance aux prédictions – ce qui passe par mieux expliquer sur quoi le modèle se base. Des travaux émergent, par exemple pour évaluer l’importance de chaque acide aminé dans une prédiction, mais il reste du chemin avant de pouvoir justifier une prédiction.
  • Optimisation et empreinte carbone : L’utilisation de l’IA amène souvent de la surconsommation. Entraîner un modèle de milliards de paramètres a un coût (temps, énergie). Les experts du domaine encouragent à optimiser les modèles existants plutôt que d’en créer sans cesse de nouveaux, afin d’économiser des ressources.
  • Données multiples et contextuelles : Le langage des protéines ne suffit pas toujours à tout prédire. Intégrer d’autres types de données (structure 3D connue, interactions, données cliniques…) sera une prochaine étape. Des modèles multi-modaux tels que AlphaMissense or ProMEP émergent, combinant séquence et structure par exemple.
  • Adoption industrielle et compétences : Enfin, posséder l’outil ne fait pas tout, encore faut-il savoir s’en servir. Intégrer les Protein Language Models dans les workflows R&D (découverte de médicaments, ingénierie des protéines, analyse de variants génétiques…) requiert des compétences pointues à l’interface de l’IA et de la biologie. Il faut comprendre les limites du modèle, le valider expérimentalement quand c’est nécessaire, et l’adapter aux spécificités de chaque projet.

En conclusion, les Protein Language Models ouvrent un chapitre exaltant de l’innovation en sciences du vivant. Ils apportent une nouvelle boîte à outils ultra-puissante pour comprendre et concevoir le vivant, avec une efficacité et une rapidité sans précédent. Les pionniers qui sauront l’exploiter intelligemment, en surmontant les défis d’explicabilité, d’intégration et de durabilité, auront une longueur d’avance. Alcimed peut vous accompagner dans vos projets liés à ces sujets. N’hésitez pas à contacter notre équipe !


À propos de l’auteur,

Paul-Emile, Data Scientist au sein de l’équipe Sciences de la vie d’Alcimed en France.

Vous avez un projet ?

    Parlez-nous de votre terre inconnue

    Vous avez un projet et vous souhaitez en parler avec un de nos explorateurs, écrivez-nous !

    Un de nos explorateurs vous recontactera très vite.