Génétique: la révolution bioinformatique

Il serait impossible de percer les secrets du génome humain sans le traitement informatique d'une énorme quantité de données, notamment la plus grande partie des trois milliards de nucléotides (maillons élémentaires de l'ADN) qui constitue le patrimoine héréditaire de notre propre espèce. Mais la révolution bioinformatique a surtout apporté la confirmation incontestable du caractère évolutionniste de toute vie sur Terre.

Les séquences constituant les protéines ou les acides nucléiques se prêtent bien à un traitement informatique, car il est facile de les digitaliser et de les fractionner. Des programmes informatiques simples permettent de comparer deux ou plusieurs chaînes pour évaluer leur degré de similitude ou de comparer de nouvelles séquences à des séquences déjà connues figurant dans d'immenses bases de données. On peut alors les associer et les présenter sous forme d'un arbre génétique.

Les premières recherches sur les protéines il y a un demi-siècle allaient être riches de conséquences. Les séquences d'acides aminés qui les constituent étaient relativement courtes - l'insuline n'en comporte qu'une cinquantaine, le chiffre exact variant suivant l'espèce - mais la variation entre les espèces était évidente.

Il y a 40 ans, c'est l'une de ces molécules simples qui a éveillé mon intérêt alors que je faisais un stage post-doctoral en Suède. Les fibrinopeptides sont constituées de petites séquences qu'il est relativement facile de purifier. Elles présentent des variations nettes d'une espèce à l'autre, ce qui nous a permis de montrer qu'il existe une corrélation forte entre les fossiles et la plupart des variations observées dans les séquences de fibrinopeptide. Il a donc été possible d'interpréter le passé évolutionniste en référence aux séquences génétiques existantes .

Ce sont les progrès de l'informatique qui ont permis d'aller plus loin. En 1965, Robert Ledley a crée la première véritable base de données relative aux séquences de protéines, (Atlas of Protein Sequence and Structure) . En 1967, grâce à l'informatique, les chercheurs ont construit l'arbre génétique d'un ensemble d'animaux et de champignons. Il s'est révélé très proche de l'arbre des espèces, bien que l'ordinateur ignore tout de l'anatomie comparative, de la paléontologie, de l'embryologie et des autres caractéristiques non-moléculaires de ces créatures. Enfin en 1970, grâce à un nouveau progrès de l'informatique, il a été possible d'accéder au séquençage des acides aminés, étape indispensable pour pouvoir continuer.

L'interprétation des résultats s'est faite dans deux directions. On a d'abord voulu comparer différents organismes. On pensait que les variations d'une branche à l'autre de l'arbre génétique étaient aléatoires, mais qu'en fonction des protéines, seuls quelques-uns ont survécu. Supposant le taux de survie constant, il a été possible de mesurer la distance entre différentes séquences. Le second type de comparaison concernait les protéines paralogues , protéines d'une créature donnée, ayant divergées par duplication à partir d'un gène ancestral commun.

Subscribe to PS Digital
PS_Digital_1333x1000_Intro-Offer1

Subscribe to PS Digital

Access every new PS commentary, our entire On Point suite of subscriber-exclusive content – including Longer Reads, Insider Interviews, Big Picture/Big Question, and Say More – and the full PS archive.

Subscribe Now

Ces deux types de comparaison montrent que les nouvelles protéines descendent de protéines plus anciennes, ce qui est en parfait accord avec la théorie de l'évolution. Des segments du génome de l'ADN se dupliquent constamment à l'intérieur des organismes, le plus souvent à la suite de rupture ou de rapprochements aléatoires. La plupart de ces segments dupliqués sont voués à l'oubli, car les protéines qui pourraient être produites à partir de leurs gènes sont redondantes. Mais parfois, une petite modification génétique se révèle avantageuse du point de vue de l'adaptation au milieu, c'est ainsi que naît une nouvelle protéine. Le plus souvent, sa fonction n'a rien de nouveau, mais parfois un changement radical intervient.

En 1978, le séquençage de l'ADN s'est répandu, et quasi immédiatement la base de données sur les séquences de protéines s'est trouvée submergée de nouvelles informations. Une deuxième banque de données est alors apparue, la GenBank, qui à ses débuts ne concernait que les séquences d'ADN. Mais l'information la plus riche résidait dans les protéines traduites de cet ADN.

C'était l'un de ces rares moments au cours duquel un amateur pouvait rivaliser avec les professionnels. J'ai donc construit ma propre base de données en utilisant des séquences d'ADN traduit, je l'ai appelée NEWAT ( Nouvel atlas ). Armé d'un ordinateur rudimentaire et de quelques programmes de base écrit par un étudiant, nous avons comparé les nouvelles séquences à celles déjà connues, ce qui nous a permis de mettre en évidence des relations tout à fait inattendues. Au moment où le programme de décryptage du génome humain a été lancé à la fin des années 1980, la connaissance n'était soudain plus limitée par la quantité de données, mais par la capacité à les traiter .

Beaucoup de chercheurs étaient sceptiques à l'égard du projet de décryptage du génome humain. Ils soulignaient que celui-ci contenait cent fois plus de séquences d'acides aminés que l'ensemble des bases de données existantes n'en comportaient. Dans ces conditions, comment identifier les gènes ? Comment faire une comparaison si l'on n'a pas de référence ?

Mais chaque gène à l'intérieur du génome n'est pas quelque chose d'entièrement nouveau, et toutes les séquences de protéines concevables ne voient pas le jour, car leur nombre dépasse le nombre d'atomes dans l'Univers. Seule une minuscule fraction des séquences possibles a été générée par duplication, multiplication ou modification d'un petit ensemble de gènes de départ. C'est pourquoi la plupart des gènes sont en relation avec d'autres gènes.

Je pensais que la bioinformatique nous permettrait d'identifier tous les gènes à partir de leur séquence. Mais après avoir déchiffré une douzaine de génomes microbiens, la moitié des gènes restaient non identifiées. On a retrouvé ce taux dans la première centaine de génomes que l'on a étudiée, y compris pour le génome humain. On ignore encore la fonction d'un grand nombre de gènes d'un organisme aussi étudié que la bactérie E. coli .

Les bénéfices du déchiffrage du génome sont considérables. L'espoir de voir arriver rapidement des applications médicales a sans doute été exagéré, mais sa valeur intrinsèque est incommensurable. C'est la possibilité de mieux comprendre qui nous sommes, d'où nous venons et ce que les gènes humains ont en commun avec le reste du monde vivant.

https://prosyn.org/LCRkIu5fr