weebly reliable statistics

Mieux comprendre une maladie génétique grâce à la bioinformatique

(English version)

Contexte
Update:mars 2017

L'insuline est une
protéine qui permet au sucre (glucose) de pénétrer dans les cellules de certains tissus, principalement le tissus adipeux, les muscles et le foie.
Il s'agit d'une hormone qui joue un rôle clé dans la régulation du taux de glucose dans le sang (effet 'hypoglycémiant').
Elle est fabriquée par les cellules du pancréas (cellules bêta des îlots de Langerhans).
Le diabète de type I (insulino dépendant) est une maladie qui est dûe le plus souvent à l'absence d'insuline: pour différentes raisons encore mal connues (virus, auto-immunité, etc.), les cellules du pancréas ne sont plus capables de produire cette protéine.
Le diabète de type II (non insulino dépendant) est la conséquence d'une résistance à l'insuline dûe le plus souvent à une surcharge pondérale.

Les causes génétiques du  diabète de  type I et du diabète  de type II ne sont pas encore bien connues. Il s'agit de  maladies dites 'multigéniques':  de nombreux gènes sont concernés (probablement une centaine).

Il existe une
variation génétique très rare (rs121908261) qui est la cause d'un diabète de type I dans une famille norvégienne (Molven et al., 2008).

Cet atelier permet de découvrir comment la bioinformatique peut aider à mieux comprendre les causes de cette maladie génétique rare... et à étudier l'insuline de A à Z.

Activité 1: Le gène de l'insuline et le génome humain

Voici un morceau de la séquence du gène qui code pour l'insuline (séquence 'normale')...
  
     cagccgcagcctttgtgaaccaacacctgtgcggctcacacctggtggaagctctctacc

Question:


Approche bioinformatique: Utiliser l'outil 'BLAT'

Info technique: 'BLAT' est un outil bioinformatique qui permet de comparer une séquence ADN avec la séquence entière d'un génome (soit un texte de 3 milliards de nucléotides pour le génome humain) et de retrouver, si elle existe, celle qui lui ressemble le plus, en quelques secondes. C'est un peu le 'google map' du génome humain

* Copier/coller la séquence ADN dans l'outil 'BLAT'
* Cliquer sur 'submit'
* Page 'BLAT Search Result': Choisir le meilleur score et cliquer sur 'browser'


Activité 2: Comparer des séquences ADN - Diagnostiquer une maladie génétique 

Environ 1 nucléotide sur 1000 diffère d'une personne à l'autre, d'un génome à l'autre. Ces différences sont appelées variation ou mutation. Certaines n'ont aucune conséquence, d'autre sont associées avec des maladies génétiques.
En 2008, des chercheurs ont étudié une famille norvégienne dont plusieurs membres sont diabétiques (type I et type II).
Toutes les personnes diabétiques type I de cette famille sont porteuses de la même variation dans le gène qui code pour l'insuline (Molven et al., 2008).

Voici le pédigré de la famille (phénotype et liens de parenté):

 

Question:


Afin de répondre à cette question, les chercheurs ont extrait l'ADN de 8 des membres de cette famille et ont séquencé une partie du gène qui code pour l'insuline.
>1
cagccgcagcctttgtgaaccaacacctgtgcggctcacacctggtggaagctctctacc
tagtgtgcggggaacgaggcttcttctacacacccaagacctgccgggaggcagaggacc
>2
cagccgcagcctttgtgaaccaacacctgtgcggctcacacctggtggaagctctctacc
tagtgtgcggggaacgaggcttcttctacacacccaagacccgccgggaggcagaggacc
>3
cagccgcagcctttgtgaaccaacacctgtgcggctcacacctggtggaagctctctacc
tagtgtgcggggaacgaggcttcttctacacacccaagacctgccgggaggcagaggacc
>4
cagccgcagcctttgtgaaccaacacctgtgcggctcacacctggtggaagctctctacc
tagtgtgcggggaacgaggcttcttctacacacccaagacccgccgggaggcagaggacc
>5
cagccgcagcctttgtgaaccaacacctgtgcggctcacacctggtggaagctctctacc
tagtgtgcggggaacgaggcttcttctacacacccaagacccgccgggaggcagaggacc
>6
cagccgcagcctttgtgaaccaacacctgtgcggctcacacctggtggaagctctctacc
tagtgtgcggggaacgaggcttcttctacacacccaagacccgccgggaggcagaggacc
>7
cagccgcagcctttgtgaaccaacacctgtgcggctcacacctggtggaagctctctacc
tagtgtgcggagaacgaggcttcttctacacacccaagacccgccgggaggcagaggacc
>8
cagccgcagcctttgtgaaccaacacctgtgcggctcacacctggtggaagctctctacc
tagtgtgcggggaacgaggcttcttctacacacccaagacccgccgggaggcagaggacc


Comparer les 8 séquences et localiser la variation dans le gène de l'insuline qui est commune aux personnes diabétiques

Approche papier crayon:
...bandelettes de papier avec les séquences ADN à analyser manuellement afin de bien comprendre le principe de la comparaison de séquence et de l'alignement:


Approche bioinformatique:
Construire un alignement des 8 séquences à l'aide d'un outil bioinformatique et identifier la variation commune aux personnes diabétiques de type I

* Copier/Coller les 8 séquences (inclue la ligne '>1') dans l'outil d'alignement
* Cliquer sur l'icône 'Run align'
* Sur la page des résultats, colonne de droite 'Highlight': sélectionner 'Similarity'

Pour les plus curieux:

....informations médicales sur la famille
Le sujet (1) avec la mutation R55C (hétérozygote) a présenté un diabète de type I à l'âge de 10 ans. Elle avait un taux de glucose dans le sang de 17.6 mmol/l.
Sa maman (3) a développé un diabète de type I à l'âge de 13 ans. Elle est sous traitement d'insuline (...).  Elle est aussi hétérozygote pour la mutation R55C.
Le grand-père maternel (6) a été diagnostiqué diabétique de type II à l'âge de 40 ans. Il est traité à l'insuline (...). Ni lui ni sa femme (en bonne santé) ne sont porteurs de la mutation R55C, ce qui suggère que la maman a eu une mutation de novo germinale (...).
Les patients (1) et (3) porteurs de la mutation R55C ont des taux de C-peptide quasi normaux, ce qui suggère qu'ils sont quand même capables de fabriquer de l'insuline. Les scientifiques ne comprennent pas pourquoi les patients (1) et (3) ont besoin de s'injecter de l'insuline à des doses aussi élevées (...) (Molven et al., 2008).

....voici la séquence du gène de l'insuline et la liste des variations (en rouge) connues du gène de l'insuline; beaucoup de variations ne sont pas associées avec un diabète.

Activité 3: Traduction ADN -> protéine

Vérifier l'effet de la mutation R55C

L'insuline, comme toutes les protéines, est composée d'une succession d'acides aminés. L'ordre des acides aminés est déterminé par la séquence en acides nucléiques du gène de l'insuline.
3 'lettres ADN' correspondent à un acide aminé (symbolisé par les lettres: K pour lysine, M pour méthionine, etc.)

Voici un morceau de la séquence ADN du gène de l'insuline 'normale'.
aag acc cgc cgg gag 
Voici un morceau de la séquence ADN du gène de l'insuline avec la variation c -> t, associée avec un diabète.
aag acc tgc cgg gag 

Question:


Vous pourriez traduire manuellement les séquences en acide nucléique en séquence en acide aminé (code '1 lettre') en utilisant le code génétique ci-dessous:
 

Vous pouvez utiliser l'outil bioinformatique 'Translate'

Réponse: La mutation c -> t dans le gène de l'insuline conduit au remplacement de l'acide aminé R (arginine; codon cgc) par l'acide aminé C (cystéine; codon cgt) en position 55:
ce changement empêche la protéine insuline d'être 'coupée', un processus qui est essentiel pour que l'insuline puisse être fonctionnelle (Molven et al., 2008).
L'insuline est coupée par une enzyme appelée 'protéase' ( insulin protease , insulinase). Le site de coupure reconnu par l'insulinase est très spécifique: un changement dans la séquence en acide aminé du site de coupure (comme celui induit par la mutation R55C), empêche la protéase de faire son 'travail'.
 


Bonus:  Une séquence en acide aminé vue autrement...


Activité 4: Visualiser la structure 3D de l'insuline


 
Les chercheurs sont capables (depuis 1958) de cristalliser des protéines et de les 'prendre en photo' à l'aide des rayons X.
Les résultats de ces expériences sont ensuite analysés grâce à des programmes bioinformatiques: on peut ainsi visualiser la structure des protéines... et de l'insuline

Visualiser la structure 3D de l'insuline  (PDB 2HIU)
* Sélectionner le viewer 'Protein workshop' à droite de la page (Java)
* Dans Shortcuts: Recolor the backbone 'By compound' - pour visualiser la position des différents acides aminés
* Dans Tools: 'Surfaces' - jouer avec la transparence (surface de la protéine)
* Dans Tools: 'Visibility', 'atoms and bonds', click on 'Chain A: Insulin" - pour voir les différents atomes de chaque acide aminé
* Dans Option: Reset - pour revenir à l'image initiale

Pour le fun, voici les données expérimentales brutes - les coordonnées spatiales (X, Y, Z) de chaque atome de chaque acide aminé de l'insuline ! (chercher 'ATOM' dans la page)

Remarque:  Il n'existe pas de données de structure 3D pour l'insuline avec la mutation R55C. Nous ne savons pas si il est possible de produire l'insuline avec la  mutation R55C en quantité suffisante pour pouvoir étudier sa structure 3D.

La séquence d'une protéine détermine sa forme et sa fonction.
Voici une belle galerie de photos, pour se faire une idée de la taille relative et des formes de différentes protéines (agrandies x 3'000'000) (pdf (5Mb)).
Retrouver l'insuline parmi les différentes protéines et comparer sa taille avec celle des autres protéines.

Activité 5: L'insuline est-elle spécifique à l'être humain ?

BLAST

Voici la séquence complète en acide aminé de l'insuline humaine:
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN

Question:


Approche bioinformatique:
Faire un 'BLAST' contre une banque de données de protéines appelée UniProtKB


Info technique: BLAST est un outil bioinformatique qui permet de comparer la séquence d'une protéine avec des millions d'autres séquences contenues dans les banques de données et de retrouver, si elles existent, celles qui lui ressemblent le plus, en quelques secondes. On peut ainsi rapidement savoir si une protéine existe dans une espèce donnée.

* Copier/coller la séquence dans l'outil 'BLAST' 
* Sélectionner 'Target Database = UniProtKB/Swiss-Prot'
* Cliquer sur le bouton 'Run BLAST'
* Regarder la conservation des acides aminés ('View alignment') et la conservation des ponts disulfures (Highlight 'Disulfide bond')
* Rechercher les images correspondant au nom latin des différentes espèces sur Google (exemple 'Octodon degus')

L'insuline est une très vieille protéine dont l'origine pourrait remonter à plus de 1 milliard d'années (chez des Eucaryotes unicellulaires).
Elle est présente chez les animaux, mais on retrouve aussi des protéines insulin-like chez les champignons et les protistes (wikipedia)

* Sélectionner  'Target Database = ...Nematoda' ou 'Target Database = ...Arthropoda'

Alignement multiple

Voici une liste d'insulines de différentes espèces (dans la banque de données UniProtKB/Swiss-Prot)
* Sélectionner les espèces de votre choix (mammifères, poissons, oiseaux; inclure l'insuline humaine)
* Construire un alignement multiple (Align)
* Dans la page des résultats: 'Highlight Annotation' 'Disulfide bond' et 'Natural Variant':
    - noter la conservation des cystéines impliquées dans les ponts disulfures.
    - noter la conservation de l'acide aminé R55.
    - noter que les régions les plus conservées correspondent aux chaînes A et B de l'insuline 'coupée'

Introduction à la phylogénie

Vous pouvez également comparer les séquences d'insuline de différentes espèces et esquisser un arbre phylogénétique avec PhiloPhylo

Activité 6: www.chromosomewalk.ch

 
www.chromosomewalk.ch est une exposition virtuelle pour (re)découvrir le monde des gènes, des protéines et de la bioinformatique....

Depuis la liste des chromosomes humains: rechercher 'insuline'

Vérifiez que vous êtes de vrais experts : quiz expert !



Pour nous contacter...