You are here: Home  >  Education  >  Ateliers de bioinformatique

Le génome humain, les virus et les bactéries


Le génome humain et les virus

En 2001, les revues Nature et Science publiaient les premiers résultats de l'analyse de la séquence du génome humain:
- Initial sequencing and analysis of the human genome, Nature (2001), 409(6822):860-921.
  (consortium publique; génome humain de 'reference' provenant de 15 individus anonymes)
- The sequence of the human genome, Science (2001), 291(5507):1304-1351 (consortium privé; Celera, séquence du génome de Craig Venter) L'analyse de cette séquence révélait, entre autres, qu'environ 8% de l'ADN du génome humain est d'origine virale. Intéressant de se rappeler que 1.5 % du génome humain code pour des protéines (exons). Ces séquences d'ADN virales sont des vestiges de l'infection, datant de plusieurs millions d'années, des cellules germinales de nos ancêtres primates par des virus appelés 'rétrovirus'. La plupart de ces séquences sont inactives: elles ont subi des modifications les rendant incapables de coder pour la moindre protéine. Mais certaines sont encore actives et codent pour des protéines utiles pour l'être humain ! Séquences de rétrovirus endogènes inactives Vous pouvez chercher directement ces différents 'gènes' (devenus inactifs) dans le génome humain à l'aide de Mapviewer. Mapviewer est un 'genome browser', un outil permettant de localiser, par exemple, un gène dans le génome humain en recherchant le nom du gène en question. Les vestiges des génomes des rétrovirus endogènes peuvent contenir les vestiges de 3 gènes viraux typiques: - env (code pour des protéines 'fusiogènes' permettant la fusion entre le virus et la cellule cible) - pol (code pour une polymerase impliquée dans la réplication de l'ADN du virus) - gag (code pour les protéines de la capsides du virus). Remarque: il n'existe pas de nomenclature officielle pour ces vestiges de gènes d'origine virale. Les chercheurs qui ont annoté ces séquences ont la plupart du temps gardé leur nom d'origine: 'env', 'pol' ou 'gag'. Ou ces séquences ont été annotées automatiquement comme 'env', 'pol' ou 'gag' parce qu'elles ressemblent encore beaucoup aux séquences 'env', 'pol' ou 'gag' des virus actifs. Vous pouvez également les rechercher en utilisant le mot 'retrovirus', 'provirus' ou 'HERV' (ou les 3 mots à la fois: 'retrovirus or provirus or HERV') La recherche ne sera pas précise ni exhaustive, mais vous permettra de voir que les vestiges de ces 3 gènes viraux (env, gag et pol) sont répartis dans le génome humain, sur les différents chromosomes. Exemple de résultat (avec le gène 'env') (Choisir Assembly: reference (séquence du génome humain produite par le consortium publique))
Séquences de rétrovirus endogènes actives
Les rétrovirus endogènes peuvent produire également des protéines fonctionnelles. 

En faisant un recherche avec 'HERV' pour Human Endogenous RetroVirus dans UniProtKB, une banque de données publiques qui répertorie toutes les protéines connues, 
on peut retrouver une liste de quelques protéines humaines produites par des séquences virales intégrées dans le génome humain

Séquences de rétrovirus endogènes actives: origine virale du placenta ?

Parmi les protéines humaines produites par des séquences virales intégrées dans le génome humain, on trouve les syncytines (syncytin).
Ces protéines ont des propriétés fusiogènes (vestiges des gènes 'env') et joueraient un rôle dans la formation du placenta (syncytiotrophoblaste). 
Elles auraient également des propriétés immunosuppressives, essentielles pour le placenta, à l'interface mère-enfant.   

Les gènes syncytin ont été retrouvés dans les gènomes d'autres primates (simiens: chimpanzé, gorillem orang-outan, gibbons et macaques).
Le rétrovirus à l'origine des syncytines des simiens actuels aurait donc été capturé par un ancêtre primate il y a  45 à 70 millions d'années.

Trouver les espèces qui possèdent une protéine similaire à la syncytine humaine

Aller sur le site UniProtKB
Trouver l'entrée correspondant à la syncytin.
Sélectionner l'entrée correspondant à la syncytin 1 humaine.
Faire un Blast contre UniProtKIB/Swiss-Prot.

Trouver les séquences de protéines d'origine virale qui ressemblent le plus à la syncytine humaine

Aller sur le site UniProtKB
Faire un Blast contre Databases 'Viruses'.
A quelle protéine virale ressemble-t-elle le plus 'env', 'pol' ou 'gag'? 
Trouver dans différents génomes, les séquences qui ressemblent le plus à l'ARN messager de la syncytine humaine

Voici la séquence de l'ARN messager codant pour la syncytin 1 humaine

ATGGCCCTCCCTTATCATATTTTTCTCTTTACTGTTCTTTTACCCTCTTTCACTCTCACT
GCACCCCCTCCATGCCGCTGTATGACCAGTAGCTCCCCTTACCAAGAGTTTCTATGGAGA
ATGCAGCGTCCCGGAAATATTGATGCCCCATCGTATAGGAGTCTTTCTAAGGGAACCCCC
ACCTTCACTGCCCACACCCATATGCCCCGCAACTGCTATCACTCTGCCACTCTTTGCATG
CATGCAAATACTCATTATTGGACAGGAAAAATGATTAATCCTAGTTGTCCTGGAGGACTT
GGAGTCACTGTCTGTTGGACTTACTTCACCCAAACTGGTATGTCTGATGGGGGTGGAGTT
CAAGATCAGGCAAGAGAAAAACATGTAAAAGAAGTAATCTCCCAACTCACCCGGGTACAT
GGCACCTCTAGCCCCTACAAAGGACTAGATCTCTCAAAACTACATGAAACCCTCCGTACC
CATACTCGCCTGGTAAGCCTATTTAATACCACCCTCACTGGGCTCCATGAGGTCTCGGCC
CAAAACCCTACTAACTGTTGGATATGCCTCCCCCTGAACTTCAGGCCATATGTTTCAATC
CCTGTACCTGAACAATGGAACAACTTCAGCACAGAAATAAACACCACTTCCGTTTTAGTA
GGACCTCTTGTTTCCAATCTGGAAATAACCCATACCTCAAACCTCACCTGTGTAAAATTT
AGCAATACTACATACACAACCAACTCCCAATGCATCAGGTGGGTAACTCCTCCCACACAA
ATAGTCTGCCTACCCTCAGGAATATTTTTTGTCTGTGGTACCTCAGCCTATCGTTGTTTG
AATGGCTCTTCAGAATCTATGTGCTTCCTCTCATTCTTAGTGCCCCCTATGACCATCTAC
ACTGAACAAGATTTATACAATTATGTCATATCTAAGCCCCGCAACAAAAGAGTACCCATT
CTTCCTTTTGTTATAGGAGCAGGAGTGCTAGGTGCACTAG
L'outil BLAT permet d'aligner cette séquence avec la séquence du génome l'espèce de votre choix. 

Copier/coller cette séquence dans la 'fenêtre' du Blat
Choississez le génome de l'espèce que vous souhaitez tester (les primates, le poulet, le platypus...).
...et c'est parti...
En cliquant sur 'Details' vous pouvez visualiser la similitude entre la séquence de ce mRNA et celle du génome choisi 
(une lettre majuscule bleu clair, signifie que la base (A,T,G ou C) est conservée, une lettre minuscule noire signifie qu'à la position en question, la séquence n'est pas conservée)

Le génome humain et les bactéries

Protéines humaines produites probablement à partir de séquences bactériennes intégrées dans le génome humain
(selon Initial sequencing and analysis of the human genome, Nature (2001), 409(6822):860-921.)

Q9NUJ1	ABHDA_HUMAN	Abhydrolase domain-containing protein 10, mitochondrial (EC 3.4.-.-)		ABHD10	SUBCELLULAR LOCATION: Mitochondrion (Potential). 
Q9UKU7	ACAD8_HUMAN	Isobutyryl-CoA dehydrogenase, mitochondrial (EC 1.3.99.-) (Activator-recruited cofactor 42 kDa component) (ARC42) (Acyl-CoA dehydrogenase family member 8) (ACAD-8)		ACAD8 ARC42 IBD	SUBCELLULAR LOCATION: Mitochondrion. 
P28330	ACADL_HUMAN	Long-chain specific acyl-CoA dehydrogenase, mitochondrial (LCAD) (EC 1.3.99.13)		ACADL	SUBCELLULAR LOCATION: Mitochondrion matrix. 
Q6NUN0	ACSM5_HUMAN	Acyl-coenzyme A synthetase ACSM5, mitochondrial (EC 6.2.1.2)		ACSM5 MACS3	SUBCELLULAR LOCATION: Mitochondrion matrix (By similarity). 
P21397	AOFA_HUMAN	Amine oxidase [flavin-containing] A (EC 1.4.3.4) (Monoamine oxidase type A) (MAO-A)		MAOA	SUBCELLULAR LOCATION: Mitochondrion outer membrane; Single-pass type IV membrane protein; Cytoplasmic side. 
P27338	AOFB_HUMAN	Amine oxidase [flavin-containing] B (EC 1.4.3.4) (Monoamine oxidase type B) (MAO-B)		MAOB	SUBCELLULAR LOCATION: Mitochondrion outer membrane; Single-pass type IV membrane protein; Cytoplasmic side. 
Q9NX46	ARHL2_HUMAN	Poly(ADP-ribose) glycohydrolase ARH3 (EC 3.2.1.143) (ADP-ribosylhydrolase 3) ([Protein ADP-ribosylarginine] hydrolase-like protein 2)		ADPRHL2 ARH3	SUBCELLULAR LOCATION: Cytoplasm (By similarity). Nucleus. 
A5YM72	CRNS1_HUMAN	Carnosine synthase 1 (EC 6.3.2.11) (ATP-grasp domain-containing protein 1)		CARNS1 ATPGD1 KIAA1394	
O95954	FTCD_HUMAN	Formimidoyltransferase-cyclodeaminase (Formiminotransferase-cyclodeaminase) (FTCD) (LCHC1) [Includes: Glutamate formimidoyltransferase (EC 2.1.2.5) (Glutamate formiminotransferase) (Glutamate formyltransferase); Formimidoyltetrahydrofolate cyclodeaminase (EC 4.3.1.4) (Formiminotetrahydrofolate cyclodeaminase)]		FTCD	SUBCELLULAR LOCATION: Cytoplasm, cytoskeleton, centrosome, centriole. Golgi apparatus (By similarity). Note=More abundantly located around the mother centriole.
O43826	G6PT1_HUMAN	Glucose-6-phosphate translocase (Glucose-5-phosphate transporter) (Solute carrier family 37 member 4) (Transformation-related gene 19 protein) (TRG-19)	SLC37A4 G6PT G6PT1 PRO0685 TRG19	SUBCELLULAR LOCATION: Endoplasmic reticulum membrane; Multi-pass membrane protein (Potential). 
Q9UJ68	MSRA_HUMAN	Peptide methionine sulfoxide reductase (EC 1.8.4.11) (Peptide-methionine (S)-S-oxide reductase) (Peptide Met(O) reductase) (Protein-methionine-S-oxide reductase) (PMSR)		MSRA	
Q9ULI2	RIMKB_HUMAN	Ribosomal protein S6 modification-like protein B	RIMKLB FAM80B KIAA1238	
Q5VYX0	RNLS_HUMAN	Renalase (EC 1.4.-.-) (Monoamine oxidase-C) (MAO-C)	RNLS C10orf59	SUBCELLULAR LOCATION: Secreted. 
P13866	SC5A1_HUMAN	Sodium/glucose cotransporter 1 (Na(+)/glucose cotransporter 1) (High affinity sodium-glucose cotransporter) (Solute carrier family 5 member 1)		SLC5A1 NAGT SGLT1	SUBCELLULAR LOCATION: Membrane; Multi-pass membrane protein. 
P31639	SC5A2_HUMAN	Sodium/glucose cotransporter 2 (Na(+)/glucose cotransporter 2) (Low affinity sodium-glucose cotransporter) (Solute carrier family 5 member 2)		SLC5A2 SGLT2	SUBCELLULAR LOCATION: Membrane; Multi-pass membrane protein. 
Q9NY91	SC5A4_HUMAN	Low affinity sodium-glucose cotransporter (Sodium/glucose cotransporter 3) (Na(+)/glucose cotransporter 3) (Solute carrier family 5 member 4)		SLC5A4 SAAT1 SGLT2	SUBCELLULAR LOCATION: Membrane; Multi-pass membrane protein. 
Q658P3	STEA3_HUMAN	Metalloreductase STEAP3 (EC 1.16.1.-) (Dudulin-2) (Six-transmembrane epithelial antigen of prostate 3) (Tumor suppressor-activated pathway protein 6) (hTSAP6) (pHyde) (hpHyde)		STEAP3 TSAP6	SUBCELLULAR LOCATION: Endosome membrane; Multi-pass membrane protein (By similarity). Note=Localizes to vesicular-like structures at the plasma membrane and around the nucleus.
Q9BSH4	TACO1_HUMAN	Translational activator of cytochrome c oxidase 1 (Coiled-coil domain-containing protein 44) (Translational activator of mitochondrially-encoded cytochrome c oxidase I)		TACO1 CCDC44 PRO0477	SUBCELLULAR LOCATION: Mitochondrion. 
P19971	TYPH_HUMAN	Thymidine phosphorylase (TP) (EC 2.4.2.4) (Gliostatin) (Platelet-derived endothelial cell growth factor) (PD-ECGF) (TdRPase)		TYMP ECGF

Trouver les espèces qui possèdent une protéine similaire à l'une de ces protéines

Aller sur le site UniProtKB
Récupérer l'entrée correspondant à l'une de ces protéines.
Regarder dans la section 'Subcellular location' quelle est la localisation subcellulaire de la protéine (si elle est connue...)
Combien de ces protéines ne sont pas localisées dans la mitochondrie ?

Faire un Blast contre UniProtKIB/Swiss-Prot (copier coller le numéro d'accession, i.e. P13866)
Regarder les espèces qui ont des protéines similaires.

The authors claim that these proteins are probable vertebrate-specific acquisition of bacterial genes.
Could find proteins similar to P13866 in yeast ?
Do a Blast against 'Fungi'