Le génome humain et les virus
En 2001, les revues Nature et Science publiaient les premiers résultats de l'analyse de la séquence du génome humain:
- Initial sequencing and analysis of the human genome, Nature (2001), 409(6822):860-921.
(consortium publique; génome humain de 'reference' provenant de 15 individus anonymes)
- The sequence of the human genome, Science (2001), 291(5507):1304-1351
(consortium privé; Celera, séquence du génome de Craig Venter)
L'analyse de cette séquence révélait, entre autres, qu'environ 8% de l'ADN du génome humain est d'origine virale. Intéressant de se rappeler que 1.5 % du génome humain code pour des protéines (exons).
Ces séquences d'ADN virales sont des vestiges de l'infection, datant de plusieurs millions d'années, des cellules germinales de nos ancêtres primates par des virus appelés 'rétrovirus'.
La plupart de ces séquences sont inactives: elles ont subi des modifications les rendant incapables de coder pour la moindre protéine.
Mais certaines sont encore actives et codent pour des protéines utiles pour l'être humain !
Séquences de rétrovirus endogènes inactives
Vous pouvez chercher directement ces différents 'gènes' (devenus inactifs) dans le génome humain à l'aide de Mapviewer.
Mapviewer est un 'genome browser', un outil permettant de localiser, par exemple, un gène dans le génome humain en recherchant le nom du gène en question.
Les vestiges des génomes des rétrovirus endogènes peuvent contenir les vestiges de 3 gènes viraux typiques:
- env (code pour des protéines 'fusiogènes' permettant la fusion entre le virus et la cellule cible)
- pol (code pour une polymerase impliquée dans la réplication de l'ADN du virus)
- gag (code pour les protéines de la capsides du virus).
Remarque: il n'existe pas de nomenclature officielle pour ces vestiges de gènes d'origine virale.
Les chercheurs qui ont annoté ces séquences ont la plupart du temps gardé leur nom d'origine: 'env', 'pol' ou 'gag'.
Ou ces séquences ont été annotées automatiquement comme 'env', 'pol' ou 'gag' parce qu'elles ressemblent encore beaucoup aux séquences 'env', 'pol' ou 'gag' des virus actifs.
Vous pouvez également les rechercher en utilisant le mot 'retrovirus', 'provirus' ou 'HERV' (ou les 3 mots à la fois: 'retrovirus or provirus or HERV')
La recherche ne sera pas précise ni exhaustive, mais vous permettra de voir que les vestiges de ces 3 gènes viraux (env, gag et pol) sont répartis dans le génome humain, sur les différents chromosomes.
Exemple de résultat (avec le gène 'env')
(Choisir Assembly: reference (séquence du génome humain produite par le consortium publique))
Séquences de rétrovirus endogènes actives
Les rétrovirus endogènes peuvent produire également des protéines fonctionnelles.
En faisant un recherche avec 'HERV' pour Human Endogenous RetroVirus dans UniProtKB, une banque de données publiques qui répertorie toutes les protéines connues,
on peut retrouver une liste de quelques protéines humaines produites par des séquences virales intégrées dans le génome humain
Séquences de rétrovirus endogènes actives: origine virale du placenta ?
Parmi les protéines humaines produites par des séquences virales intégrées dans le génome humain, on trouve les syncytines (syncytin).
Ces protéines ont des propriétés fusiogènes (vestiges des gènes 'env') et joueraient un rôle dans la formation du placenta (syncytiotrophoblaste).
Elles auraient également des propriétés immunosuppressives, essentielles pour le placenta, à l'interface mère-enfant.
Les gènes syncytin ont été retrouvés dans les gènomes d'autres primates (simiens: chimpanzé, gorillem orang-outan, gibbons et macaques).
Le rétrovirus à l'origine des syncytines des simiens actuels aurait donc été capturé par un ancêtre primate il y a 45 à 70 millions d'années.
Trouver les espèces qui possèdent une protéine similaire à la syncytine humaine
Aller sur le site UniProtKB
Trouver l'entrée correspondant à la syncytin.
Sélectionner l'entrée correspondant à la syncytin 1 humaine.
Faire un Blast contre UniProtKIB/Swiss-Prot.
Trouver les séquences de protéines d'origine virale qui ressemblent le plus à la syncytine humaine
Aller sur le site UniProtKB
Faire un Blast contre Databases 'Viruses'.
A quelle protéine virale ressemble-t-elle le plus 'env', 'pol' ou 'gag'?
Trouver dans différents génomes, les séquences qui ressemblent le plus à l'ARN messager de la syncytine humaine
Voici la séquence de l'ARN messager codant pour la syncytin 1 humaine
ATGGCCCTCCCTTATCATATTTTTCTCTTTACTGTTCTTTTACCCTCTTTCACTCTCACT
GCACCCCCTCCATGCCGCTGTATGACCAGTAGCTCCCCTTACCAAGAGTTTCTATGGAGA
ATGCAGCGTCCCGGAAATATTGATGCCCCATCGTATAGGAGTCTTTCTAAGGGAACCCCC
ACCTTCACTGCCCACACCCATATGCCCCGCAACTGCTATCACTCTGCCACTCTTTGCATG
CATGCAAATACTCATTATTGGACAGGAAAAATGATTAATCCTAGTTGTCCTGGAGGACTT
GGAGTCACTGTCTGTTGGACTTACTTCACCCAAACTGGTATGTCTGATGGGGGTGGAGTT
CAAGATCAGGCAAGAGAAAAACATGTAAAAGAAGTAATCTCCCAACTCACCCGGGTACAT
GGCACCTCTAGCCCCTACAAAGGACTAGATCTCTCAAAACTACATGAAACCCTCCGTACC
CATACTCGCCTGGTAAGCCTATTTAATACCACCCTCACTGGGCTCCATGAGGTCTCGGCC
CAAAACCCTACTAACTGTTGGATATGCCTCCCCCTGAACTTCAGGCCATATGTTTCAATC
CCTGTACCTGAACAATGGAACAACTTCAGCACAGAAATAAACACCACTTCCGTTTTAGTA
GGACCTCTTGTTTCCAATCTGGAAATAACCCATACCTCAAACCTCACCTGTGTAAAATTT
AGCAATACTACATACACAACCAACTCCCAATGCATCAGGTGGGTAACTCCTCCCACACAA
ATAGTCTGCCTACCCTCAGGAATATTTTTTGTCTGTGGTACCTCAGCCTATCGTTGTTTG
AATGGCTCTTCAGAATCTATGTGCTTCCTCTCATTCTTAGTGCCCCCTATGACCATCTAC
ACTGAACAAGATTTATACAATTATGTCATATCTAAGCCCCGCAACAAAAGAGTACCCATT
CTTCCTTTTGTTATAGGAGCAGGAGTGCTAGGTGCACTAG
L'outil BLAT permet d'aligner cette séquence avec la séquence du génome l'espèce de votre choix.
Copier/coller cette séquence dans la 'fenêtre' du Blat
Choississez le génome de l'espèce que vous souhaitez tester (les primates, le poulet, le platypus...).
...et c'est parti...
En cliquant sur 'Details' vous pouvez visualiser la similitude entre la séquence de ce mRNA et celle du génome choisi
(une lettre majuscule bleu clair, signifie que la base (A,T,G ou C) est conservée, une lettre minuscule noire signifie qu'à la position en question, la séquence n'est pas conservée)
Le génome humain et les bactéries
Protéines humaines produites probablement à partir de séquences bactériennes intégrées dans le génome humain
(selon Initial sequencing and analysis of the human genome, Nature (2001), 409(6822):860-921.)
Q9NUJ1 ABHDA_HUMAN Abhydrolase domain-containing protein 10, mitochondrial (EC 3.4.-.-) ABHD10 SUBCELLULAR LOCATION: Mitochondrion (Potential).
Q9UKU7 ACAD8_HUMAN Isobutyryl-CoA dehydrogenase, mitochondrial (EC 1.3.99.-) (Activator-recruited cofactor 42 kDa component) (ARC42) (Acyl-CoA dehydrogenase family member 8) (ACAD-8) ACAD8 ARC42 IBD SUBCELLULAR LOCATION: Mitochondrion.
P28330 ACADL_HUMAN Long-chain specific acyl-CoA dehydrogenase, mitochondrial (LCAD) (EC 1.3.99.13) ACADL SUBCELLULAR LOCATION: Mitochondrion matrix.
Q6NUN0 ACSM5_HUMAN Acyl-coenzyme A synthetase ACSM5, mitochondrial (EC 6.2.1.2) ACSM5 MACS3 SUBCELLULAR LOCATION: Mitochondrion matrix (By similarity).
P21397 AOFA_HUMAN Amine oxidase [flavin-containing] A (EC 1.4.3.4) (Monoamine oxidase type A) (MAO-A) MAOA SUBCELLULAR LOCATION: Mitochondrion outer membrane; Single-pass type IV membrane protein; Cytoplasmic side.
P27338 AOFB_HUMAN Amine oxidase [flavin-containing] B (EC 1.4.3.4) (Monoamine oxidase type B) (MAO-B) MAOB SUBCELLULAR LOCATION: Mitochondrion outer membrane; Single-pass type IV membrane protein; Cytoplasmic side.
Q9NX46 ARHL2_HUMAN Poly(ADP-ribose) glycohydrolase ARH3 (EC 3.2.1.143) (ADP-ribosylhydrolase 3) ([Protein ADP-ribosylarginine] hydrolase-like protein 2) ADPRHL2 ARH3 SUBCELLULAR LOCATION: Cytoplasm (By similarity). Nucleus.
A5YM72 CRNS1_HUMAN Carnosine synthase 1 (EC 6.3.2.11) (ATP-grasp domain-containing protein 1) CARNS1 ATPGD1 KIAA1394
O95954 FTCD_HUMAN Formimidoyltransferase-cyclodeaminase (Formiminotransferase-cyclodeaminase) (FTCD) (LCHC1) [Includes: Glutamate formimidoyltransferase (EC 2.1.2.5) (Glutamate formiminotransferase) (Glutamate formyltransferase); Formimidoyltetrahydrofolate cyclodeaminase (EC 4.3.1.4) (Formiminotetrahydrofolate cyclodeaminase)] FTCD SUBCELLULAR LOCATION: Cytoplasm, cytoskeleton, centrosome, centriole. Golgi apparatus (By similarity). Note=More abundantly located around the mother centriole.
O43826 G6PT1_HUMAN Glucose-6-phosphate translocase (Glucose-5-phosphate transporter) (Solute carrier family 37 member 4) (Transformation-related gene 19 protein) (TRG-19) SLC37A4 G6PT G6PT1 PRO0685 TRG19 SUBCELLULAR LOCATION: Endoplasmic reticulum membrane; Multi-pass membrane protein (Potential).
Q9UJ68 MSRA_HUMAN Peptide methionine sulfoxide reductase (EC 1.8.4.11) (Peptide-methionine (S)-S-oxide reductase) (Peptide Met(O) reductase) (Protein-methionine-S-oxide reductase) (PMSR) MSRA
Q9ULI2 RIMKB_HUMAN Ribosomal protein S6 modification-like protein B RIMKLB FAM80B KIAA1238
Q5VYX0 RNLS_HUMAN Renalase (EC 1.4.-.-) (Monoamine oxidase-C) (MAO-C) RNLS C10orf59 SUBCELLULAR LOCATION: Secreted.
P13866 SC5A1_HUMAN Sodium/glucose cotransporter 1 (Na(+)/glucose cotransporter 1) (High affinity sodium-glucose cotransporter) (Solute carrier family 5 member 1) SLC5A1 NAGT SGLT1 SUBCELLULAR LOCATION: Membrane; Multi-pass membrane protein.
P31639 SC5A2_HUMAN Sodium/glucose cotransporter 2 (Na(+)/glucose cotransporter 2) (Low affinity sodium-glucose cotransporter) (Solute carrier family 5 member 2) SLC5A2 SGLT2 SUBCELLULAR LOCATION: Membrane; Multi-pass membrane protein.
Q9NY91 SC5A4_HUMAN Low affinity sodium-glucose cotransporter (Sodium/glucose cotransporter 3) (Na(+)/glucose cotransporter 3) (Solute carrier family 5 member 4) SLC5A4 SAAT1 SGLT2 SUBCELLULAR LOCATION: Membrane; Multi-pass membrane protein.
Q658P3 STEA3_HUMAN Metalloreductase STEAP3 (EC 1.16.1.-) (Dudulin-2) (Six-transmembrane epithelial antigen of prostate 3) (Tumor suppressor-activated pathway protein 6) (hTSAP6) (pHyde) (hpHyde) STEAP3 TSAP6 SUBCELLULAR LOCATION: Endosome membrane; Multi-pass membrane protein (By similarity). Note=Localizes to vesicular-like structures at the plasma membrane and around the nucleus.
Q9BSH4 TACO1_HUMAN Translational activator of cytochrome c oxidase 1 (Coiled-coil domain-containing protein 44) (Translational activator of mitochondrially-encoded cytochrome c oxidase I) TACO1 CCDC44 PRO0477 SUBCELLULAR LOCATION: Mitochondrion.
P19971 TYPH_HUMAN Thymidine phosphorylase (TP) (EC 2.4.2.4) (Gliostatin) (Platelet-derived endothelial cell growth factor) (PD-ECGF) (TdRPase) TYMP ECGF
Trouver les espèces qui possèdent une protéine similaire à l'une de ces protéines
Aller sur le site UniProtKB
Récupérer l'entrée correspondant à l'une de ces protéines.
Regarder dans la section 'Subcellular location' quelle est la localisation subcellulaire de la protéine (si elle est connue...)
Combien de ces protéines ne sont pas localisées dans la mitochondrie ?
Faire un Blast contre UniProtKIB/Swiss-Prot (copier coller le numéro d'accession, i.e. P13866)
Regarder les espèces qui ont des protéines similaires.
The authors claim that these proteins are probable vertebrate-specific acquisition of bacterial genes.
Could find proteins similar to P13866 in yeast ?
Do a Blast against 'Fungi'