Atelier 6 - Découverte de BLAST: un outil bioinformatique
incontournable
BLAST (Basic Local Alignment Search Tool)
est un outil bioinformatique qui permet de comparer la séquence d'un
gène ou d'une protéine avec des millions d'autres séquences contenues
dans les banques de données et de retrouver, si elles existent, celles
qui lui ressemblent le plus, en quelques secondes. On peut ainsi
rapidement savoir si un gène ou une protéine existe dans une espèce
donnée, identifier une séquence inconnue, ou retrouver sur quel
chromososome se trouve un gène donné.
Activité 1: Mise en bouche
... pour comprendre l'utilité de BLAST :
- Des chercheurs américains ont découvert, en 2007, une protéine dans
les ossements fossilisés d'un tyrannosaure vieux de 68 millions
d'années! ( activité no 1);
(plus d'info)
- Des variations dans les séquences ADN humaines sont associées avec des
phénotypes parfois étonnants... (activité
BLAST ADN)
- Des variations dans les séquences ADN humaines sont associées avec des
phénotypes parfois étonnants... (activité
BLAST protéine)
- Complément: des sites
internet proposent de séquencer votre ADN: on retrouve les même
phénotypes parfois étonnants...(résultats)
Activité
Nuit
de la Science 2012
Activité 2: Tout le monde en parle ?
Il n'y a que l'être humain qui soit capable de faire des phrases. Avec des
mots, une grammaire et une syntaxe. Et c'est pour cette raison qu'on
recherche depuis de nombreuses années LE gène du langage. Au début des
années 1990, on découvre une famille qui de génération en génération
présente les mêmes troubles du langage: difficulté à parler, à écrire, à
appréhender la grammaire. Cette famille a une mutation dans le gène FOXP2.
La protéine FOXP2 serait-elle
la protéine du langage ?
Voici le séquence en acides aminés de la protéine FOXP2:
MMQESATETISNSSMNQNGMSTLSSQLDAGSRDGRSSGDTSSEVSTVELLHLQQQQALQA
ARQLLLQQQTSGLKSPKSSDKQRPLQVPVSVAMMTPQVITPQQMQQILQQQVLSPQQLQA
LLQQQQAVMLQQQQLQEFYKKQQEQLHLQLLQQQQQQQQQQQQQQQQQQQQQQQQQQQQQ
QQQQQQQQQQQHPGKQAKEQQQQQQQQQQLAAQQLVFQQQLLQMQQLQQQQHLLSLQRQG
LISIPPGQAALPVQSLPQAGLSPAEIQQLWKEVTGVHSMEDNGIKHGGLDLTTNNSSSTT
SSNTSKASPPITHHSIVNGQSSVLSARRDSSSHEETGASHTLYGHGVCKWPGCESICEDF
GQFLKHLNNEHALDDRSTAQCRVQMQVVQQLEIQLSKERERLQAMMTHLHMRPSEPKPSP
KPLNLVSSVTMSKNMLETSPQSLPQTPTTPTAPVTPITQGPSVITPASVPNVGAIRRRHS
DKYNIPMSSEIAPNYEFYKNADVRPPFTYATLIRQAIMESSDRQLTLNEIYSWFTRTFAY
FRRNAATWKNAVRHNLSLHKCFVRVENVKGAVWTVDEVEYQKRRSQKITGSPTLVKNIPT
SLGYGAALNASLQAALAESSLPLLSNPGLINNASSGLLQAVHEDLNGSLDHIDSNGNSSP
GCSPQPHIHSIHVKEEPVIAEDEDCPMSLVTTANHSPELEDDREIEEEPLSEDLE
Question:
- 'LA' protéine du langage est-elle spécifique à l'être humain ?
Approche bioinformatique: Faire un
'BLAST'
contre une banque de données de protéines, UniProtKB
(copier coller la sequence dans la boîte 'Sequence', sélectionner
'database' = UniProtKB/Swiss-Prot, puis cliquer sur le bouton 'BLAST')
Solution
Activité 3: Rechercher une aiguille dans une
botte de foin...
Le programme BLAST permet, entre autre, de rechercher de façon très
spécifique un texte de quelques dizaines de lettres (acides nucléiques) dans
le texte du génome humain, qui en contient 3 milliards.
Voici la séquence en acide nucléique correspondant aux 20 premiers acides
aminés de la protéine FOXP2 humaine
M M Q E S A T E T I S N S S M N Q N G M
atg atg cag gaa tct gcg aca gag aca ata agc aac agt tca atg aat caa aat gga atg
Questions:
- Sur quel chromosome se trouve le gène codant pour la protéine FOXP2
?
- Combien de lettres (acides nucléiques) au minimum sont nécessaires
pour retrouver le bon résultat ?
- Combien de lettres peut-on changer et retrouver quand même le bon
résultat ?
- Amusez-vous à 'écrire' une séquence au hasard, toujours avec un
alphabet de 4 lettres (A,T,G,C): la retrouvez-vous dans le génome ?
Approche bioinformatique: Faire un
BLAST
contre le génome humain
Choisir l'option 'Database': Genome(reference only)
(copier coller la séquence en acides nucléiques dans la boîte
'BLAST human sequence', puis cliquer sur le bouton 'BLAST')
Solution
Activité 4: Enquête...
Un verre contenant un liquide blanchâtre a été retrouvé sur les lieux
d'un crime. Des experts ont analysé ce liquide et séquencé les protéines
qui s'y trouvaient. A vous d'identifier ces protéines et de découvrir
peut-être la cause du décès !
Voici les séquences (fragments) des protéines qui ont été retrouvées dans le
liquide.
> seq 1
MKVLILACLVALALARELEELNVPGEIVESLSSSEESITRINKKIEKFQSEEQQQTEDEL
> seq 2
MKFFIFTCLLAVALAKNTMEHVSSSEESIISQETYKQEKNMAINPSKENLCSTFCKEVVR
> seq 3
MKFFIFTCLLAVALAKHKMEHVSSSEEPINIFQEIYKQEKNMAIHPRKEKLCTTSCEEVV
> seq 4
MIEVLLVTICLAVFPYQGSSIILESGNVNDYEVVYPRKVTALPKGAVQPKYEDAMQYELK
> seq 5
MISSHQKTLTDKELALISGGKTHYPTNAWKSLWKGFWESLRYTDGF
Approche bioinformatique: Faire un
'BLAST'
contre UniProtKB, la banque de données de protéines
(copier coller une séquence dans la boîte 'Sequence', sélectionner
'database' = UniProtKB/Swiss-Prot, puis cliquer sur le bouton 'BLAST')
Solution
Cet exemple a été adapté du site
Bioinfo@school
Activité 5: Des virus et des bactéries ...
by
biomickwatson
(April 2015)
A tiny virus genome present in huge numbers of sequenced bacteria.
Check it out:
Go here:
http://blast.ncbi.nlm.nih.gov/Blast.cgi
Click on Nucleotide Blast
Where it says "Enter accession number, gi or FASTA",
simply enter the number:
9626372
(genome phage phiX174)
Where it says "Database" make sure you choose "others"
Just under there, where it says "Organism (optional)"
start typing the word Bacteria, and choose "Bacteria (taxid: 2)"
Click the Blast button at the bottom
OMG! This tiny viral genome (phage phiX174) is in E coli, it's in
Acinetobacter, Desulfitobacterium, Sphingobacterium....
Le génome humain contient également un certain nombre de séquences de
virus qui se sont intégrés au cours de l'évolution: 50 % du génome !
Le gène
ERVWE1
est le vestige d'une infection virale chez nos lointains ancêtres, qui
pourrait avoir joué un rôle dans l'apparition du placenta chez les
mammifères.
"Primate evolution has been accompanied by several waves of retrotransposon
insertions. Nowadays about 50% of our genome is composed of endogenous
retroelements (EREs). Although many of them have lost their
transposition ability, some remain quite active. It is currently
estimated that new, non-parental integrations occur in nearly 1/100 births
and roughly every 20th newborn baby has a new Alu retrotransposon somewhere
in its DNA." (A. Estreicher, UniProt)
Another cool paper (
pdf)
- turns out that the genome of
the sweet
potato has parts of the Agrobacterium in it!
Certaines activités sont issues de
discussions pédagogiques et didactiques en lien avec le projet
Bioinformatique
: opportunités pour l’enseignement (F.Lombard ).
Pour nous contacter...