Микропрепараты. Анализ аминокислотной последовательности
Скачать 415.5 Kb.
|
Анализ аминокислотной последовательности:паттерны, домены, семейства … или что, где и как искать? Что будем искать ?НАД-связывающий сайт/центр Сайты возможной посттрансляционной модификации (РТМ) Домен 1 Домен 2 Гомологичное семейство: особенности последовательностей, характерный тип структуры, функции, таксономия и т.п. Семейство 1 Семейство 3 Семейство 2 «Похожие» семейства Ортологи Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–PSSM – Профиль–HМM - Подпись (signature) – «Oтпечатки пальцев» (fingerprints) – Кластер - Место, сайт(site) - Мотив (motif) – Домен (domain) – Семейство – Суперсемейство - ? Домен – единица эволюции, структуры и функции белков. Домен – компактная, относительно независимо сворачивающаяся структура, относительно консервативная в процессе эволюции. Белки могут состоять из одного или многих доменов. nitrogen fixation positive activator protein Мотив ?Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры (-спираль, -шпилька, -поворот). В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях. Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены. Не в любом выравнивании легко найти мотив. Интуитивно понятно:Интуитивно понятно: Семейство - группа белков, имеющая общее происхождение, их аминокислотные последовательности выравниваются по всей длине со значимым весом и имеют сходную доменную структуру. Мнения расходятся, когда речь идет о критериях: насколько должны быть похожи белки одного семейства (id>=30%, id>= 50%) ??? должны белки одного семейства выполнять одну и ту же функцию?? Superfamily Family Subfamily No commentsПаттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–PSSM – Профиль–HМM - Подпись (signature) – «Oтпечатки пальцев» (fingerprints) - Место, сайт(site) - Мотив (motif) – Домен (domain) – Семейство – Суперсемейство - ? Банки белковых семейств и доменов, производные от банков аминокислотных последовательностей Коллекции мотивов Коллекции доменов PROSITE , 1989 Pfam BLOCKS SMART PRINTS ProDom, 1995 SUPERFAMILY InterPro, 1999 (Integrated Resource of Protein Families) PROSITE - биологически значимые сайты, паттерны и профилиВыравнивание хорошо изучен-ного семейства Функционально важные остатки 4-5 консервативных остатков Паттерн Если находим только«пра-вильные», то ОК Если много лишнего, то увеличиваем паттерн Поиск в SP Паттерн – регулярное выражение UNIX’a: [AC]-x-V-x(4)-{ED} Ala или Cys- х-Val- х- х- х - х- (любой, но не Glu или Asp) http://www.expasy.ch/prosite/ PROSITE - биологически значимые сайты, паттерны и профилиPROSITEРелиз 18.25, 14.04 2004 1257 документов, 1706 разных паттернов, правил и профилей. Профиль или весовая матрица F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V C A -18 -10 -1 -8 8 -3 3 -10 -2 -8 C -22 -33 -18 -18 -22 -26 22 -24 -19 -7 D -35 0 -32 -33 -7 6 -17 -34 -31 0 E -27 15 -25 -26 -9 23 -9 -24 -23 -1 F 60 -30 12 14 -26 -29 -15 4 12 -29 G -30 -20 -28 -32 28 -14 -23 -33 -27 -5 H -13 -12 -25 -25 -16 14 -22 -22 -23 -10 I 3 -27 21 25 -29 -23 -8 33 19 -23 K -26 25 -25 -27 -6 4 -15 -27 -26 0 L 14 -28 19 27 -27 -20 -9 33 26 -21 M 3 -15 10 14 -17 -10 -9 25 12 -11 N -22 -6 -24 -27 1 8 -15 -24 -24 -4 P -30 24 -26 -28 -14 -10 -22 -24 -26 -18 Q -32 5 -25 -26 -9 24 -16 -17 -23 7 R -18 9 -22 -22 -10 0 -18 -23 -22 -4 S -22 -8 -16 -21 11 2 -1 -24 -19 -4 T -10 -10 -6 -7 -5 -8 2 -10 -7 -11 V 0 -25 22 25 -19 -26 6 19 16 -16 W 9 -25 -18 -19 -25 -27 -34 -20 -17 -28 Y 34 -18 -1 1 -23 -12 -19 0 0 -18 Pfamhttp://www.sanger.ac.uk/Software/Pfam/index.shtml Большая коллекция множественных выравниваний, доменов, семейств и профилей-HMM для них. Состоит из 2-х частей:
PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов ProDom, не вошедших в PfamA. Удобна для анализа доменной структуры белков. PfamМножественное выравнивание (ClustalX) некоторого семейства или кластера. Экспертиза и корректировка выравнивания-затравки. Построение профиля-НММ для затравки. Поиск в базе данных а.к.последовательностей новых членов данной группы. ProDomhttp://www.toulouse.inra.fr/prodom.html Рассматриваются все последовательности в SWISS-Prot+TrEMBL. Автоматическое выделение доменов (программа DOMAINER: сначала локальное попарное выравнивание (blastp) всех против всех, затем кластеризация) Коллекция доменов - >150 000 семейств. Некоторые семейства выделены на основе выравниваний из PfamA. Гомогенность семейства оценивается с помощью диаметра (max расстояния между 2 доменами в семействе) и радиуса (ср.кв. расстояние между доменами и консенсусом семейства). Оба параметра измеряются в РАМ Статистика ProDom
43 965 из них содержат более 2 последовательностей. Среднее число доменов в последовательности – 2.8 Средняя длина – 130 а.к. остатков Comparison of protein family databases: an examplePfam Prosite Prints Blocks Smart (ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown) Example: ENTK_HUMAN (Enteropeptidase precursor) Создание интегрированной базы данных InterProPROSITE PFAM PRINTS InterPro entries IPR000001- IPR011000 Интегрирование родственных подписей «вручную» ProDom SMART TIGRFAMs PIRSF SUPERFAMILY InterPro- an integrated resource of protein families, domains and functional sites. Entry types in InterProFamily - group of evolutionarily related proteins, that share one or more domains/repeats in common. Domain -independent structural unit which can be found alone or in conjunction with other domains or repeats. Repeat -region occurring more than once that is not expected to fold into a globular domain on its own. PTM (post-translational modification) -The sequence motif is defined by the molecular recognition of this region in a cell. Active site -catalytic pockets of enzymes where the catalytic residues are known. Binding site –binds compounds but is not necessarily involved in catalysis. Взаимосвязи подписей в InterProParent/child уровень семейства Contains/found in состав домена Parent/child- family levelContains/found inPROTOMAPhttp://www.protomap.cs.huji.ac.il Automatic classification of all SWISS-PROT proteins into groups of related proteins (also including TrEMBL now) Based on pairwise similarities Has hierarchical organisation for sub- and super-family distinctions 13 354 clusters, 5869 2 proteins, 1403 10 Keeps SP annotation eg description, keywords Can search with a sequence -classify it into existing clusters |