Биоинфлотмаитка. Биоинформатика Практикалық нұсқаулық 2. Биоинформатика пнінен практикаа арналан нсаулы Практикалы жмыс 1 Биологиялы деректер,оларды ерекшеліктерін талдау
Скачать 0.98 Mb.
|
Бақылау сұрақтар 1)Филогенетикалық ағашқа сипаттама 2)Филогенетикалық ағаш түрлері,атаулары қандай? 3)Эволюциялық ағаштың бифуркционалдық және бифуркционсыз түрлерінің ерекшелігі неде? 4)Филогенетикалық ағаштардың құрылысы қандай? Практикалық жұмыс №5. Биоинформатикалық мәліметтер базасы Компьютерлер тізбектер туралы ақпаратты жолдар ретінде сақтайды - дәйекті символдардың қарапайым тізбегі. Әрбір таңба екілік кодта көрсетіледі және байт деп аталатын ақпараттың ең кіші бірлігімен көрсетіледі. Әрбір байт 8 биттен тұрады және әрбір бит 0 немесе 1 мәнін қабылдай алады, бұл биттердің 255 түрлі комбинациясын береді, яғни бір байтта 255 символды кодтау мүмкіндігін береді. ДНҚ тізбегі әдетте компьютерде аталған екілік форматта 8-биттік сөздер қатары ретінде сақталады және өңделеді. Протеин тізбегі екілік формадағы аминқышқылдарының әріптік белгілеулерінен тұратын 8 разрядты сөздер қатары ретінде берілген. Әдетте, ДНҚ немесе ақуыз тізбегі туралы ақпарат стандартты ASCII пішімінде немесе FASTA (FAST Alignment) бағдарлама пішімінде мәтіндік файлға жазылады. FASTA пішіміндегі деректер файлы тақырып жолын (тақырып) және реттілік деректер жолдарын қамтиды. Тізбектің сипаттамасы тақырып жолынан кейін жүреді, оның басында «>» белгісі бар. Бұл жолдағы бірінші сөз тізбектің аты, содан кейін реттілік сипаттамасы. Қалған жолдар реттіліктің өзін қамтиды. Деректер файлын оқығанда, FASTA бос жолдарды және реттіліктегі кез келген бос орын немесе бос орын таңбаларын елемейді. Көптеген тізбектерді біріктіретін файл бір принцип бойынша құрастырылған - тізбектердің сипаттамасын қамтитын жолдар бірінен соң бірі жүреді. FASTA пішіміндегі реттілік құрылымы: ✵ Қарапайым сипаттама жолынан басталады. Бірінші бағанда «>» болуы керек. Тақырып жолының қалған мазмұны міндетті емес, бірақ ақпаратты болуы керек. ✵ Келесі жолдарда әрбір қалдық үшін бір таңба бар реттілік бар. ✵ Халықаралық биохимия қауымдастығы мен Халықаралық таза және қолданбалы химия қауымдастығы (CI/CAC) берген нуклеотидтер мен аминқышқылдарының бір әріптік кодтары пайдаланылады. http://www.chem.qmw.ac.uk/iupac/misc/naabb.html http://www.ehern.qmw.ac.uk/iupac/AminoAcid/ ✵ Селеноцистеин үшін үш әріпті және бір әріпті кодтар ретінде Sec және U пайдаланыңыз: http://www.chem.qmw.ac.uk/iubmb/newsletter/1999/item3.html EMBnet - Еуропалық молекулярлық биология желісі. 1988 жылы биоинформатика мен есептеу биология әдістерін өз зерттеулерінде пайдаланатын еуропалық молекулалық биология зертханаларын байланыстыру үшін желі құрылды. EMBnet (Еуропалық молекулярлық биология желісі) деп аталатын бұл желі Еуропаның әртүрлі елдерінде орналасқан зертханалардың қызметкерлеріне жергілікті тілдерде жұмыс істейтін арнайы бөлінген түйіндер арқылы ақпараттық және білім беру қызметтерін көрсету үшін әзірленген. Кейіннен бұл желінің ұйымдастырылуы жекелеген мекемелерді бірқатар биологиялық деректер базаларының мерзімді жаңартылатын көшірмелерін жүргізу, іздеу бағдарламаларын орнату, қымбат коммерциялық бағдарламалық пакеттерді сатып алу және т.б. қажеттілігінен босатады. Бүгінгі таңда EMBnet 34 түйінге қызмет көрсетеді. Оның ішінде 20 түйін арнаулы Ұлттық түйіндер. Қолайлы елдер деректер базасын жүргізуге, бағдарламалық қамтамасыз ету және желілік қызметтерді (дәйектілік талдауы, ақуызды модельдеу, генетикалық карта жасау және т.б.) қамтамасыз етуге, пайдаланушыларға қолдау көрсетуге және білім беруге, зерттеулер мен әзірлемелерді жүргізуге міндетті. Сегіз EMBnet түйінінің арнайы мақсаты бар. Бұл биоинформатиканың белгілі бір тар салаларында арнайы біліммен жұмыс істеуге арналған оқу, өндірістік немесе ғылыми орталықтар. Олар негізінен деректер қорын жүргізуге және биологияның қажеттіліктері үшін бағдарламалық қамтамасыз етуді жасауға жауап береді. Қалған алты түйін EMBnet жүйесіне Серіктестік түйіндері ретінде біріктірілген. Бұл еуропалық емес елдердегі есептеу биология орталықтары, олар өз пайдаланушыларына әдеттегі Ұлттық түйін сияқты қызмет түрлерін ұсынады. Бұл түйіндердің барлығы дерлік молекулярлық модельдеуге, геномды талдауға, гендік картаға түсіруге және т.б. үшін әртүрлі құралдармен бірге дерекқорларға және ретті талдау бағдарламаларына заманауи қолжетімділікті ұсынады. Sequence Retrieval System (SRS) — молекулалық биология дерекқорларына арналған веб-шолғыш. Ол EMBnet пайдаланушыларын қосымша қызметтермен қамтамасыз ету үшін әзірленген. SRS Интернет мекенжайы: http://srs.ebi.ac.uk/ (4-сурет). SRS кез келген бауырлас дерекқорды кез келген басқа дерекқордың индексіне индекстеуге мүмкіндік береді. 4-сурет - SRS@EBI веб-парағы Бұл жүйенің артықшылығы операторларға жүйемен байланыстырылған барлық ресурстардағы жазбаларды таңдауға, оларға сілтеме жасауға және оларға қол жеткізуге мүмкіндік беретін туынды көрсеткіштерді жылдам табуға болады. Өз қалауы бойынша SRS пайдаланушысы қосылған дерекқорлар тізімін оңай қайта анықтай алады. Тізбекті іріктеу жүйесі нуклеин қышқылдарының дерекқорларын, EST (Expressed Sequence Tags), ақуыз ретін, ақуыз қатпар үлгілерін, ақуыз құрылымдарын және арнайы библиографиялық дерекқорларды байланыстырады. SRS – көптеген гетерогенді дәйектілік дерекқорлары үшін біріктірілген ақпараттық іздеу жүйесі және реттілікті салыстыру және теңестіру бағдарламалары сияқты аналитикалық құралдар арқылы таңдалған реттіліктерді тасымалдау. Жалпы алғанда, SRS ақуыздар мен нуклеотидтер тізбегінің, метаболикалық жолдардың, ақуыздың кеңістіктік құрылымдары мен функцияларының, геномдардың, аурулардың сипаттамасының және фенотиптерінің 140-тан астам дерекқорын іздей алады. Ол сондай-ақ Prosite (http://prosite.expasy.org/) және Blocks (http://blocks.fhcrc.org/) ақуыздың құрылымдық мотив дерекқорлары, транскрипция факторларының дерекқорлары және арнайы дерекқорлар сияқты шағын дерекқорларды қамтиды. . NCBI (National Center for Biotechnology Information - National Center for Biotechnology Information) 1988 жылы Құрама Штаттарда Ұлттық медицина кітапханасының (Ұлттық медицина кітапханасы) бөлімшесі ретінде құрылған және Ұлттық денсаулық сақтау институтының кампусында орналасқан ( NIH), Бетезда (Бетесда), Мэриленд (http://www.ncbi.nlm.nih.gov/). NCBI міндеті – сау және ауру ағзада болатын молекулалық-генетикалық процестерді зерттеуге арналған жаңа ақпараттық технологияларды жасау. Сонымен қатар, NCBI NIH құрған GenBank, ДНҚ тізбегі дерекқорын (http://www.ncbi.nlm.nih.gov/genbank/) жүргізеді. Entrez. EMBnet үшін SRS сияқты, NCBI дерекқорлардан молекулалық биология деректерін алу (сонымен қатар библиографиялық көздерге сілтемелерді ұйымдастыру) үшін Entrez браузерін (http://www.ncbi.nlm.nih.gov/sites/gquery) әзірледі. , NCBI-ге біріктірілген (5-сурет). Entrez әртүрлі дерекқорлардағы ұқсас жазбаларды олардың арасында айқас сілтемелердің бар-жоғына қарамастан бір-бірімен байланыстыруға мүмкіндік береді. Entrez мыналарға қол жеткізуді қамтамасыз етеді: ✵ ДНҚ тізбегі дерекқорлары – GenBank, EMBL және DDBJ; ✵ ақуыз тізбегі дерекқоры — Swiss-Prot (http://www.expasy.org/sprot/), PIR (http://pir.georgetown.edu/), PRF (http://www.genome.jp/dbget-bin/www_bfind7prf), SeqDB, PDB, ДНҚ тізбегін трансляциялау арқылы алынған ақуыз тізбегі; ✵ геномды және хромосомаларды, PDB-дан үш өлшемді белок құрылымдарын картаға түсіруге арналған мәліметтер базасы; ✵ PubMed библиографиялық мәліметтер базасы. 5-сурет - Entrez веб-парағы Дүниежүзілік желіні соншалықты күшті ететін Wide Web (WWW). Алғашқы кіріспе үшін келесі негізгі шлюз веб-сайттары ұсынылады: Тізімде көрсетілген веб-сайттардан басқа, биологияға қатысты көптеген мамандандырылған сайттар бар. Жалпы іздеу жүйелері мына ресурстарды табуға көмектеседі: Бақылау сұрақтары мен тапсырмалары 1. World Wide Web дегеніміз не? 2. Жүйелік және қолданбалы бағдарламалық қамтамасыз етудің айырмашылығы неде? Мысалдар келтіріңіз. 3. Жүктеп алу мен жүктеудің айырмашылығы неде? Интернеттен ақпаратты жүктеп алудың үш жолы қандай? 4. Компьютердің IP мекенжайы мен оның иерархиялық домендік атаулар жүйесіндегі мәтіндік атауының ұқсастықтары мен айырмашылықтары қандай? 5. Веб-бет пен веб-сайттың айырмашылығы неде? 6. Интернет браузері дегеніміз не? Сіз қандай браузерлерді білесіз? 7. Гиперсілтеме дегеніміз не? 8. URL дегеніміз не және оның форматы қандай? 9. Ақуыз тізбегі FASTA форматында қалай жазылады? 10. GI саны дегеніміз не? 11. EMBnet дегеніміз не және бұл желіде қандай браузер қолданылады? 12. SRS (Sequence Retrieval System) дегеніміз не және ол қандай желіде қолданылады? 13. NCBI дегеніміз не және NCBI желісінде қандай браузер қолданылады? 14. Entrez дегеніміз не және ол қандай желіде қолданылады? 15. Контиг дегеніміз не? 16. Интернет айналары дегеніміз не? 17. Интранет дегеніміз не? 18. Қандай әмбебап іздеу жүйелерін білесіз? Практикалық жұмыс №6.Әртүрлі түрлердің геномдық тіздектерім салыстыру Классикалық генетика бірлесіп оқшаулауды сипаттайды генетикалық локустар сол сияқты хромосома жеке адамның ішінде немесе түрлері. Алайда, бүгінде биологтар синтезияны бір-бірімен салыстырылатын хромосомалардың екі жиынтығындағы тәртіп блоктарын сақтау деп атайды. Бұл тұжырымдаманы сонымен қатар деп атауға болады ортақ үндестік. Классикалық тұжырымдама байланысты генетикалық байланыс: Екі локустың арасындағы байланыс күтілгеннен төмен бақылау арқылы орнатылады рекомбинация олардың арасындағы жиіліктер. Керісінше, сол хромосомадағы кез-келген локустар анықтамалық тұрғыдан синтетикалық болып табылады, тіпті егер олардың рекомбинация жиілігін байланыстырылмаған локустардан практикалық тәжірибелер арқылы ажыратуға болмайды. Сонымен, теория бойынша барлық байланыстырылған локустар синтетикалық болып табылады, бірақ барлық синтетикалық локустар міндетті түрде байланыстырыла бермейді. Сол сияқты геномика, хромосомадағы генетикалық локустар бұл қатынасты эксперименттік әдістермен орнатуға болатындығына қарамастан синтетикалық болып табылады. ДНҚ секвенциясы / құрастыру, геноммен жүру, физикалық локализация немесе hap-mapping. Генетика студенттері синтез терминін екі генетикалық локустың бір хромосомаға берілген жағдайын сипаттау үшін қолданады, бірақ генетикалық байланысы көрсетілмеген карта бірліктерінде жеткілікті үлкен арақашықтықпен бөлуге болады. Британ энциклопедиясы үндестіктің келесі сипаттамасын береді: Геномдық реттілік пен картаға түсіру көптеген әртүрлі түрлердің геномдарының жалпы құрылымдарын салыстыруға мүмкіндік берді. Жалпы қорытынды: салыстырмалы түрде жақында пайда болған дивергенциядағы организмдер геномдағы ұқсас позициялардағы гендердің ұқсас блоктарын көрсетеді. Бұл жағдай синтез деп аталады, жалпы хромосомалар тізбегіне ие деп аударылған. Мысалы, адамдардың көптеген гендері басқа сүтқоректілердің синтезіне ие - маймылдар ғана емес, сиырлар, тышқандар және т.б. Синтезді зерттеу геномның эволюция барысында қалай кесіліп, жабыстырылатынын көрсете алады. Ортақ синтения (консервіленген синтения деп те аталады) әртүрлі түрлердің хромосомаларында гендердің сақталған бірлескен локализациясын сипаттайды. Кезінде эволюция, сияқты геномға қайта құрылымдау хромосома транслокациясы екі локусты бөліп тастауы мүмкін, нәтижесінде олардың синондылығы жоғалады. Керісінше, транслокациялар хромосомалардың бұрын бөлінген екі бөлігін біріктіре алады, нәтижесінде локустардың синтезі күшейеді. Күткеннен гөрі күшті ортақ синтез синтетикалық гендер арасындағы функционалды қатынастар үшін іріктеуді көрсете алады, мысалы, бірге тұқым қуалаған кезде тиімді аллельдердің тіркесімдері немесе ортақ реттеу механизмдері. Кейде бұл термин хромосомадағы гендердің нақты ретін сақтауды сипаттау үшін де қолданылады. дегенмен көптеген генетиктер бұл терминді қолданудан бас тартады. Синтезді гендік реттік мағынада талдау геномикада бірнеше қолдануға ие. Ортақ үндестік - бұл орнатудың ең сенімді өлшемдерінің бірі орфология әртүрлі түрлердегі геномдық аймақтар. Сонымен қатар, синтезияны ерекше сақтау гендер арасындағы маңызды функционалдық қатынастарды көрсете алады. Мысалы, гендердің реті «Хок кластері «анықтайтын факторлар болып табылады жануар дене жоспары және бір-бірімен сыни тәсілдермен әрекеттесетіндер, бүкіл жануарлар әлемінде сақталған. Синтезия күрделі геномдарды зерттеу кезінде кеңінен қолданылады салыстырмалы геномика қарапайым, модельді организмдегі гендердің болуы мен мүмкіндігінің функциясын анағұрлым күрделі организмге шығаруға мүмкіндік береді. Мысалы, бидайдың зерттеуге қиын өте үлкен, күрделі геномы бар. 1994 ж. Бастап зерттеу Джон Иннес орталығы Англияда және Жапониядағы Ұлттық Агробиологиялық Зерттеулер Институты күріштің анағұрлым кіші геномының құрылымы мен генінің тәртібі бидайға ұқсас екенін көрсетті.[10] Кейінгі зерттеу барысында көптеген дәнді дақылдардың синтетикалық екендігі анықталды [11] сияқты өсімдіктер күріш немесе шөп Брахиподий бидай өсіру мен зерттеу жұмыстарында қолдануға болатын гендерді немесе қызығушылық тудыратын генетикалық маркерлерді табу үшін модель ретінде пайдалануға болады. Бұл тұрғыда синтезия бидайдың геномның тұрақтылығы мен құнарлылығына қатысатын Ph1 локусы болып табылатын бидайдың өте маңызды аймағын анықтауда өте маңызды болды, ол синтетикалық аймақтардан күріш пен брахиподийдің ақпараттарын қолдана отырып орналасты. Синтезия микробтық геномикада да кеңінен қолданылады. Жылы Rhizobiales және Enterobacteriales, синтетикалық гендер көптеген маңызды жасушалық функцияларды кодтайды және функционалдық қатынастардың жоғары деңгейін білдіреді.[13] Ортақ синтения немесе синтездік үзілістердің үлгілері де ретінде қолданыла алады кейіпкерлер қорытынды жасау филогенетикалық бірнеше түрлер арасындағы қатынастар, тіпті жойылып кеткен ата-баба түрлерінің геномдық ұйымы туралы қорытынды жасау. Кейде арасында сапалы айырмашылық анықталады макросинтения, хромосоманың үлкен бөліктеріндегі синтезді сақтау және микросинтез, бір уақытта бірнеше генге ғана синтезді сақтау. Бақылау сұрақтары: 1.Салыстырмалы геномикаға түсінік? 2.Гомолргиялық іздеу? 3.Салыстырмалы геномика үшін бионформаткалық құралдар? 4.Әртүрлі түрлердің геномдық тізбектерін салыстырыңыз? 5.Салыстырмалы Геномиканың мүмкіндіктері? Практикалық жұмыс №7. Әртүрлі түрлердің геномдық тізбектері салыстыру. 1970 жылдардың ортасынан бастап әртүрлі организмдер гендерінің 100 миллионнан астам нуклеотидтік тізбегі анықталды. Бұл деректер белок реттілігін және реттеуші аймақтарды анықтау үшін пайдаланылады. Бір немесе әртүрлі түрлердегі гендерді салыстыру белок қызметіндегі ұқсастықты немесе түрлер арасындағы қарым-қатынасты көрсете алады (осылайша филогенетикалық ағаштарды құруға болады). Деректер көлемінің ұлғаюымен реттіліктерді қолмен талдау бұрыннан мүмкін емес. Қазіргі уақытта компьютерлік бағдарламалар миллиардтаған негізгі жұптардан тұратын мыңдаған ағзалардың геномдарын іздеу үшін қолданылады. Бағдарламалар әртүрлі түрлердің геномдарындағы ұқсас ДНҚ тізбегіне бірегей сәйкестендіру («туралау») мүмкін; көбінесе мұндай тізбектердің ұқсас қызметтері бар, ал айырмашылықтар жеке нуклеотидтердің алмастырылуы, нуклеотидтердің енгізілуі және олардың «жоғалуы» (делециялар) сияқты шағын мутациялардың нәтижесінде пайда болады. Осы теңестірулердің бірі реттілік процесінің өзі кезінде пайдаланылады. Толық нуклеотидтер тізбегінің орнына, «бөлшектік секвенирлеу» деп аталатын әдіс (мысалы, Генетикалық зерттеулер институты бірінші бактериялық геномды, Haemophilus influenzae тізбегі үшін қолданған) қысқа ДНҚ фрагменттерінің ретін береді (әрқайсысы шамамен). ұзындығы 600-800 нуклеотидтер). Фрагменттердің ұштары қабаттасып, дұрыс реттелгенде толық геномды құрайды. Бұл әдіс секвенирлеу нәтижелерін тез береді, бірақ фрагменттерді жинау үлкен геномдар үшін өте қиын болуы мүмкін. Адам геномының шифрын ашу жобасында құрастыруға бірнеше ай компьютерлік уақыт қажет болды. Қазір бұл әдіс барлық дерлік геномдар үшін қолданылады, ал геномды құрастыру алгоритмдері қазіргі уақытта биоинформатиканың ең өткір мәселелерінің бірі болып табылады. Компьютерлік тізбекті талдауды қолданудың тағы бір мысалы - геномдағы гендер мен реттеуші тізбектерді автоматты түрде іздеу. Геномдағы барлық нуклеотидтер белоктарды ретке келтіру үшін пайдаланылмайды. Мысалы, жоғары сатыдағы организмдердің геномдарында ДНҚ-ның үлкен сегменттері белоктарды айқын кодтамайды, олардың функционалдық рөлі белгісіз. Геномның белокты кодтайтын аймақтарын анықтау алгоритмдерін жасау қазіргі биоинформатиканың маңызды міндеті болып табылады. Биоинформатика геномдық және протеомдық жобаларды байланыстыруға көмектеседі, мысалы, ақуыздарды анықтау үшін ДНҚ секвенирлеуін қолдануға көмектеседі. Геномдарды салыстыру көбінесе анықтау әдісі ретінде қолданылады. Дрозофила геномдарын салыстыруға негізделген алғашқы зерттеулер бұл тәсілдің тиімділігін көрсетті. Масалардың геномдары бірқатар реттеуші мотивтерді анықтауға мүмкіндік берді. Көптеген организмдердің геномдық тізбектерінің пайда болуына ынталандырады.Мысалы, бірізділіктерді туралау және визуалды талдаудың биоинформатикалық әдістерін одан әрі дамытуға жетекшілік етті. Бірқатар зерттеулер сәтті өтті, мысалы, тышқан мен адам геномдарын салыстыру негізінде сүтқоректілердің геномындағы реттеуші элементтерді анықтау. Дегенмен, сүтқоректілер түрлері арасындағы салыстырмалы түрде аз алшақтыққа және бейтарап мутациялардың жинақталуының төмен жылдамдығына байланысты кейбір сақталған элементтер жарамдылығының функционалдық маңызы жоқ. Шынайы сақталған функцияларды ажырату үшін критерийлер ұсынылды • белсенді элементтер жалған элементтерден. Атап айтқанда, 70% нуклеотидке қажеттілік ұзындығы кемінде 100 бит болатын теңестіруде сәйкес келеді. тінтуір мен адам ретін салыстыру кезінде бірқатар реттеуші элементтерді сәтті анықтауға мүмкіндік берді. • Мұндай критерийді тышқандардың толық геномдарын салыстыруға қолдану. Адам 300 000-нан астам сақталған элементтерді (бұл адам геномының шамамен 1% құрайды) кодтамайтын реттілікте орналасқанын анықтады. • төмен транскрипциялық белсенділік.Түраралық теңестіру негізінде кодталмаған сақталған элементтерді анықтаудың бірнеше балама әдістері әзірленді. |