1 Основные исторические вехи в развитии биоинформатики

Название	1 Основные исторические вехи в развитии биоинформатики
Дата	10.01.2019
Размер	1.58 Mb.
Формат файла
Имя файла	BIOINF_KA.docx
Тип	Документы #63058
страница	1 из 7

1 2 3 4 5 6 7

1)Основные исторические вехи в развитии биоинформатики.

Биоинформатика (БИ) как дисц-на возникла с появл. эффект-х методов расшиф-ки последов-й ДНК. Инфа в виде нуклеот-х последов-й и производные от нее типы данных – осн. объект рассм-я БИ. Инфа (сиквенсы, или биотексты) накапл-ся в информац-х банках данных все время в больших кол-вах. Выделение БИ как самост. дисц-ны относят к 1980 г., когда вышел номер журала Nucleic Acid Research, посвящен. компьютерным методам анализа последов-й. Скачок в развитии БИ произошел при переходе от изуч. фрагм-тов генома к целым геномам. Геном чел-ка расшифр-н 26 июня 2006 г. 3 млрд. пар основ-й были прочитаны в теч. более чем 10 лет работы. Темпы развития дисц-ны оч. высоки. Каждые полгода происх-т обновления ее подразделов. Историч. вехи:

1953 – Уотсон и Крик (Watson & Crick) расшифр-ли стр-ру ДНК

1965 - Ниренберг и Philip Leder показали триплетный хар-р генетич-го кода и расшифр-ли кодоны станд-го генетич. кода.

1969-1971 – начало работ по унификации инф-ции о стр-ре белков в виде компьют. базы данных и доступа к ней с др. компьютеров

1977 – Сангер и Maксам Гилберт разраб-ли метод расшифр-ки последоват-тей (секвенирование) ДНК

1977 – Секвенирован 1-ый полный геном: бактериофаг фиX-174

1980 – Образов.БИ как самостоят. дисциплины

1981 – Секвенирован хондриом (мхДНК) человека: 16569 пар оснований

1982 – В Лос-Аламосе(США) был создан GenBank; К концу 1983 более 2000 последовател-ей были сохранены в нем.

1983 - Карого Мюлис разработал ПЦР [награжден Ноб. премией в 1993]

1987- Applied Biosystems создала первый секвинатор,модель ABI 370.

1990 – Запущен международный проект «Геном человека»

1992-GenBank пернесен в NCBI

1993-программа РАИР расшиф-на

1995-расшифрован полный геном бактерии Haemophilus influenrae

1996- расшифрован полный геном S. cerevisiae

2000-новое технич-е секвенир-е MPSS

2006-заявление о полной расшиф-ке генома чел-ка

2. Значение и основные задачи биоинформатики. Основные разделы биоинформатики(БИ). БИ в узком смысле слова, это применении компью-ых методов для решения задач молек-ой биологии, в основном анализа разных последов-тей (аминок-ых, нуклеотидных). БИ включает в себя: базы данных, в кот-х хранится биоинфа; набор инструментов для анализа тех данных, которые лежат в таких базах; правильное применение компь-х методов для правильного решения био-х задач. Предмет БИ включает в себя три компонента:

1. создание баз данных, позвол. осущ-ть хранение круп. наборов биол-х данных и управление ими;

2. разработка алгоритмов и методов статис-го анализа для опред-я отношений между элементами баз данных;

3. испол-е этих ср-тв для анализа и интерпретации биол. данных различного типа – в частности, последов-тей ДНК, РНК и белков, белковых структур, профилей экспрессии генов и биохим-ких путей.

Цели БИ:

1. Орг-ть данные т.о., чтобы исследователи имели доступ к текущей инфо-и, хранящейся в базах данных, и могли вносить в неё новые записи по мере получения новых сведений.

2. Развивать прогр-ые средства и информ-ые ресурсы, кот-е помогают в управлении данными и в их анализе.

3. Применять эти средства для анализа данных и интерпретации полученных резул-ов т. о., чтобы они имели биол. смысл.

Задачи БИ состоят в анализе инф-ии, закод-ой в биол-их последов-ях, в частности:

• обнаруж-ть гены в последоват-ях ДНК различных орга-мов;

• развивать методы изучения структ-ы и (или) функции новых расшифрованных последов-ей и соответс-их структурных областей РНК;

• определять семейства родственных последов-ей и строить модели;

• выравнивать подобные послед-сти и восста-вать филогене-ие деревья с целью выявления эволюц-ых связей.

Основные разделы БИ:

1) Геномика

2) Вычисл. эволюц. биология (молек. филогения). Изучение происх-ия видов и их изменение во време-ни. Это позволяет:• проследить эволюцию орган-ов • сравнивать целые геномы • строить сложные вычисл-ые модели популяций, чтобы предсказать исход системы с течением времени.• отслеживать и обмениваться инфор-ей на все большее число видов и организмов

3) Протеомика – это исслед-ие белков: их структур и функций.

4) Транскриптомика – Транскриптомный явл-ся множество всех молекул РНК, в т.ч. мРНК, рРНК, тРНК и др. не кодир-их РНК, сделанных в 1 или популяции кл-к.
3. Объекты БИ. Пути передачи молек-биол. инф-ции в живой системе. Свойства БИ-данных.

Свойсва БИ-данных * данные дискретные и точные, т.к. состоят из неких элементарных единиц – нуклеотидов или аминокислот. Прочитать геномную послед-сть удается точно (с минимальным уровнем ошибок, кот с кажд годом все уменьш-ся). * огромное кол-во данных о генет-х после-х и Бе, больше, чем иных типов данных, кот. получали биологи (напр.: биометрия; динамика биохимических показателей). Для измерения больших массивов данных ввели особую единицу – HUGE (HUman Genome Equivalent), равную 3 млрд. п.о. База даных макро-молекулярных структур включает ок. 16000 записей, и каждая запись описывает коорди-наты в среднем 400 аминокислотных остатков в 3-хмерной структуре белка. * огромны также экспоненциальные темпы поступления новых данны.

Основной объект БИ – это нуклеотиды. “Биологические тексты” ДНК и РНК сложены четырехбуквенным алфавитом. Длины генетических послед-стей имеряются в п.н (=п.о., =н.п., =bp). Послед-ти в ДНК оч длинные (у МО к примеру 10⁶). Помимо кодировки собственно белков, в ДНК полностью изучены мех-мы репликации и переноса информации с гена на белок. Кроме кодируюших сущ-т и регу-ляторные (управляющие); «молчащие», или участки с неизвестными функциями.

Пути передачи молек-биологич информации в кл-ке: 1) Обычный путь (центральн. догма молекул. биологии): репликация ДНК и путь ДНК→ РНК → белок, 2) специальные пути: репликация РНК; обратная транскрипция РНК→ДНК (у ретровирусов, напр ВИЧ) и перенос с ДНК на белок (было показано in vitro с рібосомамі E.coli, а не с клетками).
4.Компьютерные дисциплины и языки программирования, применяемые в Биоинформатке. Основные модели баз данных.

БИ - совокупность методов и подходов, вкл-х в себя: математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика); разработка алгорит-мов и программ для предсказания пространственной структуры белков (структурная биоинформатика); исследование стратегий, вычислительных методологий, а также общее управление информационной сложности биосистем. В БИ исп-ся м-ды прикладной математики, статистики и информатики.

Базы данных – это компьютерная системы хранения, поиска и выдачи нужной информации. К основным базам данных по биоинформатике относятся крупнейшие хранилища первичных структур ДНК и аминокислотных последовательностей (EMBL(автоматическая база предсказаний последовательностей белков, GenBank (база данных генетических последовательностей), UniProt (Это основное хранилище белковых последовательностей и их функций) , SWISS–PROT (база данных белковых последовательностей).

Реляционная БД – набор элементов данных, организованных в виде набора формально описанных таблиц, из кот-х данные м.б. легко доступны. Реляционная БД создана при помощи реляционной модели. Программное обеспечение, используемое в такой БД наз-ся реляционной системой управления базами данных (СУБД). Реляционная БД явл-ся преобладающим выбором в хранении данных, по сравнению с др. моделями, как иерархической модели БД или сетевой модели.

Иерархическая модель БД - модель данных, в кот. данные организованы в древовидную структуру. Стр-ра позволяет представлять информацию, используя родитель/потомок: каждый родитель может иметь много детей, но у каждого ребенка есть только 1 из родителей.

Сетевая модель явл-ся моделью БД задуман как гибкий способ представления объектов и их отношения. Здесь схема рассматривается как график, в кот-м типы объектов явл-ся узлами и типы отношений явл-ся дугами, не ограничивается будучи иерархии или решетки.
5.Принципы поисковых систем: индексирование (И), запросы, обнаружение знаний в базах данных

Работа с биолог-й инфо в интернете происходит через процедуру поиска. Веб поисковой системы предназ-на для поиска инфо на World Wide Web. Рез-ты поиска предст-ны в линии рез-ов часто называют страницах резул-в поисковой машины (Выдача).

Поиск-е сервера основаны на индексировании содерж-го веб-страниц. Поиск-е сервера непрерывно «просматривают» другие сервера, собирая текстовое содерж-е и создавая гигантские каталоги – индексы. И. новых,недавно размещ-х данных происходит не сразу. Есть определ-е компании, кот-е за деньги ускоряют И. сайта заказчика.

Роботы («ползун») предста-т компьют-ю программу , ко-ая просматривает World Wide Web в методич-й, автомат-ом режиме или в определ-м порядке . Др-е термины для поиск-х роботов муравьи, автомат-ие индексаторы, веб-пауки, веб-роботы.Веб- сканеры испол-ся в основ-м для создания копии всех посещён-х страниц для послед-ей обработки с пом-ю поиск-й сис-мы, чтобы обеспечить быстрый поиск.Сканеры также м.б. испол-н для автомат-ции задач по обслуживанию на веб-сайте , например, проверка ссылок или проверки HTML -кода. Некот-е поиск-е сис-мы также доб-ют данные, доступные в: 1) базах данных 2 ) открытых каталогах.

Интеллек-й анализ данных - поле на пересечении информ-ки и статистики- это процесс, кот-й пытается обнаружить законо-сти в бол-х наборах данных . Он использует методы на пересечении искусств-го интеллекта , маши-го обучения , статистики и систем баз данных. Общая цель процесса интеллек-го анализа данных –извлеч-е инфо из набора дан-х и превращение её в стр-ры, понятные для дальнейшего пользования.

База данных (БД)- организ-й сбор данных в цифровой форме. Данные организованы соответств-им аспектам реальности так, что поддерж-ют процессы, требую-е эту инфо. Сбор данных БД наз-ся системой БД .Пример онлайн БД по находкам биолог-х образцов: The Fungal Records Database of Britain and Ireland (a.k.a. BMSFRD) currently contains 1645520 records of fungi.
6. Виды банков данных и основные выполн-е ими фу-и. Аннотация, курирование и верификация данных в архивных банках данных. Банки данных (БД).

БД – это автоматизир. инфор. система централизованного хранения и коллективного исп-я данных. Банк инф. данных состоит из архива данных и инструмент. стредств доступа к ним. Архив данных – это логически организ. структура данных.

Виды БД:

1. Архивные БД, сод-е первичную биолог-ю инф-ю: – нуклеотидн. послед-ть (с аннотациями), включая БД по однонуклеотидному полиморфизму; – аминокислотных послед. (с аннотациями); – пространств. структуры белков (с аннотациями); – пространств. структуры РНК (с аннотациями); – профили экспресии генов; – функции белков.

2. Производные БД – сод-т инф-ю, собранную в архивах, и данные ее анализа: – мотивы послед-й («подписи» белковых семейств); – мутации и варианты ДНК и аминокисл-х послед-й; – классиф-и и взаимосвязи: например 1) БД семейств белк-х молекул, 2) БД классиф-я способов белк-й укладки; – готовых филогенетических деревьев и исходных матриц данных к ним. Кроме того, имеются библиографические БД, БД интернет-ссылок (перечни ресурсов). Архивные БД. Поиск записи или набора записей в БД происходит через запрос. Напр-р, запрос такого логич-го порядка: расшифрована генетич. последовательность. Является ли она на данный момент уникальной? Инструментальные ср-ва, обеспеч-е доступ к БД, выполняют след-е функции: *ведут поиск; *проводят сравнение; *формируют ответ в удобной форме; *отсылают к другим БД. Чем эффективнее организован доступ, тем лучше «работает» хран-ся в архиве инф-я. И наоборот, если доступ не организован должным образом, архив обесценивается. Осн-е треб-е к архиву для обесп-я работы инструментов доступа – это надлежащая структуризация архива. Созд-е стр-ры очень важно с самого начала формир-я архива, так как при логарифм-м росте объема записей в архиве, переделать структуру будет почти невозможно. Струкура архива должна быть адаптирована под ожид-е запросы пользователей. Типы задач поиска: 1*сравнение строк (для одномерных данных – послед-й); 2*сравнение трехмерных структур, описанных текстуально; 3*предсказ-е стр-ры по послед-ти аминокислот (путем поиска похожих послед-й с расшифрованной структурой); т.е. поиск структур при известной послед-ти аминокислот; 4*поиск послед-й аминокислот при известной стр-ре белка; Задачи 3 и 4 пока являются предметом разработки.

Одна из частных проблем БД – контроль обновления архивов. Практически все онлайновые базы данных закрыты для прямого редакт-я, т.е. добавл-я и изм-я записей непосредственно. Депозитирование новых данных происх-т через передачу их персоналу банка для обработки. Тем не менее, слишком большой наплыв данных трубует все более многочисл-го штата работн-в архива, и может в будущем лишить архивы возможн-ти усваивать новые поступления. Не искл-ся, что пользов-ли смогут добавлять и изменять записи непосредственно, но это будет понижать качество данных. В совр-х архивах, как бы тщаьельно не редакт-сь вновь поступ-е записи, редкаторы не в сост-и проверить достоверность всех инф-х полей. Поэтому в GenBank существовал и существует некий процент сиквенсов, которым нельзя доверять.
7. Интернет: виды гиперссылок. Виды биоинформационных ресурсов в интернете. Позитивная и негативная динамика интернета.

В идеале интернет – это совершенный информац-й город, в котором есть аналоги библиотеки, почты, газеты, магазина, школы.Материалы веб-страниц написаны на языке HTML и чит-ся программами-браузерами. По тому же принципу, что колич-во взаимосвязей между нейронами дает «сто очков вперед» человеч-му мозгу, а не само колич-во нейронов, так и гиперссылки оживляют интернет, придают ему новое кач-во и повыш-т эффективность.«Могущество интернета основано на многочис-х связях между страницами».Виды гиперссылок: 1)внутренние – отсылают к продолж-ю того же документа;2)внешние ссылки:*глубже – к более специализир-м документам, *выше – к более общим вопросам, *в сторону – к похожим документам на ту же тему, *наружу – к директориям дру-х важных документов на родственные темы. Виды биоинформац-х ресурсов: *собственно данные;*on-line программы – запускаемые на удаленном компьютере для обработки ваших данных(например, программа выравнивания последов-й НК). Адреса страниц отображ-ся как URL – uniform resource locator(определ-ль местонахожд-я ресурса). Динамика интернета. Позитив-я динамика - базы дынных и др-е информац-е ресурсы публичного доступа постоянно обогащаются новыми записями. Негатив-я динамика состоит в том, что: *Публичные ресурсы, наряду с достоверной информацией, обогащ-ся и ошибочной информац-й(в GenBank становится больше сиквенсов, источник которых (организм)определен неверно, это контаминирующие сиквенсы). *По мере удаления, перемещ-я и реструктуризации страниц остается большое колич-во неработающих (“мертвых”) ссылок. *Сведения, заложенные в сущ-х БД, могут пересматрив-ся, уточняться, и затем публик-ся на бумажном носителе. Но в БД они часто остаются в своем старом облике, т.к. не каждый автор берется за обновл-е когда-то предоставленных данных. *Адреса ведущих биоинформац-х сайтов меняются, что не позволяет им всегда сохранять свою актуальность в том виде, в котором они были напечатаны в руководствах и учебниках.
8. Основные таксономические базы данных в интернете, их роль в биологии. Типы данных, которые можно извлечь из онлайновых таксономических БД. 1. Вирусы. Сайт International Committee on Taxonomy of Viruses (ICTV). Международный комитет по таксономии вирусов (International Committee on Taxonomy of Viruses) — занимается организацией таксономической классификации вирусов. ICTV была разработана универсальная система таксономии для описания всех существующих вирусов. Разработка ICTVdB поддерживается ICTV с 1991 года, и была изначально предназначена для поддержания таксономических исследований. База данных классифицирует вирусы по химическим характеристикам, типу генома, особенностям репликации нуклеиновой кислоты, заболеваниям, векторам заражения, географическому распределению.

2. Археи и бактерии. List of Prokaryotic names with Standing in Nomenclature
Formerly List of Bacterial names with Standing in Nomenclature (LBSN): LВSN - онлайновая база данных, которая поддерживает и обеспечивает точное название (номенклатура и таксономии) и соответствующую информацию о прокариот в соответствии с Международным кодексом номенклатуры бактерий (бактериологическое код). Бактериальный и архей таксономии обновляются через журнал Международный журнал систематики и эволюционной микробиологии (IJSB / IJSEM). Сайт, в дополнение к отслеживанию текущих таксономических имен, имеет несколько справочных ресурсов.

3. Грибы. 1) The CABI Bioscience Database of Fungal Names. CABI - это международная некоммерческая организация, деятельность которой направлена на улучшение жизни людей во всем мире путем предоставления информации и применения научных знаний для решения проблем в сельском хозяйстве и окружающей среды. 2) MycoBank — проект, целью которого является регистрация и хранение сведений о микологической номенклатуре грибов, а также связанных с нею данных, например, описаний и иллюстраций новых таксонов. При регистрации названия нового таксона эксперты проверяют его соответствие требованиям Международного кодекса ботанической номенклатуры во избежание номенклатурных ошибок, при этом все предоставленные авторами сведения остаются конфиденциальными до момента официального опубликования названия. Онлайновая база данных MycoBank позволяет также получить информацию обо всех ранее опубликованных названиях таксонов грибов рангом от царства до вида и ниже.

3) (Centraalbureau voor Schimmelcultures). CBS - сайт одной из крупнейших коллекций микроорганизмов - Centraalbureau voor Schimmelcultures (CBS) Fungal Biodiversity Centre, Нидерланды, содержит базу данных с описаниями культур грибов и прочих микроорганизмов и рекомендациями по их поддержанию, возможен заказ культур. В разделе "Publications" в открытом доступе находится таксономическая серия "Studies in Mycology" и ряд других публикаций института. Крупнейшая коллекция дрожжей – CBS.

4. Водоросли. 1) AlgaeBase представляет собой базу данных информации о морских водорослей, которые включает в себя наземные, морские и пресноводные организмы. 2) Index Nominum Algarum Bibliographia Phycologica Universalis. INA - крупнейшая онлайн система отчетности документации Университета Калифорнии в Беркли. База данных содержит почти 200000 имен водорослей.

5. Высшие растения. IPNI — Международный указатель научных названий растений. Ресурс создан с целью стандартизации информации, входящей в ботаническую номенклатуру. База содержит названия семенных растений и папоротников, используемые биологической систематикой. Наиболее полно представлены названия таксонов ранга вида и рода. Записи базы данных включают основные библиографические сведения о первичных источниках, использовавших эти названия. Сайт начал свою работу в 1999 году. Доступ к информации, размещённой в базе сайта, предоставляется бесплатно. Ресурс сообщает названия растений, которые встречались в научных публикациях, но не регламентирует их использование в ботанической номенклатуре.

1 2 3 4 5 6 7