Главная страница
Навигация по странице:

  • Актуальность

  • Решаемая

  • Научная

  • Объектом исследования

  • Методы

  • Михайлова_НИР. Научных знаний


    Скачать 445.42 Kb.
    НазваниеНаучных знаний
    Дата16.05.2021
    Размер445.42 Kb.
    Формат файлаdocx
    Имя файлаМихайлова_НИР.docx
    ТипРеферат
    #205686
    страница2 из 21
    1   2   3   4   5   6   7   8   9   ...   21

    Введение



    До недавнего времени цифровые библиотеки воспринимались обычными пользователями как электронные версии каталогов традиционных библиотек, которые содержат описания физических объектов библиотеки (как правило, книг или других печатных изданий). Определение тематики, содержания и структуры объектов рассматриваются и воспринимались как дополнительные, но необязательные функции таких библиотек. Развитие интернета и семантических технологий вносит свои коррективы и позволяет шире взглянуть на понятие цифровых библиотек и обобщить накопившийся опыт реализации информационных систем в разных областях знаний для формирования нового типа библиотек.

    Само понятие библиотеки в контексте стремительного развития интернета приобретает совершенно другой смысл и обозначает активное вовлечение пользователя в процессы, предлагаемые библиотеками. Такая библиотека предполагает участие пользователей в процессе создания, поиска и классификации того контента библиотеки, который необходим этому конкретному пользователю [140, 141, 159].

    Развитие современных технологий, ко всему прочему, подталкивает к переопределению понятия контентабиблиотеки, в качестве которого не обязательно могут выступать традиционные описания печатных изданий, но и любые другие типы объектов [69, 132, 133]. Например, в качестве контента могут использоваться мультимедийные объекты: видео, звук, фотографии, музейные экспонаты, коллекции минералов, архивные материалы и многое другое. Так, например, электронная библиотека «Научное Наследие России» [69, 133], заявленная как проект по созданию библиотеки полнотекстовых научных трудов известных российских и зарубежных ученых и исследователей, включает в себя также описания музейных экспонатов, расширяя традиционные типы хранимых ресурсов классической библиотеки.

    При этом необходимо четко понимать, что контент цифровых библиотек и физические объекты могут быть связаны различными способами. Это происходит из-за того, что физически объект существует в реальном мире в одном экземпляре, но в цифровой библиотеке используется лишь его описание. При этом описаний может быть несколько, они могут быть различны по структуре и смыслу, и каждое описание, ссылаясь на реальный объект, имеет собственный уникальный идентификатор, который позволяет идентифицировать конкретное описание объекта со ссылкой на него в реальном мире. Фактически цифровой ресурс может определяться как конгломерат разных описаний одного реального ресурса, представляя его общую объединенную модель.

    Говоря в этой работе о библиотеках, имеются в виду информационные системы, которые обеспечивают основную функциональность для работы с библиотечными ресурсами, которые не ограничиваются теперь только библиографическими записями и их электронными представлениями, но также выводят на передний план семантику этих ресурсов в рамках некоторой научной области.

    Вопросами семантической организации знаний занимались различные исследователи с древнейших времен. Эти исследования восходят к древнегреческим и римским философам таким, как Аристотель, Платон, Феофраст и Плиний Старший. Их идеи развивались более поздними авторами такими, как Томас Аквинский, Августин Бегемот, Уильям Оккамский, Андреа Чезальпино, Карл Линней, Рене Декарт, Джон Локк, Иммануил Кант, Джеймс Фредерик, Чарльз Амми Каттер, Мелвил Дьюи и Шияли Раманрита Ранганатан [72, 97, 98, 99, 100]. Несмотря на их разногласия в некоторых вопросах эти философы обеспечили эффективную основу для глубокого понимания организации знаний, что нашло свое отражение в работах по формализации знаний современных исследователей [72, 73, 74, 75, 76].

    Для определения семантики библиотечных ресурсов разработаны различные виды классификации – отраслевые рубрикаторы, которые позволяют более детально определить тематическую направленность ресурсов [61]. Для этого используют различные классификаторы, которые отличаются друг от друга охватом предметных областей и степенью гранулярности при классификации этих областей. Для этих целей может использоваться один из широко распространенных классификаторов, например, таких, как УДК (универсальная десятичная классификация), ББК (библиотечно-библиографическая классификация), ГРНТИ (государственный рубрикатор научно-технической информации). Эти классификаторы охватывают почти все области научного знания и перечень понятий, характерных для этих областей. Обычно эти понятия носят довольно общий характер и не отражают разнообразие направлений в каждой отдельной области научного знания.

    Специализированные по конкретным областям библиотеки используют обычно свои классификаторы для систематизации своих ресурсов. Такой подход обеспечивает более детальный анализ содержания документов и соотношение смысловых понятий содержимого библиотеки с определенным направлением специализированной области знания. К таким классификаторам можно, например, отнести MSC (Mathematics Subject Classification), который используется для классификации разделов математики [128, 129].

    Но зачастую этих средств описания семантики недостаточно, и со временем появляются новые требования к описанию ресурсов библиотек, что приводит как к усложнению самих описаний, так и требует значительных затрат на внедрение новых способов описаний, соответствующих текущим потребностям. Увеличивающийся поток поступающих объектов практически невозможно обработать вручную, поэтому требуются новые методы обработки и анализа поступающих данных.

    Накопленные в библиотеках данные стали доступны широкому кругу пользователей через сеть, удовлетворяя информационные потребности,которых, функциональность цифровых библиотек становится все разнообразней. В решении задач осмысленного представления контента цифровых библиотек ключевую роль стали играть онтологии, позволяя представлять концептуальные модели для описания самого контента этих библиотек, основываясь на ранее разработанных форматах описания, например, таких, как MARC. Такие онтологии получили название библиографическихонтологий, дополняя семантикой эти форматы. Фактически в них фиксируются ключевые понятия объектов, составляющих наполнение библиотеки и связи между ними. Этих понятий достаточно для описания обычной классической цифровой библиотеки для любой предметной области, в которой, как было сказано выше, представлена информация о различных печатных изданиях и, возможно, их электронные версии. Но развитие семантических библиотек и технологий способствует расширению модели, определяющей наполнение библиотеки, и этого становится недостаточно.

    Одновременно с расширением модели библиотечного наполнения возникает необходимость ограничения его в рамках некоторой предметной области. Для этого вводится набор терминов, используемых для описания этой предметной области. Чаще всего эти термины организованы в виде некоторого тезаурусас поддержкой разнообразных связей между ними. В дальнейшем мы будем называть наполнение библиотеки с такой терминологической поддержкой некоторой предметной области контентом семантической цифровой библиотекиили просто контентом.

    В фокусе предлагаемой работы будут предметные области, связанные с наукой и их особенности. Будет сделана попытка выделения общих концепций для их формальных описаний в базе знаний. Особенность этих областей заключается в том, что структура данных подвержена частым изменениям [65, 66, 141, 160]. Будем говорить об обобщенной модели научной предметной области и ее особенностях, реализациях в поисковых системах и отличий от классических подходов к поиску информации в научных массивах данных.

    Актуальность проблемы. Последние десятилетия объем информации лавинообразно увеличивается и это касается и научных областей. Продолжаются попытки построить формальные модели научныхпредметных областей, например математических. Увеличивается количество источников разнообразных данных и форматов, в которых они представлены. Резко возросло время, необходимое для поиска нужной информации и ее обзора. Главной задачей создания описания обобщенного представления научных знаний для некоторой области является помощь экспертам в организации знаний и предоставления доступа к ней [115, 117, 121, 122, 126]. При этом средство организации знаний должно быть достаточно универсальным и не требовать глубоких технических познаний.

    Говоря далее о произвольных предметных областях, мы будем иметь ввиду предметные области, которые относятся к различным отраслям науки, например, такие как математика, микробиология и т.д. Главная особенность таких предметных областей заключается в том, что перечень и структура ресурсов таких областей подвержена частымизменениям.

    Целью будущей диссертационной работы является задача создания такой информационной системы для библиотек, которая могла бы учитывать все разнообразие различных типов ресурсов определенной научной предметной области, которые могут в ней храниться и при этом поддерживать ее терминологическое описание. Одна из основных решаемых задач в контексте системы – это обеспечение возможности интегрирования данных из источников поддерживающих семантическое описание модели данных. Фактически такая система должна представлять собой конструктор для создания цифровой библиотеки любой направленности и с адаптируемой моделью контента хранимых данных. Адаптируемая модель данных позволит описывать произвольную модель данных контента библиотеки в рамках фиксированной в терминах тезауруса предметной области.

    Решаемая научная задача заключается в разработке модели информационных ресурсов и объектов, а также модели терминологического описания в виде тезауруса научных электронных семантических библиотек. Предлагаются методы семантической классификации информационных объектов на основе тезауруса, учитывающие связи между ними, что дает возможность более полно формировать картину научного знания в рассматриваемой области. Предлагаются алгоритмы интеграции данных в пространство научных знаний из различных источников данных.

    Одна из основных целей разрабатываемого решения это интеграция и связывание данных библиотеки с данными из различных источников. Основные задачи, решаемые на этом этапе, устранение проблем, возникающих при объединении данных из разных источников, как на уровне данных, так и на уровне схем данных.

    Научная новизна диссертационной работы заключается в следующем:

    1. Предложены семантические модели информационных ресурсов и объектов, а также модели терминологического описания в виде тезауруса научных электронных библиотек, отличающиеся гибким описанием семантики не только контента, но и терминологии научной предметной области на основе единой онтологической модели, что позволяет управлять, интегрировать и выполнять навигацию между ними.

    2. Разработаны способы семантической классификации информационных объектов на основе тезауруса, учитывающие гибкие (настраиваемые) связи между ними, что дает возможность более полно формировать картину научного знания в рассматриваемой области.

    3. Предложены алгоритмы решения задач семантического описания произвольной научной предметной области на основе высокоуровневых понятий и формирования ее онтологии.

    Объектом исследования являются основные понятия научных предметных областей и их использование в электронных библиотеках.

    Предметом исследования является использование семантических технологий Semantic Web для реализации научной электронной библиотеки в определенной области знания.

    Методы исследования. Для решения поставленных задач в работе использовались методы системного анализа и семантического моделирования, теории графов и множеств, объектно-ориентированного проектирования и программирования, методы обработки научных текстов и методы поддержки терминологического описания научной предметной области.
    1   2   3   4   5   6   7   8   9   ...   21


    написать администратору сайта