Главная страница
Навигация по странице:

  • Как отличить одно от другого

  • Откуда берется необходимость в извлечении знаний

  • Знание и информация. Итак, знания отличают от информации следующие свойства


    Скачать 37 Kb.
    НазваниеИтак, знания отличают от информации следующие свойства
    Дата03.10.2022
    Размер37 Kb.
    Формат файлаdoc
    Имя файлаЗнание и информация.doc
    ТипУчебник
    #711189

    Всякий, кто в своей жизни сдавал экзамены, сталкивался с тем фактом, что информация и знания - разные вещи, и ощущал, насколько мучительным может быть процесс превращения одного в другого.

    Важно отметить, что этот процесс - не механический. Даже в столь простом случае, как подготовка по учебнику, он должен включать не только запоминание, но и понимание.
    Хорошая память может помочь кое-как сдать какую-нибудь общественную дисциплину, поскольку для этого часто достаточно просто воспроизвести усвоенную информацию "близко к тексту", но не слишком помогает сдавать экзамены по точным наукам, где на основе усвоенной информации нужно уметь решать задачи.
    В компьютерной области проблема запоминания в общем решена - запомнить "наизусть" можно любые количества информации, но проблема получения из этой информации знаний остается и часто только усугубляется при росте объема данных.
    Не пытаясь дать формальное определение, перечислим очевидные отличия знаний от информации. Мы рискуем впасть в противоречие с определениями знаний, принятыми в сфере так называемого искусственного интеллекта, однако это не страшно - нас интересуют не умозрительные конструкции, а чисто практические применения.
    Итак, знания отличают от информации следующие свойства.

    Структурированность . Знания должны быть разложены по полочкам - это ясно. Для печатных знаний (книг, журналов, равно как и для компьютерных хранилищ) это означает удобную архитектуру и прозрачность хранилища знаний, т. е. наличие ясных названий и заголовков, удобного представления структуры (оглавлений, рубрикаторов).
    Удобство доступа и усвоения. Для человека - это способность быстро понять и запомнить или, наоборот, вспомнить; для компьютерных знаний - средства доступа, т. е. поиск, краткие аннотации к документам, индексы и проч.
    Лаконичность . Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает "коэффициент полезного содержания". В данный список лаконичность была добавлена из-за всем известной проблемы шума и мусорных документов, характерной именно для компьютерной информации - Internet и электронного документооборота.
    Непротиворечивость . " Хорошие" данные/знания не должны противоречить друг другу, что очевидно или по крайней мере желательно. Однако для многих областей сбора знаний это изначально не так - на вход хранилища знаний может поступать разноречивая информация. Задача собирателя знаний обнаружить противоречия и разрешить их на этапе сбора знаний либо присвоить разным элементам данных различную оценку достоверности.
    Оценка достоверности. Безусловно, усваивая или используя знания, хочется знать, насколько они достоверны. Хорошее хранилище знаний (учебник или база данных) должно иметь такую оценку для своих элементов. Но мы оценку достоверности в этой статье рассматривать не станем, так как будем для простоты считать, что для интересующих нас полнотекстовых задач все тексты - это несомненные факты.
    Процедуры обработки. Знания нужны для того, чтобы их использовать - строить новые знания, решать задачи и проч. Одно из главных применений знаний - возможность передачи знаний другим и способность делать выводы на их основе. Для этого должны существовать процедуры обработки знаний. Способность делать выводы означает для машины наличие процедур обработки и вывода и подготовленность структур данных для такой обработки, т. е. наличие специальных форматов знаний.

    Как отличить одно от другого?
    Граница между информацией (данными) и знаниями нечеткая и зависит от воспринимающего субъекта. Слух или туманный намек может для умного человека стать знанием или источником знаний, а для не любящего думать и ворох информации останется просто информацией, без превращения в знания. Довольно часто можно встретить людей с хорошей памятью, но не имеющих привычки думать. Это показывает, что существует зависимость качества знаний от наличия и мощности процедур обработки.
    Наилучший (вырожденный) пример информации, не превращающейся в знание, - иностранный язык. Наличие информации в иностранном тексте очевидно, однако в знание ее превратить невозможно, если не знать языка, или очень трудоемко, если пользоваться словарем.
    Знакомый многим машинный переводчик - типичный пример автоматизированной процедуры извлечения знаний, дающей их существенный прирост, но при этом все равно крайне несовершенной. Переводчикчеловек - пример более совершенной процедуры извлечения знаний.

    Откуда берется необходимость в извлечении знаний?
    Зачастую текст и на родном языке может быть настолько же трудным для извлечения смысла, как и текст на чужом - например в силу смысловой загруженности, специальных терминов или большого объема.
    Именно рост объемов компьютерной информации создает огромную потребность в извлечении знаний.
    Вот хороший пример. Недавно автор вел переговоры с представителями одного из аналитических отделов российской спецслужбы, ситуация в котором довольно типична для сегодняшнего положения дел. Данный отдел получает в электронном виде до 10 Мбайт текстовой информации в день и должен дать свое заключение по ней. Десять мегабайт - это десять толстых книг, треть БСЭ или три "Войны и мира". А в отделе работает менее десяти аналитиков! Такая же проблема у отделов безопасности банков, аналитических служб частных компаний и проч.: информации слишком много, а обработать ее нужно обязательно в срок, и не дай Бог пропустить действительно критическую информацию.
    Стоимость знаний.
    В разведывательном деле любой кусочек даже тривиальной информации может стоить очень дорого, а в обычной жизни, и особенно в Internet, знания стоят намного дороже, чем просто информация.
    Информации в Internet масса, и почти вся она бесплатна, а вот знаний немного. Показательно, что существует довольно много служб в Internet, продающих структурированные данные - аналитические обзоры, собранную и препарированную прессу и т. п. Эти же данные в разбросанном виде, по частям, практически на 100% доступны в Internet кому угодно - бесплатно. Т. е. деньги берутся этими службами именно за работу по превращению данных в знания.
    Естественно, если знания настолько важны и стоят так дорого, их добычу хотелось бы автоматизировать. И человечество уже продвинулось по этому пути.
    Мы дадим здесь краткий очерк возможностей компьютера по извлечению знаний из текстов. Если в других статьях данного номера речь в основном идет об управлении готовыми корпоративными, "внутренними", знаниями, то мы поговорим о внешних, неструктурированных, данных, преимущественно текстовых, и превращении их в знания.


    написать администратору сайта