Аналитика. 2004_Курносов ЮВ, Конотопов ПЮ_Аналитика_3,9 Mb. Рецензенты
Скачать 3.9 Mb.
|
обладающих метризованным словарем. Здесь, в частности, используются методы нечетких множеств, многозначной и нечеткой логики (работы А. Лукасевича, Л. Заде и их последователей). 315 5.3 ВЗАИМНЫЕ ПРЕОБРАЗОВАНИЯ РАЗЛИЧНЫХ ТИПОВ ДАННЫХ Структурированные текстовые данные занимают промежуточную ступень между численными и естественно-языковыми данными. К этому виду могут быть приведены практически любые числовые данные, при этом речь идет не о преобразовании записи числа из системы цифровой записи в запись с помощью числительных натурального языка, а реальной трансляции числа в термин. Примером такого преобразования может выступать преобразование числовых данных «длина отражаемой или излучаемой объектом волны светового колебания» в текстовые данные типа «цвет объекта» и тому подобные. При этом используются не только значения величин, но и производные первого и второго порядков, результаты интегрирования, вычисления дискретной суммы и тому подобных вычислительных процедур. Инструментом выполнения таких преобразований служат модели трансляции, задачей которых является установление взаимно однозначного соответствия между параметром (группой параметров) и термином на основе объективных критериев. В наглядной интерпретации процесс трансляции данных с частной семантикой (областью определения терминов знаковой системы) к виду данных универсальных знаковых систем может быть представлен так, как это сделано на рисунке, приведенном ниже. 316 Термины (статика) Т, с Имя параметра Т5 Т1 Т2 Т3 Т4 Термины (динамика) П1 П2 Характеристика крутизны 1 1 Д2 Д1 Д3 Д4 Д5 Д8 Д7 Д6 Д1, Д2, ... , Д8 - термины, характеризующие динамику ("быстро" и т.п.) П1, П2 - термины, характеризующие тенденцию ("рост" и т.п.) Т1, Т2 ... - термины, характеризующие состояние Рисунок 4.1 — Графическое представление процесса трансляции. Графическая интерпретация процесса трансляции иллюстрирует частный случай применения модели трансляции для преобразования данных, отображающих процесс, характеризующийся одним параметром, в совокупность терминов четырех классов: имена (имя процесса, имя параметра, имя состояния, предикат и характеристика предиката). С помощью подобной модели трансляции могут быть получена следующая совокупность высказываний: «Процесс (имя) пребывает в состоянии (Т1). Значение параметра (имя параметра) (характеристика крутизны Д1, наречие) (предикат П1, глагол)». Усложнение подобной модели трансляции может позволить формировать и более сложные высказывания, но это потребует усложнения тезауруса. Однако уже в таком виде при использовании системы координат параметр/время высказывания будут содержать существительные, наречия и глаголы. Введение в модель трансляции иерархического тезауруса, позволяет использовать шкалу уровня абстракции, с помощью которой потребитель сообщений сможет управлять степенью детализации информации. Например, нормализованный иерархический тезаурус, состоящий из трех уровней, позволяет описывать некоторое состояние параметра (имя параметра) в 317 терминах, определенных на трех уровнях иерархии. Термин «нормализованный» в применении к этому тезаурусу указывает на то, что между термином и состоянием может быть установлено взаимно однозначное соответствие, то есть, ни в одном высшем уровне абстракции не существует такого термина, границы области определения которого не совпадают с одной из границ области определения терминов низшего уровня. В языках естественного общения такое требование в большинстве случаев не выполняется (до тех пор, пока для решения задач практической деятельности такой термин не будет введен и не заместит общеупотребительный термин). Модели трансляции в принципе могут быть построены для любой предметной области, для которой в языке естественного общения существует разработанная терминология, которая может быть спроецирована на пространство формальных признаков (модель фрагмента реальности). К числу предметных областей поддающихся трансляции в терминологическую систему относится, в том числе, и пространственная семантика. В частности, этот принцип используется в географии при именовании объектов, размещение которых может быть отображено на некоторой модели. Большим преимуществом структурированных текстовых данных перед неструктурированными тестовыми данными является возможность их перевода к графическому представлению, которое, как известно, способно стимулировать мыслительную деятельность, а также позволяет в сжатом виде выразить большое количество информации. То есть, модели трансляции могут использоваться и для обратного преобразования, однако точность такого преобразования довольно низка и определяется количеством терминов, включенных в состав модели трансляции. При этом существует проблема совместимости тезауруса источника и модели трансляции. Благодаря своим уникальным свойствам модели трансляции являются весьма полезным инструментом при работе как с текстами различной тематики, так и при работе с источниками числовых и структурированных данных. 5.4 АНАЛИЗ ИНФОРМАТИВНОСТИ ИСТОЧНИКОВ При рассмотрении технологии поиска, отбора и экспресс-анализа мы не касались проблемы анализа информативности источников. Между тем, задачи анализа информативности источников чрезвычайно важны, поскольку напрямую связаны с вопросами эффективности ИАР. Наиболее распространенным подходом к анализу информативности источника является подход, основанный на определении отношения числа сообщений, релевантных проблеме исследования, к общему числу сообщений, однако такой подход не всегда приемлем. Например, если некий источник функционирует в соответствии с известным графиком и в установленное время предоставляет релевантные данные, его информативность в соответствии с 318 описанным подходом может оказаться крайне низкой. Но если учесть возможность отслеживания данных только на заданном интервале времени, то при разумной организации работ информативность окажется намного выше, нежели у многих других источников, передающих релевантные данные в непредсказуемый момент времени. Другой аспект проблемы оценивания информативности связан с характером данных и категорией потребителя (в том числе, его ценностной ориентацией и финансовыми возможностями). Допустим, что, действуя по поручению некого штаба предвыборной кампании, ваша организация решает задачу определения предвыборной тактики гипотетического соперника заказчика, пытающегося «оседлать» малоимущие слои населения. Если в интересах решения задачи вы без разбора закупаете все множество местных газет, то наиболее вероятно, что большую часть денег вы тратите понапрасну. Ведь соперник вашего кандидата тоже ограничен в средствах, и постарается оптимизировать затраты, а значит, он не станет размещать свою предвыборную агитацию в дорогих изданиях (на них придется минимум средств из его бюджета), а будет ориентироваться на дешевые, но содержательные, либо на бесплатно распространяемые газеты, публикующие программу телепередач. Информативность таких газет в целом (в пересчете на количество статей) может оказаться невысокой, но релевантные данные будут встречаться регулярно (из номера в номер). Можно привести похожий пример, но из сферы бизнеса: едва ли имеет смысл скупать всю региональную прессу для получения суточной сводки биржевых котировок — для того есть специальные колонки в солидных газетах (а тем более — в ГСТК Интернет и «за бесплатно»). И наоборот... Всем известно, что реклама — двигатель прогресса, что стоит она недешево, и что существуют определенные требования к числу показов рекламы для того, чтобы объект рекламы отпечатался в памяти потребителя. Пусть перед вами стоит задача установления системы целей и коэффициентов их важности для некого рекламодателя... Вот здесь вам, действительно, стоит изучить весь массив региональной прессы, дабы установить рекламную политику объекта: состав привлекаемых СМИ, стоимость размещения рекламного блока, слои населения, потребляющего продукцию данного СМИ. Возможно, вам придется сымитировать попытку размещения рекламы в СМИ и изучить предлагаемую их рекламным отделом тактику проведения рекламной кампании... то есть, бизнес-разведка в чистом виде. А на выходе — сведения о бюджете рекламной кампании, оценка приоритетов конкурента и иные полезные сведения. Таким образом, любая организация, работающая в сфере ИАО и борющаяся за повышение качества своей информационной продукции, помимо прочих работ должна осуществлять: 319 - непрерывные поисковые мероприятия в интересах определения круга источников информации по своей специфике; - проводить активный поиск и отслеживать периодически обновляемые информационные ресурсы телекоммуникационных сетей; - располагать классификацией аудитории и вести работы по установлению типа аудитории того или иного средства массовой информации. По существу, на момент получения очередной задачи субъект ИАР должен располагать готовой гипотезой о составе и характере источников, потенциально представляющих интерес для проведения исследований в своей «зоне ответственности». Для освоения новой области исследований полезны различные методы активизации мыслительной деятельности от «метода кроссворда» до мозговых штурмов и исследований технического плана. Но не все так просто: существует ряд проблем, связанных с процессом оценки информативности, да и с процессом анализа и интерпретации текстовых данных в целом. Как это ни странно, но при решении этих проблем компьютерные системы способны оказать чуть ли не большую пользу, чем эксперт-аналитик. В том числе, речь идет и о проблемах эмоциональной аттестации текстов и выявлении скрытых противоречий и недомолвок во внешне нейтральных и непротиворечивых текстах, а также о проблеме поддержания целостности и стабильности модели мира аналитика. 5.5 ПРОБЛЕМА АКТИВНОЙ ФИЛЬТРАЦИИ СООБЩЕНИЙ Одним из наиболее распространенных путей добывания информации в сфере средств массовой информации является использование каналов межличностных коммуникаций (хотя, «метод потолка и пальца» в СМИ еще никто не отменял). Система межличностных связей бывает крайне сложной, и на пути к потребителю информация проходит через сложную цепочку связей, выполняющую роль активного фильтра. Работа с сообщениями вторичных источников имеет свою специфику, заключающуюся в том, что относительная простота получения доступа к ним сочетается с крайней сложностью интерпретации данных, получаемых от них. Характерной особенностью современной информационной обстановки является экспоненциальный рост числа вторичных источников информации по отношению к первичным. В создавшихся условиях аналитические службы уже не могут пренебрегать такой важной характеристикой канала распространения информации, как ценностная ориентация вторичного источника или их совокупности. Это приводит к тому, что все больший вес приобретает задача оценивания и «аттестации» источников. Важность этой задачи легко проиллюстрировать с помощью представленного на рисунке примера 320 отображения исходного сообщения первичного источника А0 в сообщения А1 и А2 вторичных. В предложенном примере исходное сообщение А0, изначально представленное множеством информационных составляющих а0, а1, .., а7, проходя по цепочке информационного взаимодействия, теряет часть составляющих, трансформируясь в А1 и А2. В данном случае эти потери вызваны различиями в ценностной ориентации индивидов В и С, а множества В и С отражают характеристики их фильтров ценностной ориентации. A0 = {a0,a1,a2,a3,a4,a5,a6,a7} A2 = {0 ,0 ,a2,a3,0 ,0 ,a6,0 } C = {1 ,1 ,1 ,1 ,0 ,0 ,1 ,0 } B = {0 ,0 ,1 ,1 ,1 ,0 ,1 ,0 } A1 = {0 ,0 ,a2,a3,a4,0 ,a6,0 } Ценн. ориент. индивида В Ценн. ориент. индивида С Исходное сообщение А Вторичное сообщение А&В Вторичное сообщение A&В&C = = & & Рисунок 4.2 — Случай пассивной фильтрации сообщения. Рассматриваемый здесь случай демонстрирует двоичный вариант пассивной мультипликативной фильтрации сообщения. При этом коэффициенты фильтра принимают значения 0 или 1, исключая или пропуская без изменений ту или иную составляющую исходного сообщения. На практике такой случай встречается довольно часто и может условно именоваться «случай умалчивания». Однако такая блокировка части сообщения не всегда убедительно выглядит для потребителя сообщения — на практике значения элементов упорядоченного множества коэффициентов передачи (назовем их условно множителями), составляющего характеристику ценностной ориентации могут колебаться в диапазоне действительных чисел (данное утверждение условно, так как зависит от формальных договоренностей). Реальная возможность оценивания характеристики совокупной ценностной ориентации всей передающей цепочки, как правило, отсутствует. В редких случаях, используя провокационную стратегию (тестирование) можно определить реакцию компонентов цепочки на отдельные входные сообщения, однако действие социальных и психологических факторов при общении способно обесценить результат такой работы. Психологические установки собеседников, различия в их социальном статусе, целевой и ценностной ориентации нередко служат причиной того, что 321 в процессе общения собеседники, образуя своебразную систему, оказывают друг на друга взаимное влияние, что также приводит к искажению сообщения. Варианты искажений в таких мини-системах могут быть резко полярными — от сокрытия до многократного преувеличения или инверсии отдельных смысловых составляющих сообщения. Особенно часто этот феномен наблюдается при попытках сглаживания конфликтных ситуаций. Особый интерес представляют результаты анализа искажений при наличии нескольких версий сообщения, поступивших из различных источников, поскольку они позволяют сформировать представление о ценностной ориентации вторичных источников и осуществить их категорирование по признаку сонаправленности векторов их целей с целями некоторых политических, финансовых и иных группировок. Вопрос мотивации вторичного источника в данном случае не рассматривается, поскольку применительно к индивидууму, мотивация тех или иных его поступков может быть крайне разнообразна, а для объединений и группировок, как правило, легко выводится из основной целевой функции и совокупной ценностной ориентации. Казалось бы, все эти характеристики можно выявить лишь в результате кропотливой работы по анализу смыслового содержания сообщений. Да, это так, но... некоторые данные, косвенно характеризующие сообщение и его источник, могут быть получены и на этапе формального и экспресс-анализа сообщений, причем, даже без погружения на семантический уровень. Зачастую даже анализ поверхностных грамматических структур способен дать очень много полезной информации. Мы уже писали, что организация, активно работающая в сфере ИАО, в интересах создания корпоративного ресурса данных, релевантных основной тематике исследований вынуждены разрабатывать и эксплуатировать собственные базы и хранилища данных, а также специализированный инструментарий ИАР. Соответственно, если строить работу по уму, сообщения должны подвергаться каталогизации, аннотированию и атрибуции (указанию атрибутов сообщения). Состав атрибутов сообщения может варьироваться в зависимости от характера решаемых задач. С этой точки зрения целесообразно рассмотреть перечень потенциально представляющих интерес аспектов сеансов информационного взаимодействия при получении сообщений и их фрагментов по различным каналам информационных взаимодействий. Но, прежде, чем перейти к рассмотрению задачи атрибуции сообщений, следует определиться с тем, что представляет собой аналитический режим потребления сообщений. Только после этого можно говорить о том, насколько полезны для работы аналитика те или иные атрибуты сообщения. 322 6 АНАЛИТИЧЕСКИЙ РЕЖИМ ПОТРЕБЛЕНИЯ ИНФОРМАЦИИ Рассматривая технологии поиска, отбора и экспресс-анализа данных, мы вскользь упомянули о том, что аналитик подвержен действию множества помех, сказывающихся на качестве проводимой им работы. Это действительно так: аналитик, помимо его воли, может быть переведен в режим, не приспособленный для рациональной оценки ситуации. Аналитический режим потребления информации — это особый режим мыслительной деятельности человека, отнюдь не всегда реализуемый им. Более того, аналитический режим потребления информации — это режим требующий от человека значительных мыслительных усилий и сопровождающийся стрессовыми нагрузками. Мыслительная деятельность вообще нелегко дается человеку — достаточно вспомнить экзаменационную пору, когда есть хочется, как волку, голова гудит, как колокол, а добродушная шутка однокашника может стать причиной серьезной ссоры. Дело в том, что эмоции и логика — две грани, два метода познания мира. Эмоции можно отнести к восприятию системы как целого, а логику — к восприятию системы как совокупности элементов. Как следствие, логикой нам удается смирить эмоции, а неконтролируемые эмоции нередко «захлестывают» логику. Именно на этапе осмысления полученного блока информации для аналитика (человека познающего) эмоции могут выступать в качестве препятствия на пути к правильной интерпретации полученных данных. Когда же мы нечто сообщаем сторонним слушателям, то, как правило, выдаем уже результат размышлений и переживаний, и поэтому легко смешиваем логику и эмоции в тех пропорциях, которые сочтем нужными для достижения желаемого эффекта. В случае, когда человек не имеет времени на логическое осмысление непосредственно наблюдаемой ситуации или поступившей информации, он приблизительно в 50 % случаев выступает в роли ретранслятора эмоций (собственных ли, чужих ли — безразлично, если обратиться к Социальным Технологиям, то причина становится понятна). Такой эффект часто можно наблюдать в прямых репортажах корреспондентов, передающих не содержание ситуации, а эмоциональную атмосферу, однако в СМИ так реагируют не только в силу специфики устройства психики, но и в силу профессиональной традиции. Действительно, что еще остается делать, когда точные причины и логика событий неизвестны, а единственно достоверные сведения либо слишком общи, либо слишком кратки? Более того, эмоции более мобильны и не требуют от субъекта серьезной мыслительной работы. 323 Взять, к примеру, события 11 сентября 2001 года: более суток большинство каналов телевидения и средств массовой информации посвящали этим событиям максимум экранного времени и основные ресурсы материальных носителей информации (газетные полосы, дисковые накопители и каналы ГСТК Интернет и т. п.), однако информации для установления населением реальной ситуации было недостаточно. В течение первых суток большинство граждан получило лишь достоверные и непротиворечивые сведения о самом факте состоявшегося террористического акта. За одни сутки население США и других стран было дезориентировано, сформировалась специфическая эмоциональная атмосфера — спустя неделю в Великобритании были отмечены неединичные случаи психических расстройств, вызванных просмотром трансляции с места событий (английские психиатры назвали это «манхеттенским синдромом»). Обилие сырых, построенных на недостоверной информации версий играло на руку террористам, на сцену выступили представители «оккультных наук», намеренно или ненамеренно дискредитировавшие своими заявлениями работу спецслужб. На этом фоне заявления руководителей спецслужб, осуществлявших систематический и целенаправленный сбор и анализ информации, вне зависимости от степени их достоверности воспринимались с подозрением. Мотивы недоверия были очевидны и скрывались на уровне обыденного сознания, сформированного в ходе просмотра различных горячих новостей, журналистских расследований, сериалов и боевиков: а) не может представитель спецслужбы, запятнавшей свое имя участием во множестве «грязных» дел, говорить правду; б) если так долго распутывается «простейшее» уголовное преступление, то столь масштабное преступление не может быть раскрыто в краткие сроки; в) США находятся в узле мировых противоречий и у них слишком много недоброжелателей; г) спецслужбы давно вышли из под контроля правительства, коррумпированы и недееспособны. К чему это отступление? Поясним: |