Главная страница

Аналитика. 2004_Курносов ЮВ, Конотопов ПЮ_Аналитика_3,9 Mb. Рецензенты


Скачать 3.9 Mb.
НазваниеРецензенты
АнкорАналитика
Дата16.03.2023
Размер3.9 Mb.
Формат файлаpdf
Имя файла2004_Курносов ЮВ, Конотопов ПЮ_Аналитика_3,9 Mb.pdf
ТипДокументы
#995619
страница34 из 62
1   ...   30   31   32   33   34   35   36   37   ...   62
3
ПЕРВИЧНАЯ ОБРАБОТКА ИМЕЮЩИХСЯ ДАННЫХ И
АНАЛИЗ МОДЕЛЬНОЙ ИНФОРМАЦИИ
Некоторым читателям термин «модельная информация» может показаться некорректным, однако на самом деле он несет существенную смысловую нагрузку. При осуществлении любой деятельности, сопряженной с ведением анализа ситуаций и выявлением неких аналогий с историческими прецедентами, аналитик оперирует набором эталонов, апробированных ранее.
Такой эталон уже представляет собой не набор первичных данных, а их обобщение — модель. Именно этот тип информации мы и называем модельной информацией.
Первичная обработка имеющихся данных и анализа модельной
информации является чрезвычайно ответственным этапом работы. Если этот этап не включен в общую схему работы, то может статься, что коллектив аналитиков примет ошибочное решение, которое со всей очевидностью проявится лишь на заключительном этапе работы. Ведь базовая модель
(исходная гипотеза) на поверку может оказаться: устаревшей, не соответствующей решаемым задачам как по условиям (событийному контексту) рассматриваемого феномена, так по уровню детализации (не адаптированной к характеру поступающих данных), фрагментарной, либо вообще — ошибочной. Важность этапа анализа модельной информации
заключается в том, что именно на нем устанавливаются все «белые
пятна» в знаниях субъекта ИАР, выделяются «зоны особого внимания» и
формулируются гипотезы об объеме трудозатрат, стоимости процедур
сбора дополнительных данных, формулируются цели и задачи субъекта
ИАР в рамках решения поставленной задачи. Более того, на этом этапе устанавливаются действительные потребности заказчика/потребителя информационной продукции и оценивается достижимость целей работы.

302
Каждый субъект ИАР на момент возникновения задачи/проблемы уже располагает некоторым массивом данных и моделей их интерпретации. Вопрос состоит в том, насколько имеющиеся знания применимы для решения данной
конкретной задачи, могут ли они быть применены без модификации и каковы направления модификации моделей и пополнения информационных ресурсов.
Как следствие, первичная обработка имеющихся данных и анализ модельной
информации может проводиться по следующему сценарию:
- синтез общей классификации задач, когда-либо решавшихся субъектом
ИАР;
- установление класса новой задачи и выявление задач, сходных с данной;
- анализ опыта решения аналогичных задач и считывание массивов данных и моделей, ассоциированных с ними;
- отбор из полученного массива данных и моделей тех, которые релевантны данной задаче;
- установление отличий данной конкретной задачи от ранее решавшихся;
- установление тех блоков данных и компонентов моделей, которые не могут быть применены для решения данной задачи;
- поиск методов адаптации существующих моделей и установление направлений исследований;
- восстановление сведений об источниках информации, привлекавшихся для получения данных при решении аналогичных задач, формирование гипотезы о направлениях информационно-поисковых мероприятий;
- анализ парка инструментальных средств проведения исследований и их доступности на текущий момент времени;
- анализ потребностей в развитии парка инструментальных средств и оценка финансовых затрат на его пополнение и возможностей повторного использования вновь приобретенных средств, определение стратегии финансирования (приобретение, лизинг, аренда);
- оценка трудоемкости отдельных операций и потенциальных трудозатрат на пополнение информационных ресурсов, необходимых для решения задачи;
- оценка стоимости информационной продукции, приобретаемой у сторонних субъектов ИАР в интересах решения данной задачи;
- установление факта достижимости поставленной цели ИАР/решения задачи;
- подготовка заключения о сроках и стоимости мероприятий по пополнению информационных ресурсов, парка инструментальных средств, методологического обеспечения в интересах решения задачи;
- передача документа, содержащего заключение заказчику.
Основными методами, используемыми на этом этапе, являются
методы классификации, мозговых атак, структурирования массивов
данных, анализа деревьев целей и задач.

303
Ресурсами, привлекаемыми для решения задачи, являются существующие архивы, массивы данных на электронных и иных носителях, принадлежащих субъекту ИАР, а также ресурсы библиотек, ГСТК Интернет и иные.
Продукцией, получаемой по завершении этапа, являются следующие блоки информационных продуктов/документов:
- для субъекта ИАР: оценка трудозатрат, стоимости и направлений исследований, направления пополнения информационных ресурсов и инструментального парка, направления расходования средств и оценка прибыли;
- для потребителя информационной продукции: заключение о возможности решения поставленной перед субъектом ИАО задачи, краткое описание содержания предстоящих работ, смета и технико-экономическое обоснование.
4
ПОИСК, ОТБОР И ЭКСПРЕСС-АНАЛИЗ ДАННЫХ
Задачи поиска, отбора и экспресс-анализа данных являются базисными для любой отрасли ИАР, требуют творчества от сотрудников и имеют, подчас, весьма нетривиальные решения. Причин тут масса — перечислим лишь основные:
- данные могут иметь разнообразные формы представления;
- данные могут быть как обеспечены, так и не обеспечены моделями их интерпретации;
- данные могут быть распределены в массе различных по своей физической природе, временной и пространственной локализации источников;
- источники данных могут быть в различной степени доступны или наблюдаемы.
Вам доводилось видеть по телевизору церемонии открытия олимпийских игр? Допустим, да. Тогда вам приходилось видеть, как по сигналу церемониймейстера на трибунах из отдельных щитов, управляемых сидящими на трибунах людьми, складываются государственные флаги, олимпийская символика и прочие замысловатые узоры.
А теперь представьте себе, что вы сидите на этой трибуне, и все, что вы можете наблюдать — это разноцветные щиты с номерами в ногах у себя и своих ближайших соседей, а вам по системе оповещения сообщают с каким номером щит вам предстоит поднять на счет «три». Так вот, задачи поиска и установления информативности источников сходны с задачей определения того, какой флаг через мгновение увидит телезритель, и того, в какой части трибуны вероятность правильного распознавания была бы выше.

304
Характер
и
состав
множества
источников
информации
определяется возможностями системы сбора информации, которой
располагает конкретный
субъект
ИАР. Чем мощнее комплект инструментальных средств сбора, чем обширнее сеть добывания информации, тем полнее источниковая база ИАР. Для одних задач существует возможность привлечения инструментальных средств контроля, обеспечивающих сбор максимально достоверной информации о состоянии объектов исследований и среды их функционирования, возможность ранжирования источников по достоверности, точности и оперативности. Для других такая возможность отсутствует, а прогностический потенциал данных, получаемых методом непосредственного измерения параметров, не удовлетворяет требованиям, предъявляемых к результатам исследований. Таким образом, мы приходим к выводу о том, что состав источников, действительно, в сильной степени зависит от специфики задач исследования и парка инструментальных средств субъекта ИАР.
Современная аналитика располагает чрезвычайно обширной источниковой базой. В арсенале средств сбора информации присутствуют самые изощренные системы: начиная от спутниковых систем мониторинга атмосферы и земной поверхности, радио и оптико-электронной разведки и заканчивая самим, вооруженным пятью каналами ввода информации, аналитиком.
5
РАБОТА С ИСТОЧНИКАМИ ТЕКСТОВОЙ ИНФОРМАЦИИ
Оставим рассмотрение
«экзотических» случаев: использования спутников- и самолетов- шпионов, добывания экспериментального образца методом подкупа вахтера и иные, столь же далекие от повседневной работы
«чистого» аналитика. Хотя случаи работы с несимвольной информацией встречаются достаточно часто — например, могут проводиться работы по определению химического состава или конструктивных особенностей продукции непосредственно с ее образцами, а не с описаниями таковых.
Сосредоточим свое внимание на классе источников символьных данных, а еще точнее — текстовых данных. Класс текстовых
данных обладает максимальным прогностическим потенциалом
при минимальном интервале наблюдений — в одном кратком предложении может быть выражена информация, достаточная для описания поведения объекта или процесса на сколь угодно отдаленную перспективу. В то же время, точность этого вида данных крайне низка, они подвержены
многим видам искажений. Особенно низка их устойчивость к целенаправленной модификации. Но, сколь бы плохи или хороши они ни были, такие данные часто бывают единственным, что доступно аналитику.

305
Чаще всего, в повседневной деятельности нам приходится сталкиваться с
классом источников информации, имеющих в своей основе языковые
(знаковые или символьные) средства коммуникации: книги, периодические издания различной специализации, телевидение, радио, телефон, персональные коммуникации, ресурсы глобальных, региональных и локальных телекоммуникационных сетей. Данный класс коммуникаций, если исключить
персональные ощущения и специальные технологии, является основным
каналом пополнения личного (персонально пережитого) и социального
(полученного в результате коммуникаций) опыта и знаний. Количество только языковой информации (исключая видеоряд), которое поступает по каналам этого класса источников, в принципе, позволяет сложной системе типа
«человек» адаптивно реагировать на изменение ситуации, вырабатывать цели, стратегии, синтезировать новую информацию и добывать новые знания. Более того, этой информации достаточно для управления и другими людьми, не говоря уж о технических системах, созданных человеком.
Практика показывает, что этот класс источников обладает
колоссальной информационной емкостью, другое дело, что «плотность» информации
(коэффициент информативности данных) существенно варьируется от издания к изданию, от выпуска к выпуску, от программы к программе. Еще сложнее дело обстоит с релевантностью информации (ее свойством соответствовать текущим информационным потребностям субъекта): данных, содержащих релевантную информацию значительно меньше. А если учесть и иные ограничения, все более и более сужающие перечень источников и сообщений, то можно сделать вывод, что относительное количество сообщений, отвечающих потребностям управления некоторой конкретной системой в заданных условиях, крайне мало. К числу таких ограничений относятся: актуальность
(возможность использования информации для управления системой или процессом в их современном состоянии), своевременность (возможность использовать информацию в контуре управления с учетом быстродействия подсистемы доведения управляющих воздействий), точность, достоверность, непротиворечивость и иные. Соответственно при всем обилии информации, которая может быть в
принципе извлечена из всей совокупности источников, доля информации,
представляющей ценность для ИАР, направленной на достижение
некоторой цели, относительно невысока.
Коль скоро мы решили, что в этом подразделе проблемы поиска, отбора и экспресс-анализа информации будут рассматриваться применительно к классу источников, использующих для представления информации языковые средства, то, в первую очередь, нам следует проанализировать состав этого класса и режимы коммуникации (коммуникационные ситуации). В типовой
коммуникационной
ситуации
(при
обмене
информацией
между

306
производителем и потребителем информации в режиме реального времени)
в качестве основных источников текстовой информации может
выступать всего два типа систем: разумные (человек), интеллектуальные
(системы искусственного интеллекта). Перечисленные системы способны самостоятельно генерировать новые тексты и информацию, то есть являются источниками и в узком, и в широком смысле, а также могут выступать в роли первичных источников текстовой информации. При наличии задержки в
канале
коммуникации
речь
идет
о
наличии
промежуточного
материального
носителя
информации,
который
обеспечивает
возможность длительного хранения информации без внесения собственных
искажений. Такие носители информации также могут рассматриваться в
качестве источника информации, хотя сами не способны продуцировать
информацию.
Чаще всего языковые средства коммуникации реализуют неоперативный режим коммуникации с использованием средств символьного представления информации (текстов). Поэтому, когда речь идет о неоперативной языковой коммуникации, в качестве источников принято рассматривать второй класс источников (материальные носители текстов). Если ввести строгие классификационные основания, то к
классу
источников,
обеспечивающих
неоперативные
языковые
коммуникации, следует причислять:
-
источники неоперативной информации (хранилища, архивы и
библиотеки, содержащие текстовые документы):
- на традиционных носителях символьных данных: бумага, фотопленка и т. д. (книги, журналы, реферативные журналы, газеты, рукописи, микропленки и иные);
- на нетрадиционных носителях символьных данных: магнитные ленты и диски, магнитооптические и оптические накопители
ЭВМ, голографические накопители, электронные запоминающие устройства, сети ЭВМ различного уровня интеграции и т. д. (файлы, базы данных, хранилища данных, геоинформационные системы, глобальные, региональные и локальные сети ЭВМ и иные);
-
источники оперативной информации (коммуникационные и связные
системы, реализующие функцию коммуникации посредством передачи
текстовых данных в символьном формате):
- воспроизводимые данные (зарегистрированные на материальных носителях, для которых существует возможность повторного воспроизведения), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.;

307
- невоспроизводимые данные (возможность регистрации которых на материальных носителях и повторного воспроизведения отсутствует по тем или иным причинам), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.
Источники информации, не воспроизводимой с требуемой степенью
точностью, мы исключим из рассмотрения в силу их малой полезности, а также по причине того, что их поиск становится невозможным в силу отсутствия доступа к материальной копии.
Впрочем,
определив
потенциального носителя таких данных или расположение материальной
копии, возможно организовать доступ к материальной копии или
носителю сведений, как, например, в случае захвата вражеского «языка», получения несанкционированного доступа к данным и иных случаях насильственного изъятия информации.
При наличии доступа к материальной копии информации (данным)
всю совокупность доступных данных можно рассматривать в качестве
источниковой базы проведения исследований. В этом случае, решив проблему согласования форматов представления, аналитик получает возможность применения комплекса информационных технологий к полученному массиву текстов. При этом, как мы уже указывали, аналитиком решается задача сжатия или обобщения информации, первыми этапами которой является отбор текстов, релевантных теме исследования, то есть
— формирование специализированного массива текстов, которые имеют отношение к решаемой задаче.
При этом выделяются два класса источников, не рассматривавшихся в предложенной ранее классификации, а именно: класс источников
неструктурированных
текстовых
данных и
класс
источников
структурированных текстовых данных. При этом под текстом можно понимать и числа, как частный случай.
5.1
НЕСТРУКТУРИРОВАННЫЕ ТЕКСТОВЫЕ ДАННЫЕ
Наиболее доступным источниками информации на сегодня можно считать средства массовой информации и издания в диапазоне от художественной литературы и публицистики до специализированных научных изданий. Предположим, что в результате применения некоторого комплекса инструментальных средств вами получен неспециализированный массив текстовой информации на компьютерных носителях, обеспечивающий возможность применения разнообразных технологий обработки и анализа информации с применением программных и аппаратно-программных средств.

308
Также будем считать, что существует возможность оперативного пополнения этого массива за счет ресурсов глобальных, региональных и локальных телекоммуникационных сетей, подключения к ресурсам информационных агентств, а также получения текстов, публикуемых в электронных и обычных средствах массовой информации.
Такими возможностями на сегодня располагает большинство субъектов
ИАР, обладающих возможностью подключения к ГСТК Интернет (Спринтнет,
Гласнет, Релком, локальной вычислительной сети организации) и несложным комплектом технических средств, включающим в свой состав ЭВМ и периферийные устройства типа сканера, среднескоростного модема для аналоговых или цифровых каналов связи. Возможны и иные варианты комплектации, что в данном случае несущественно.
1   ...   30   31   32   33   34   35   36   37   ...   62


написать администратору сайта