[7 семестр] Расписанные вопросы к экзамену. Закономерностей. 4 Понятия информационный объект, информационное взаимодействие
Скачать 0.84 Mb.
|
37. Понятие рабочей характеристики АИПС.Вывод показателя полезной работы АИПС базируется на предположении о том, что качество поиска АИПС тем выше, чем меньшее число документов просматривает пользователь. Пусть пользователю требуются релевантные документы в количестве х. При непосредственном просмотре (весь массив документов) трудозатраты (количество просмотренных документов) в среднем составляют: В то время как при просмотре массива, имеющего точность р, затраты Работа АИПС равна разности данных величин или высвобожденной информационной деятельности потребителя: С учётом других координат и переменных выражение примет вид (замена: , по определению точности) : (1) Пусть прямые параллельны 0р0 и проходят через различные точки прямой 0И. Общее уравнение прямой, проходящей через и имеющей наклон , есть (уравнение прямой ): Подставим в формулу (1), имеем: (=const) Тем самым, на прямых вида величина остаётся постоянной. По мере приближения точки пересечения прямой с 0И к точке И данная константа увеличивается. Она приобретает отрицательное значение, если линия проходит ниже прямой 0р0. Таким образом, удовлетворяет условиям: Или в координатах Установление пределов измерения позволяет нормировать эту величину: Мера полезной работы ИС изменяется от +1 до -1, причём: в точке И ή=+1 (идеальная система, выдающая все релевантные и только релевантные сообщения) в точке Д ή=-1 (система, выдающая все нерелевантные и только нерелевантные сообщения - дизинформирующая) На линии (т.к. здесь ) В треугольнике ; В треугольнике ; 38. Матрицы "термин-документ", "термин-термин" и их свойства.Используем понятие универсального словаря D(прообразом которого может быть, например, тезаурус, рубрикатор), содержащего множество лексических единиц всего потока документов (то есть все слова, числа и прочие обозначения, использованные во всех документах системы). Таким образом, li принадлежит D для всех i, где li— совокупность лексических единиц некоторого документа (сообщения), который является элементом некоторого потока L: L={l1 ,...,li,..., ln}, li L для всех i Аналогично универсальному словарю введем понятие универсального массива L0(ИМЕТЬ В ВИДУ, НО ЛУЧШЕ НЕ ПИСАТЬ: прообразы — поисковый массив ИПС, отраслевой справочно-информационный фонд, массив библиотеки), подмножеством которого являются все документы: L0= {l1 ,...,li,..., ln0}, li L0 для всех i, причем | L0| = n0, где n0,— мощность множества L0. Линейное представление теоретико-множественного образа документа: lk= , где bik= 1-если i-й термин входит в k-й документ;0- если не входит. Универсальный массив в линейном представлении есть матрица размерности Dх n0: Подобные матрицы известны под названием матрицы «термин—документ». Каждый столбец матрицы соответствует документу и описывает множество терминов, содержащихся в нем.Таким образом, столбец матрицы характеризует ПОД. L0= Строка матрицы соответствует отдельному термину и является перечнем документов, содержащих данный термин. Сумма элементов строки представляет собой частотную характеристику термина: Fi=∑bik. Составим матрицу , где .Матрица имеет размерность . Внедиагональный элемент есть количество появлений i-го термина в . Матрицы такого типа называют «матрица термин-термин» и характеризуют взаимосвязь терминов в данном массиве. |