Выравнивание инженерного доверия теория, метод и эксперименты а
Скачать 0.97 Mb.
|
используйте среднеквадратичную ошибку (MSE)6 доверительного выравнивания, а не корреляцию. Преимущество состоит в том, что это значение может дать представление о том, насколько улучшено выравнивание, путем сравнения его с MSE двух «нулевых» методов выравнивания: Модель C использует модуль наблюдения A и модуль доверия B, а модель D использует те же модули наблюдения и доверия, что и агент A, но мы заменили значения оценок доверия в модуле доверия, таким образом, в любой ситуации модель A имеет оценку доверия (агент, 5), например, модель D имеет доверие (агент, 1). Цель этого эксперимента — показать, что чем меньше похожи наши модели доверия, тем больше взаимодействий требуется для согласования. Это кажется простым экспериментом, но в дополнение к проверке меры сложности, которую мы используем, он дает практические знания о том, сколько взаимодействий требуется для изучения выравнивания. Кроме того, это подтверждает гипотезу о том, что полезное согласование между двумя разными моделями доверия может быть изучено с помощью y- подключения, что дает практическую проверку структуры, изложенной в разделе 3. С положительной стороны, эти отрицательные выбросы могут быть обнаружены: корреляция между изученными значениями и фактическими значениями в обучающем наборе является хорошим показателем того, является ли выравнивание хорошим или нет. Просто Как упоминалось в начале раздела 5.1.1, эти свойства Это первое правило для модели А. Оно гласит, что если целевой агент является автором статьи, а наблюдения значимости, оригинальности и удобочитаемости больше 0,7, то оценка доверия имеет значение 5. Обе модели состоят из таких правила, но порядок, в котором наблюдения оцениваются в первую очередь, и конкретные значения различны. 5.2. Эксперимент А — разные модели доверия 5.3.1. Количество взаимодействий Первое, на что следует обратить внимание, это то, что даже при 10 взаимодействиях, которых часто слишком мало для хорошего согласования даже простых моделей доверия (A и C), использование сопоставления по-прежнему работает значительно лучше, чем любой из базовых методов. Однако существует риск, потому что из-за очень небольшого количества образцов есть пара экспериментов, которые дали более высокую ошибку, чем при использовании любого из базовых уровней. В этих случаях алгоритм регрессии научился выполнять переобучение на плохом наборе SRA, что приводило к высокой ошибке на тестовом наборе. Это произошло при 10 взаимодействиях для выравнивания между всеми моделями, даже в самом простом случае, и при 25 для самых сложных настроек, которые мы тестировали (модели A и B). а 6 466 Для множества авторов A и для каждого набора статей, которые они написали, взаимодействия Ia, MSE рассчитывается как: MSE = P ðestimateða; iÞtrustða; iÞÞ2 = P a2A9I a9, где оценкаða; iÞ — предполагаемая оценка доверия целевого автора a, основанная на взаимодействии i с использованием выравнивания и trustða; iÞ — оценка истинного доверия агента a, основанная на i. А. Костер и соавт. / Междунар. Дж. Человеко-компьютерные исследования 70 (2012) 450–473 п а2А i2I Machine Translated by Google Модель E имеет модуль наблюдения модели A, но имеет более сложный модуль доверия. Сначала он проверяет, является ли объект оценки первым автором или другим автором, и оценивает первых авторов более преувеличенными значениями, чем других авторов (другими словами, если статья оценивается плохо, то первый автор получает очень плохую оценку). оценка, тогда как у других авторов оценка ближе к 0). Модель F использует модуль наблюдения модели B, а ее модуль доверия делает то же различие, что и модели E, но вместо того, чтобы различать первого и других авторов, он различает статьи, опубликованные в журналах или на конференциях. Мы проводим тот же эксперимент с этими моделями, и результаты можно найти в таблице 2. игнорируя все результаты с корреляцией на обучающей выборке менее 0,8, мы отбрасываем все отрицательные выбросы. Это похоже на результат, который мы нашли в Koster et al. (2010а). Агент может вычислить эту корреляцию после процесса выравнивания, и если он найдет такое низкое значение, он может заключить, что выравнивание не удалось. Однако даже с такими выбросами выравнивание в среднем работает намного лучше, чем любой базовый метод для всех моделей доверия и любого количества взаимодействий, как показано в таблице 1 . Десять взаимодействий также слишком мало для точного расчета сложности. На самом деле, при небольшом количестве взаимодействий оценка сложности ниже фактической сложности. Однако, если мы вернемся к мере сложности, данной в определении 5.1, мы увидим, что это ожидаемо. Давайте рассмотрим, например, случай, когда у нас есть только один SRA. В этом случае энтропия будет равна 0 независимо от значений доверия, и, следовательно, сложность также будет равна 0. Если у нас есть два SRA, то при полностью случайных оценках доверия существует вероятность 20/121, что два SRA различны, но либо в той же строке, либо в том же столбце, что приводит к сложности 0,07 и вероятности того, что сложность равна 0. Однако, чем больше у нас выборок, тем выше мы можем ожидать, что сложность станет до тех пор, пока она не сойдется на истинная сложность. К счастью, наш метод сходится довольно быстро, и всего за 25 взаимодействий он уже дает довольно точную оценку сложности, что намного меньше взаимодействий, чем требуется для изучения соответствия между большинством моделей. У нас сложность 0.4870.02, однако все еще можно это для проверки выравнивания, поэтому обучение выполняется с 300 взаимодействиями. Мы также видим, что за 50 взаимодействий алгоритм обучается идеальному выравниванию на обучающей выборке, однако есть ситуации, которые просто не возникали. Согласование моделей A и B требует наибольшего количества взаимодействий, но при 200 взаимодействиях MSE падает ниже 1. Мы видим, что алгоритм обучения начинает работать лучше при более чем 50 взаимодействиях, хотя, чтобы всегда находить 100% правильное выравнивание простейших моделей, нам все равно требуется 500 взаимодействий. Обратите внимание, что мы используем 40% К счастью, в тестовом наборе такие ситуации возникают редко, поэтому после 50 взаимодействий выравнивание уже очень функционально и дает гораздо лучшие результаты, чем при использовании любого из базовых методов. 5.3.2. Сложность Обратите внимание, что наша самая сложная задача выравнивания по-прежнему имеет сложность всего 0,1770,02. Чтобы должным образом убедиться, что сложность является хорошей мерой того, сколько взаимодействий потребуется для согласования, мы разработали еще две модели доверия с более высокой сложностью согласования. 81 121 0,7370,29 0,5770,27 0,6070,27 0,7270,18 0,7970,17 0,9670,02 0,9670,01 А–Б 500 Таблица 1 Результаты для различных моделей доверия. 0,6771 0,0670,14 0,0970,13 0,0470,07 0,0170,02 070 070 А–С ОБЪЯВЛЕНИЕ 0,0470,04 0,0570,03 0,0670,03 0,0770,03 0,0670,02 0,0770,02 0,0770,02 А–С Корр. подготовка 2,3770,9 2,7670,85 2,8970,72 2,8770,64 2,6870,46 2,8470,46 2,7570,47 50 А–Б 2,3770,9 2,7670,85 2,8970,72 2,8770,64 2,6870,46 2,8470,46 2,7570,47 200 467 0,8171,08 0,2770,31 0,3270,27 0,2670,2 0,1870,1 0,2370,12 0,1970,11 ОБЪЯВЛЕНИЕ А–С 0,1370,06 0,1570,04 0,1670,03 0,1770,03 0,1770,03 0,1770,02 0,1770,02 А–С Сложность 3,0070,64 3,0770,31 3,0170,34 2,9970,29 3,0370,22 2,9970,21 3,0070,21 25 0,8570,25 0,9870,02 0,9870,02 0,9870,01 0,9870,01 0,9870,01 0,9870,01 А–Б ОБЪЯВЛЕНИЕ А. Костер и соавт. / Междунар. Дж. Человеко-компьютерные исследования 70 (2012) 450–473 1,3871,36 1,5770,83 1,8270,97 1,3470,76 0,9670,74 0,2470,11 0,1970,07 1000 ОБЪЯВЛЕНИЕ 10 25 50 100 200 500 0,8770,34 0,9970,02 0,9970,02 0,9970,01 170 170 170 А–С номер интерс 1,2970,73 1,3270,6 1,3470,4 1,3270,41 1,2370,28 1,2970,28 1,2770,27 10 10 25 50 100 200 500 1000 0,8370,25 0,8870,16 0,8270,17 0,8770,09 0,8870,11 0,9870,01 0,9870,01 А–Б ОБЪЯВЛЕНИЕ 0,9170,21 0,9970,02 170 170 170 170 170 А–Б ОБЪЯВЛЕНИЕ А–Б 0,7670,44 0,9770,03 0,9670,03 0,9670,03 0,9770,01 0,9670,02 0,9770,01 1000 Модели доверия 2,9670,61 3,2370,4 3,2170,38 3,1870,3 3,1270,22 3,1370,2 3,1070,17 ОБЪЯВЛЕНИЕ А–С 070 070 070 070 070 070 070 А–Б А–С Корр. контрольная MSE контрольная MSE нулевая другая MSE нулевая средняя 2,3770,9 2,7670,85 2,8970,72 2,8770,64 2,6870,46 2,8470,46 2,7570,47 100 Machine Translated by Google достаточно хорошо изучите выравнивание (с MSE ниже 1) за 500 взаимодействий. Это не совсем соответствует результатам выравнивания между А и Б, но очень близко. Это замечательно, учитывая другие результаты и потребует будущих испытаний. Возможное объяснение заключается в том, что в разработанном нами сценарии существует «порог» сложности: выше определенного уровня сложности алгоритм обучения должен учитывать всю информацию в LDomain . В этом случае следует ожидать, что количество взаимодействий, необходимых для изучения выравнивания, не будет меняться. Выше этого порога нам нужна достаточно большая выборка взаимодействий, охватывающая все ситуации, независимо от сложности проблемы. Чтобы проверить это должным образом, необходимо провести эксперименты в другом сценарии с другим LDomain, что выходит за рамки этой работы. Мы можем добавить любой из этих типов шума либо в собственные оценки доверия, либо в оценку доверия, сообщенную другим агентом, таким образом имитируя собственные «ошибки» или «ошибки» другого агента. Если мы добавляем шум в оценки доверия другого, мы моделируем ситуацию, когда сообщения другого ненадежны: агент лжет, канал связи ненадежен или любая другая причина для получения зашумленной информации. Если мы добавим шум к собственной оценке доверия, мы смоделируем что-то другое: в этом случае мы смоделируем, что собственная модель доверия неверна. Это может произойти, если наблюдения взаимодействий содержат шум. В этом случае оценки доверия могут быть основаны на неверной информации о взаимодействиях. Вместо того, чтобы добавлять шум на уровне наблюдения, мы аппроксимируем этот эффект, добавляя шум к оценкам доверия. Хотя на первый взгляд кажется, что нет никакой разницы, где добавляется шум, асимметрия SRA означает, что он вполне может иметь разные эффекты. Если случайный шум добавляется к собственной оценке доверия, шум добавляется в целевую переменную алгоритма обучения, а если шум добавляется к оценке доверия другого, шум добавляется в тело правил, и алгоритм обучения может быть в состоянии использовать фоновую информацию, чтобы быть более устойчивым к шуму в теле. Для более умеренного шума добавления или вычитания 1 в оценках доверия мы ожидаем, что эта ситуация будет обратной. Поскольку алгоритм регрессии имеет в качестве целевого предиката собственное значение доверия, он обрабатывает его как числовое значение, и добавление или вычитание 1 будет иметь весьма незначительное влияние. Однако мы ожидаем, что не будет никакой разницы между добавлением умеренного шума или полностью случайного шума к оценке доверия другого, потому что в теле правил значение просто рассматривается как предикат, где 1 отличается от 2 и одинаково отличается. от 5. 5.4. Эксперимент Б — шум 5.5. Полученные результаты Совершенно очевидно, что наше первое утверждение о разнице между добавлением случайного шума к собственной оценке доверия и оценке доверия другого человека верно. Даже добавление 1% уже немного ухудшает результат по сравнению с ситуацией без шума, и это неуклонно ухудшается по мере добавления большего количества шума. При шуме 25% выравнивание работает примерно так же, как и с использованием среднего значения собственных значений доверия, чего и следовало ожидать: шума так много, что невозможно отличить «настоящие» оценки доверия от зашумленных. . Мы добавляем шум в эксперименте с моделями доверия A и B и со 100, 500 и 1000 взаимодействиями для разного процента шума. Результаты этих экспериментов представлены в таблице 3. Когда мы добавляем шум к оценкам доверия других, результаты оказываются намного лучше, чем мы ожидали. Хотя мы ожидали, что алгоритм регрессии будет достаточно устойчивым к шуму в теле, просто используя разные предикаты в своих изученных правилах, мы не ожидали, что он сможет работать при шуме до 25%. Дальнейшее изучение фактически полученных GRA показывает, что наш выбор LDomain также играет здесь роль. По сравнению с ситуацией без шума мы видим, что, хотя GRA больше и длиннее, он полностью заменил предикаты из LTrust на Оценка доверия — это оценка того, насколько агенты заслуживают доверия. Агенты могут быть непоследовательны в своих оценках, ошибаться или даже намеренно лгать в некоторых ситуациях. Этот эксперимент предназначен для того, чтобы увидеть, насколько устойчив метод обучения к таким шумным ситуациям. Есть несколько способов ввести шум в систему; мы можем заменить значение в оценке на случайное значение, или мы можем просто добавить или вычесть 1 к значению оценки доверия, что больше соответствовало бы предположению, что агент может ошибаться, но он не будет ошибаться. ошибаться. Корр. контрольная MSE контрольная MSE нулевая другая MSE нулевая средняя 468 4,7871,98 4,9571,99 5,1271,23 5,1971,21 4,7570,73 5,0170,72 4,9970,7 Корр. подготовка 2,0372,54 2,1972,24 1,9071,19 1,4170,75 1,0370,8 0,3670,15 0,2770,13 Сложность 0,5970,38 0,5770,31 0,6270,23 0,7170,17 0,7670,18 0,9370,02 0,9570,02 0,8670,24 0,9370,07 0,9270,07 0,9370,05 0,9370,06 0,9870,01 0,9870,01 номер интерс 1000 Модели доверия 0,3170,06 0,4070,04 0,4470,04 0,4670,03 0,4770,02 0,4870,02 0,4870,02 Э – Ф Э – Ф Таблица 2. Результаты для более сложных моделей доверия. 10 25 50 100 200 500 Э – Ф Э – Ф Э – Ф Э – Ф Э – Ф А. Костер и соавт. / Междунар. Дж. Человеко-компьютерные исследования 70 (2012) 450–473 71,22 2,6071,56 2,7771,14 2,7671 2,4070,67 2,6370,69 2,4870,67 Machine Translated by Google Эксперимент А демонстрирует функционирование выравнивания и оценивает меру, которую мы предлагаем для оценки сложности проблемы. Из этого эксперимента мы можем сделать два вывода: (Pinyol et al., 2007), хотя в таких случаях другие методы обучения могут работать лучше. Если модели доверия могут точно обмениваться данными, используя числовое значение для своего доверия, и представлять лежащие в основе взаимодействия, используемые в LDomain, то алгоритм регрессии для согласования работает в том смысле, что даже при небольшом числе взаимодействий в сообщении меньше ошибок, чем при обмене данными. лучшее, чего мы можем достичь, если не объединимся. Мера сложности в определении 5.1 — это мера того, сколько взаимодействий необходимо для достижения требуемого качества согласования. Количество взаимодействий, необходимых для данной сложности, также зависит от среды, а именно от выразительности LDomain и языкового уклона в алгоритме обучения. В то время как наши модели доверия использовали дискретные значения для доверия, используемый алгоритм регрессии не требует этого, по этой причине можно использовать любое числовое представление доверия. Кроме того, различные методы представления доверия могут быть преобразованы в числовое значение. Обычно они довольно статичны в среде, и разработчик системы может сделать таблицу поиска доступной для агентов, предоставляя ожидаемое качество согласования на определенном уровне сложности, используя определенное количество взаимодействий. 5.6. Обсуждение Ограничивающим фактором используемого подхода является то, что мы рассматриваем оценку только на основе одного взаимодействия за раз, в то время как большинство исследований моделей доверия сосредоточено на методах агрегирования данных из большого количества взаимодействий. Была проделана работа по изучению агрегированных значений (Uwents and Blockeel, 2008), однако эта работа еще не применима к более сложным методам агрегирования, используемым в современных трастах. предикаты из LDomain почти не влияют на изученное выравнивание. Если LDomain менее богат или если в части LDomain сообщения присутствует шум , надежность может ухудшиться. 1,6670,77 0,4570,17 0,4170,08 2,5570,94 1,2770,29 1,2470,23 3,6070,95 2,3370,48 2,0770,24 5,6771,07 4,6270,53 4,4470,43 1,7270,64,0,27770,53 4,4470,43 1,7270,64,0,27770,53 4,4470,43 1,7270,64,0,27770,53 4,4470,43 1,7270,64,07,07,6270,53, 11 0,1970,06 1,5470,75 0,2570,11 0,270,07 1,6470,72 0,2670,12 0,2270,07 5% Таблица 3 Результаты с шумом. Корр. подготовка 500 0.8270.11 0.9570.02 0.9470.01 0.7470.12 0.8670.04 0.8470.04 0.7070.12 0.7770.05 0.7370.05 0.5270.14 0.5770.06 0.5470.06 0.8470.1 0.9870.01 0.9870.01 0.8270.11 0.9870. 01 0,9870,01 0,8170,13 0,9870,01 0,9870,01 0,8670,09 0,9870,01 0,9870,01 1,3470,76 0,2470,11 0,1970,07 собственное доверие 1% А. Костер и соавт. / Междунар. Дж. Человеко-компьютерные исследования 70 (2012) 450–473 25% 1000 5% 100 500 1000 номер интерс Корр. подготовка Корр. подготовка 100 0.9270.05 0.9670.02 0.9670.01 0.9170.05 0.9570.01 0.9570.01 0.9170.05 0.9470.01 0.9570.01 0.8770.07 0.9170.02 0.9270.01 0.6970.17 0.9670.02 0.9670.01 0.6970.17 0.9670. 01 0,9670,01 0,6670,18 0,9670,01 0,9670,01 0,6570,17 0,9870,01 0,9670,01 Нет шума интерс Умный шум 1000 0.9770.02 0.9870.01 0.9870.01 0.9770.02 0.9770.01 0.9770.01 0.9670.02 0.9670.01 0.9670.01 0.9470.02 0.9470.01 0.9470.01 0.8570.11 0.9870.02 0.9870.01 0.8670.1 0.9870. 01 0,9870,01 0,8570,1 0,9870,01 0,9870,01 0,8670,09 0,9870,01 0,9870,01 25% 100 0.6470.18 0.9270.03 0.9370.02 0.5470.18 0.8070.04 0.8070.04 0.4570.15 0.6770.07 0.6970.05 0.1970.13 0.4470.07 0.4570.05 0.6770.14 0.9670.01 0.9670.01 0.6370.21 0.9670. 02 0,9670,01 0,6470,19 0,9670,02 0,9670,01 0,7070,14 0,9570,02 0,9670,01 Другое доверие 1% Случайный шум 469 0,7270,18 0,9670,02 0,9670,01 500 Корр. контроль управления MSE 10% 0,8770,09 0,9870,01 0,9870,01 Корр. контроль управления MSE 100 1000 100 500 1000 100 500 1000 100 500 1000 100 500 1000 100 500 1000 Шум 500 0,4370,27 0,2470,11 0,2170,07 0,5470,31 0,2970,09 0,3070,08 0,5470,31 0,3270,09 0,3070,08 0,7570,28 0,5470,130770,07 1,4570,69,1,2470,10,170,570,07 1,4570,69,2870,10,10,170,570,07 1,4570,69,2870,10,170,170,07,07, 1 0,2070,07 1,5570,73 0,2370,11 0,1970,07 1,7970,86 0,2570,1 0,2270,07 |