анализ и оптимизация сетевого трафика. АНАЛИЗ И ОПТИМИЗАЦИЯ СЕТЕВОГО ТРАФИКА. Удк 004. 9 Ж. Б. Ибраева 1, А. А. Каттабек2, Д. Н. Айтжанов
Скачать 2.56 Mb.
|
УДК 004.9 Ж.Б.Ибраева 1, А.А.Каттабек2, Д.Н.Айтжанов 3 Международный университет информационных технологий, г. Алматы, Казахстан Международный университет информационных технологий, г. Алматы, Казахстан Международный университет информационных технологий, г. Алматы, Казахстан zh.ibraeva@iitu.edu.kz, 28088@edu.iitu.kz, 28036@edu.iitu.kz АНАЛИЗ И ОПТИМИЗАЦИЯ СЕТЕВОГО ТРАФИКА На сегодняшний день замечен значительный рост сетевых потоков данных, наблюдаемый во многих областях связи. В связи с этим, возникает острая необходимость в увеличении и оптимизации потока сетевого трафика. Недостатком реального сетевого трафика интенсивности пакетов является иррегулярная скорость прибытия пакетов на обслуживаемые сетевые устройства. Актуальность задач управления сетью растёт с каждым днём. Данная работа позволяет получить содержательные ответы на интересующие исследователя вопросы. Применение определенного рода тестов (критериев) при исследовании сетевого трафика является актуальной потому, что они позволяют выявить их преимущества и недостатки. C увеличением разновидности сетевых приложений, новых протоколов передачи данных в характере проявления трафика стали проявляться свойства и особенности, которые связаны с его неизменностью. В этой статье рассматривается временной ряд с реальными данными, снятые на магистрали города Алматы. Для исследования временного ряда на неизменность применены данные QQ plot, Variance Ratio test for Random Walk в среде численно-математического моделирования Matlab. Получены оценки исследования ряда по распределениям Пирсона и Пуассона. Так же, определены числовые характеристики формы распределений: асимметрия и эксцесс (куртозис). В статье предложено исследование временного ряда на неизменность с помощью утилиты Matlab. Ключевые слова: временной ряд, экспертная группа по движущимся изображениям, сетевой трафик, анализ данных, критерии проверки стационарности, закон нормального распределения. Введение Функционирующая на данный момент сеть сочетает в себе как проводные, так и беспроводные технологии. Эволюция технологий и методов построения сетей связи, изменение картировочного состава абонентов и спектра предоставляемых услуг приводит к увеличению иррегулярной интенсивности трафика. На данный момент поведение сетевого трафика описывается теорией «детерминированного хаоса». Исходя из этого, реальный трафик современной сети, имеет сложную структуру, не равномерную интенсивность поступления пакетов на обслуживающие сетевые устройства. Многочисленные исследования реально измеренных данных подтверждают, что они являются, и их структура многокомпонентная. На сегодня существует более тысяче статистических тестов или критериев, которые используют для определения отношения исследуемого процесса к тому или иному классу. В течение долгого времени считалось, что поведение пакетов в сети адекватно описывается экспоненциальными распределениями, таким как Пуассоновским (интервал времени между пакетами, длина пачки пакетов и др.) [1]. Такое допущение является верным для сетей небольшого размера и позволяло использовать классические методы теории массового обслуживания. Однако с увеличением размера сетей и появлением новых протоколов передачи данных появились характеристики в трафике, указывающие на портативность. Поэтому, вопросы анализа и моделирования нестационарных временных рядов является актуальной задачей исследования во всех сферах жизнедеятельности. Пакеты протокола MPEG MPEG это группа специалистов, образованная организацией ISO, занимающийся выработкой стандартов сжатия и передачи цифровой видеоинформации и аудиоинформации. Стандарты были разработаны для удовлетворения потребностей в методах кодирования движущихся изображений и звука, а также других сопутствующих данных для различных приложений, такие как хранение цифровой информации, телевещание и связь. Использование этих стандартов для кодирования видеоинформации означает, что движущиеся изображения можно обрабатывать как компьютерные данные и хранить их в различных устройствах, передавать и получать по существующим и будущим сетям и каналам вещания. При создании стандартов были учтены требования различных типовых приложений, развиты и собраны в единой синтаксис необходимые алгоритмические элементы. Таким образом, эти стандарты призваны облегчить обмен битовыми потоками между различными приложениями. Они поддерживают постоянную и переменную скорости передачи, произвольный доступ, переключение каналов, масштабируемое декодирование, редактирование битового потока, а также такие специальные функции, как быстрое воспроизведение, быстрое обратное воспроизведение, обратное воспроизведение с нормальной скоростью, медленное движение, пауза и неподвижные изображения. Группа MPEG стандартизовала следующие стандарты сжатия и вспомогательные стандарты: MPEG-1, MPEG-2, MPEG-3, MPEG-4, MPEG-4 Part 2 и MPEG Part 10. MPEG-1 является исходным стандартом сжатия видео- и аудиоинформации. Позже был использован как стандарт для Video CD; включающий в себя формат второго уровня для сжатия аудио. MPEG-2 стандарт используется для транспортных, видео- и аудиостандартов для широковещательного телевидения. Используется в таких цифровых телевидениях как ATSC, DVB и ISDB, цифровых спутниковых ТВ-службах, к которым относится Dish Network, цифровом кабельном телевидении и в DVD. MPEG-3 стандарт изначально разрабатывался для HDTV, но был отвергнут, когда обнаружилось, что для HDTV вполне достаточно использовать стандарт MPEG-2 (с расширениями). MPEG-4 стандарт сжатия расширяет MPEG-1 необходимая для поддержки «объектов» видео/аудио, 3D-контента, сжатия данных с более низким битрейтом и DRM. Данный стандарт имеет несколько новых высокоэффективных видеостандартов (альтернатив MPEG-2), такие как MPEG-4 Part 2 и MPEG-4 Part 10. В основном MPEG-4 Part 10 используется в дисках HD DVD и Blu-ray. Статистический критерий Статистический критерий называется математическое правило, по которому принимается или отвергается статистическая гипотеза с известным уровнем значимости. Построение критерия представляет собой выбор подходящей функции от результатов наблюдений, необходимая для выявления меры расхождения между эмпирическими значениями и гипотетическими. Статистические критерии делятся на следующие виды: Критерии значимости является правилом проверки гипотез, которые основываются на свойствах эмпирической функции распределения выборки при одной и другой гипотезе. К данным видам критерии входят: критерий кси-квадрат, критерий Стьюдента и т.д. Критерии согласия это статистическое правило которое подразумевает проверку предположения о том, что исследуемая случайная величина подчиняется по предполагаемому закону. Критерии согласия также имеет ввиду критерий значимости. К видам критерии согласий являются: Критерий Пирсона Критерий Колмогорова Критерий Андерсона — Дарлинга Критерий Крамера — Мизеса — Смирнова Критерий согласия Купера Z-тест Тест Харке — Бера Критерий Шапиро — Уилка. При критерии проверки на однородность, проверка на однородность случайных величин, исследуются на факт значимости различия их законов распределения. Данный критерий используется в факторном анализе для нахождения наличия зависимостей. Параметрические критерии – группа статистических критериев, необходимое для анализа данных, которые образует нормальное распределение. Следуя из названия, данный вид критерия основывается на оценке параметров, такие как дисперсия, СКО, среднее арифметическое значение и эксцесса. К параметрическим критериям относятся: t-критерий Стьюдента Критерий Фишера Критерий отношения правдоподобия Критерий Романовского. Непараметрические критерии – группа статистических критериев, которые не основываются для оценки параметров таких как дисперсия и математическое ожидание. Непараматерические тесты используется для обработки данных, в котором мало что или вообще ничего неизвестно. К ним относятся: Q-критерий Розенбаума U-критерий Манна — Уитни Критерий Уилкоксона Критерий Пирсона Критерий Колмогорова — Смирнова. Чтобы приступить к выбору статистического критерия, необходимо знать от чего зависит применение различных видов статистических методов. В случае нормального закона распределения это – средняя арифметическая величина и дисперсия. В случае распределения, отличающийся от нормального, используются такие параметры как медиана и интерквантильный интервал, необходимые для описания большого числа данных. Для выбора статистического критерия исследователь должен определиться, какие именно задачи будут решаться, и какие статистические тесты для этого будут подбираться. При выборе статистического критерия для сравнения количественных данных нужно учитывать свойства распределения, т.е. является ли оно нормальным или относится к ненормальному закону распределения. При нормальном виде распределения, как и при описании вариационного ряда, необходимо использовать параметры нормального закона распределения, отсюда и происходит название этой группы методов: параметрические методы. В другом случае отличного от нормального вида распределения необходимо использовать непараметрические методы. Методы и материалы В данной работе был проведен анализ измеренного одномерного ряда, а именно интенсивность пакетов протокола MPEG. В результате анализа одномерный ряд показывает совокупность пакетов за каждой промежуток времени (в секундах). Согласно рисунку 1, количество точек равна 18000. График иллюстрирует интенсивность прохождения пакета за определенный промежуток времени, где по вертикали отображены количество пакетов, поступивших за 5 часов, а по горизонтали - время (в секундах). Рисунок 1 - Временной ряд Как видно, из графика полученные данные временного ряда иллюстрирует неравномерность интенсивности, разброс уровня данных и другие характеристики. Для того чтобы спрогнозировать исследуемый сетевой трафик необходимо проверить его, используя параметрические тесты, который включает себя нормальный закон распределения проверяя его с помощью QQ plot теста. Использования QQ plot теста необходимо для сравнения идеального нормального распределения с исследуемым распределением данных временного ряда на рисунке 2. Рисунок 2 - Проверка нормальности распределения данных с помощью QQplot теста Согласно результату, из рисунка 2 можно заметить, что распределение временного ряда не соответствует нормальному закону распределения. Это связано с тем, что данное распределение не похожа на колокообразную форму кривой, которая характерно для нормального закона распределения. Рассмотрим распределение исследуемого ряда по закону Пуассона. Распределение Пуассона определяется согласно по формуле: где Рисунок 3 - Полигон эмпирических частот и вероятность для распределения Пуассона На рисунке 3,4 видно, что функция распределения интенсивности пакетов протокола MPEG не распределен по закону Пуассона и не удовлетворяет условиям нормального закона распределения [2-5]. Рисунок 4 – Выходные данные программы В случае если исходный ряд не соответствует нормальному закону распределения, необходимо проверить данный ряд такими критериями непараметрическими теста такие как критерий Колмогорова – Смирнова, Дарбина, Дэвида-Хартли-Пирсона, Андерсона-Дарлинга и др. Согласно рисунке 5, выведены результаты временного ряда по проверке на нормальность распределения, используя условия различных критерий. Рисунок 5 - Выходные данные проверки временного ряда на нормальность В результате данные временного ряда демонстрирует его отклонение от нормального закона распределения. К числовым характеристикам формы частотных распределений относятся: асимметрия и эксцесс. Асимметрия Ax показывает степень отклонения распределения от симметричного, который характерен для нормальности распределения и рассчитывается по формуле: и принимает значения от -3 до +3. При Ax=0 распределение симметрично, при Ax<0 – левосторонняя асимметрия, при Ax>0 – распределение правосторонней асимметрии. Эксцесс Ex или Куртозис показывает степень островершинности кривой распределения. Данная характеристика определяется по формуле: и принимает значения от -3 до +3. При Ex=0 распределение является нормальным, при Ex<0 – плосковершинным, при Ex>0 – островершинным распределением. Рисунок 6 - Выходные данные асимметрии и куртозиса Коэффициенты асимметрии и эксцесса, полученные с использованием программ Attestat на рисунке 5 и Matlab на рисунке 6, Excel на рисунке 6, совпадают и отличаются на незначительные доли. Ax=0,88>0 – распределение правосторонней асимметрии. Куртозис Ех=0,69>0. Данные значения демонстрируют несоответствие исследуемого ряда нормальному закону распределения. Необходимо исследовать ряд на случайность [6] с помощью VRatio test в Matlab на рисунке 7. Тест отношения дисперсии Variance Ratio test for Random Walk оценивает нулевую гипотезу о том, что одномерный временной ряд является случайным блужданием. Нулевая модель Y(t) = c + y(t–1) + e(t), где c — константа дрейфа (случайный процесс), e(t) — некоррелированные инновации с нулевым средним значением. Рисунок 7 - Выходные данные проверки временного ряда на случайность Согласно результатам, видно, что исследуемый ряд имеет случайный блуждающий характер. Способы и виды оптимизации сетевого трафика Оптимизация сети — это технология, используемая для повышения производительности сети для данной среды. Оптимизация является важной составляющей эффективного управления информационными системами. Оптимизация сети является одним из важных ключевых решений многих организаций, так как информационные технологии растут постоянно, когда бизнес-пользователи создают большие объемы данных и, тем самым, потребляют большую пропускную способность сети. Если оптимизация сети отсутствует, постоянный рост услуг и требований может усилить нагрузку на сетевую архитектуру сети или организации. Если заглянуть в практически любой канал связи между филиалом компании и ЦОД, то можно заметить следующую картину: Передается большое количество (до 60–70% канала) избыточной информации, которая уже запрашивалась хостами в сети. Канал связи загружен приложениями, отправляющие ненужные и повторяющиеся данные, рассчитанными на работу в локальной сети, — они обмениваются короткими сообщениями, что как видно сказывается на производительность их сети в канале связи. Протокол TCP изначально создавался для локальных сетей и отлично подходит для малых задержек RTT и при отсутствии потерь пакетов в сети. В реальных каналах при потерях пакетов скорость резко падает и медленно восстанавливается из за больших RTT. Ниже приведены наиболее интересные и необходимые способы оптимизации сетевого трафика: Сжатие и дедупликация Первая проблема уже описана: в канале передается очень много избыточных дублирующихся данных. Самый яркий пример — это Citrix-ферма, в которой работают филиалы какого-нибудь банка: в отдельно взятом офисе одни и те же данные могут запрашивать несколько десятков машин. За счет дедупликации, канал связи можно спокойно разгрузить на 60–70%. На Citrix можно реализовать сжатие данных, но эффективность от этого намного ниже, чем на самих оптимизаторах трафика. Это связано с тем, что оптимизаторы не только сжимают данные, но и дедуплицируют. Через оптимизатор проходит весь трафик данных, например между филиалом и ЦОДом. Для одного пользователя стандартное сжатие данных, к примеру Limpel-Ziv, может быть выше дедупликации, но при большом количестве устройств основной приоритет занимает именно дедупликация. Оптимизаторы — это программно-аппаратный комплекс, но его также можно внедрить в виде виртуальных машин. Оптимизаторы должны стоять на обоих площадках между клиентом и сервером. Оптимизаторы ставятся до шифраторов, поскольку дедупликация шифрованного трафика — дело бесполезное. Дедупликация для шифрованных каналов Дедупликация и сжатия шифрованного трафика не имеет практической пользы. В связи с этим, оптимизаторы включаются между устройством шифрования и ЦОД. ЦОД отдает данные оптимизатору, оптимизатор отдает на шифровку, на другой стороне трафик расшифровывается и передается оптимизатору, а тот уже отдает их в сеть. Эта функция позволяет оптимизатором улучшить пропускную способность сети. Все это происходит без снижения рисков компрометации трафика. Дедупликация для мобильных сотрудников В последнее время с дата-центрами напрямую подключаются и работают с ноутбуками и планшетами, которым тоже нужно большое количество данных. В данном случае, вместо оптимизаторов используются специальный софт, который просто расходует часть ресурсов процессора и часть жесткого диска для тех же целей. В действительности меняется только производительность ноутбука, т.е. ее снижение и место в кэше на жестком диске на более быстрый канал. В основном, пользователи ничего не замечают, кроме улучшенной работы и ускорение сетевых сервисов. Результаты и их обсуждение В данной работе было проведено исследование сетевого трафика с целью дальнейшей оптимизации сетевого трафика проходящие по магистральным каналам связи. Согласно полученным результатам проведенного анализа сетевого трафика было выведено что исследуемый временной ряд пакета протокола MPEG не соответствует нормальному закону распределения. В данном случае целесообразно проводить исследование временного одномерного ряда с использованием непараметрических тестов. Заключение В результате проделанной работы можно сделать следующие выводы: исследуемый временной ряд сетевого трафика не принадлежит нормальному закону распределения. Данная информация является предпосылкой для применения правильного критерия статистики, необходимый для дальнейшего прогнозирование сетевого трафика. В связи с тем, что нормальный закон распределения относится к параметрическим тестам, дальнейшее исследование следует проводить с использованием непараметрических тестов. СПИСОК ЛИТЕРАТУРЫ 1. Иванов А.В. Разработка и исследование алгоритмов прогнозирования и управления очередями в компьютерных сетях: дис.канд.т.н., — Санкт Петербург: 2001. — 147 с. 2. Федоров С. Л. Моделирование нестационарных временных рядов и построение оператора эволюции их выборочных распределений непараметрическими методами. Диссертация, 2017— Сургутский государственный университет. — Сургут: 2017. — 108 с. 3. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с. 4. https://www.machinelearningmastery.ru/time-series-data-stationary-python/ 5. Д. С. Шингисов, В. Ю. Гойхман, А. Р. Лаврова, Ш. Ж. Сеилов, Е. Ш. Журсинбек. Об устойчивости распределений характеристик трафика WhatsApp. Вестник НИА РК. 2021 №4(82) 6. Lo, A. W., and A. C. MacKinlay. A Non-Random Walk Down Wall St. Princeton, NJ: Princeton University Press, 2001. 7. Brockwell P.J., Davis R.A. Introduction to Time Series and Forecasting. 3rd ed. — Springer, 2016. — 428 p. REFERENCES 1. Ivanov A.V. development and study of algorithms for forecasting and management in computer networks: dis.Kand.T. N., St. Petersburg: 2001 — - 147 P. 2. Fedorov S. L. modeling of Nest time sequences and construction of the evolution operator of their selection distribution by nonparametric methods. Dissertation, 2017-Surgut State University. - Surgut: 2017 — - 108 P. 3. Kobzar A. I. Applied Mathematical Statistics. Moscow: Fizmatlit publ., 2006. - 816 P. 4. https://www.machinelearningmastery.ru/time-series-data-stationary-python/ 5. D. S. Shingisov, V. Yu. Goikhman, A. R. Lavrova, Sh. Zh. Seilov, E. Sh. Zhursinbek. About the stability of the distribution of characteristic WhatsApp traffic. NIA Bulletin of the Republic of Kazakhstan. 2021 №4(82) 6. Lo, A. W., and A. C. MacKinlay. A Non-Random Walk Down Wall St. Princeton, NJ: Princeton University Press, 2001. 7. Brockwell P.J., Davis R.A. Introduction to Time Series and Forecasting. 3rd ed. — Springer, 2016. — 428 p. Ж.Б.Ибраева 1, Ә.А. Қаттабеқ 2, Д.Н.Айтжанов 3 Ғылыми жетекшілері: Ж.Б.Ибраева Желілік трафикті талдау және оңтайландыру Түйіндеме. Бүгінгі таңда көптеген байланыс салаларында байқалған желілік деректер ағындарының айтарлықтай өсуі байқалды. Осыған байланысты желілік трафик ағынын көбейту және оңтайландыру қажеттілігі туындайды. Пакеттердің қарқындылығының нақты желілік трафигінің кемшілігі-пакеттердің қызмет көрсетілетін желілік құрылғыларға келуінің тұрақты емес жылдамдығы. Желіні басқару міндеттерінің өзектілігі күн сайын артып келеді. Бұл жұмыс зерттеушіні қызықтыратын сұрақтарға мазмұнды жауап алуға мүмкіндік береді. Желілік трафикті зерттеуде белгілі бір тест түрлерін (критерийлерді) қолдану өзекті болып табылады, өйткені олар олардың артықшылықтары мен кемшіліктерін анықтауға мүмкіндік береді. Мақалада Matlab утилитасын қолдана отырып, уақыт қатарларын өзгермейтін зерттеу ұсынылған. Түйін сөздер: уақыт сериясы, қозғалатын суреттер бойынша сарапшылар тобы, желілік трафик, деректерді талдау, стационарлық тексеру критерийлері, қалыпты үлестіру Заңы. J.B.Ibraeva, A.A.Kattabek, D.N.Aitzhanov Scientific supervisors: J.B.Ibraeva Network traffic analysis and optimization Abstract: To date, there has been a significant increase in network data flows observed in many areas of communication. In this regard, there is an urgent need to increase and optimize the flow of network traffic. The disadvantage of real packet intensity network traffic is the irregular rate of arrival of packets to serviced network devices. The relevance of network management tasks is growing every day. This work allows you to get meaningful answers to the questions of interest to the researcher. The use of certain types of tests (criteria) in the study of network traffic is relevant because they allow you to identify their advantages and disadvantages. The article proposes a study of the time series for immutability using the Matlab utility. Keywords: time series, expert group on moving images, network traffic, data analysis, criteria for checking stationarity, the law of normal distribution. Сведения об авторах: Ибраева Жанар Базарбаевна, сеньор-лектор кафедры «Радиотехники, Электроники и Телекоммуникации» Международного университета информационных технологий. Каттабек Алем Алмазулы, студент кафедры «Радиотехники, Электроники и Телекоммуникации» Международного университета информационных технологий. Айтжанов Дамир Нурлыбекович, студент кафедры «Радиотехники, Электроники и Телекоммуникации» Международного университета информационных технологий. Ibraeva Zhanar Bazarbaevna, Senior lecturer of the Department of «Radio Electronics and Telecommunications» of the International University of Information Technologies. Kattabek Alem Almazuly, student of the Department of «Radio Electronics and Telecommunications» of the International University of Information Technologies. Aitzhanov Damir Nurlybekovich, student of the Department of «Radio Electronics and Telecommunications» of the International University of Information Technologies. Авторлар туралы ақпарат: Ибраева Жанар Базарбайқызы, халықаралық ақпараттық технологиялар университетінің "Радиотехника, Электроника және Телекоммуникация " кафедрасының сеньор-дәріскері. Каттабек Алем Алмазұлы, Халықаралық ақпараттық технологиялар университетінің "Радиотехника, Электроника және Телекоммуникация " кафедрасының студенті. Айтжанов Дамир Нурлыбекович, Халықаралық ақпараттық технологиялар университетінің "Радиотехника, Электроника және Телекоммуникация" кафедрасының студенті.0>0> |