Интеллектуальный анализ данных учебное пособие. ИАД Лекции Замятин 20. Интеллектуальный анализ данных
Скачать 2.95 Mb.
|
12.1. Программные инструменты для высокопроизводительной обработки данных В гл. 2 приведен перечень компетенций, которыми должен обла- дать специалист в области Data Mining с точки зрения современного работодателя. Заметно, что набор компетенций, навыков и инстру- ментария состоит не только из традиционных позиций для совре- менного разработчика программного обеспечения (англ. Software Engineer), он дополнен некоторыми отличительными элементами, требующимися при распределенно-параллельной высокопроизво- дительной работе с Big Data методами Data Mining. Рассмотрим кратко некоторые наиболее распространенные из них, как правило, относящиеся к свободно распространяемому программному обес- печению. 12.1.1. Программная среда Для повышения эффективности и упрощения процессов распре- деленно-параллельной обработки данных фондом Apache Software Foundation реализуется проект по разработке программной системы Apache Hadoop (часто просто Hadoop) разработки высокопроизво- дительных приложений. Данная среда характеризуется возможно- стью горизонтальной масштабируемости кластера путем добавления недорогих вычислительных узлов, без использования дорогостоя- щих суперкомпьютерных мощностей. По состоянию на 2014 г. этот программный сервис представлен четырьмя модулями: – Hadoop MapReduce (платформа программирования и выпол- нения распределенных MapReduce-вычислений); Интеллектуальный анализ данных 178 – HDFS (Hadoop Distributed File System, распределенная файло- вая система); – YARN (система для планирования заданий и управления ре- сурсами кластера); – Hadoop Common (набор инфраструктурных программных библиотек и утилит, используемых для других модулей и родствен- ных проектов типа Mahout, Cassandra, Spark и др.). 12.1.2. Базы данных Важным элементом вычислительной среды обработки данных являются БД и СУБД. Необходимость обработки «больших дан- ных», особенности которых рассмотрены в разд. 2.1–2.3, диктует и новые требования к «распределенным» принципам построения и функционирования БД и систем управления ими, отличных от при- нятых для них реляционных аналогов. Отличают три основных свойства данных (согласованность, доступность и устойчивость к разделению), которые являются противоречивыми, и добиться вы- полнения в одинаковой степени одновременно можно только двух из них. Современные нереляционные БД и СУБД направлены на по- пытку решения именно этой задачи. Одним из примеров нереляционной распределенной БД стала БД с открытым исходным кодом HBase, реализуемая в развитие проекта Apache Hadoop. Эта БД функционирует совместно с распре- деленной файловой системой HDFS и обеспечивает отказоустойчи- вый способ хранения больших объемов разреженных данных. Еще одним аналогичным и распространенным на практике при- мером нереляционной БД является MongoDb – документо-ориенти- рованная БД, не имеющая строгой схемы данных, позволяющая добиваться высокой скорости записи и чтения, масштабируемости, но уступающя в сохранности и целостность данных. Отметим, что в подобных БД присутствует примат масштабиру- емости и доступности данных над их согласованностью. В таких БД оперировать данными приходится не только с использованием стандартного структурированного языка запросов SQL, принятого 12. Инструменты Data Mining 179 в реляционных БД, но и с помощью так называемого NoSQL (англ. not only SQL, не только SQL), который обеспечивает доступность и масштабируемость, но невысокую степень согласованности данных. 12.1.3. Языки программирования Анализ многочисленных языков программирования, сопровож- дающих разработку и развитие программных систем анализа дан- ных, вряд ли позволяет выявить очевидного лидера в этой сфере. Как и в любой другой области, выбор конкретного языка програм- мирования, интегрированной среды разработки или компилятора зависит от множества специфических факторов. Вместе с тем нельзя не отметить возрастающую популярность языка программи- рования Python,приобретающего все большую востребованность вместе с традиционно распространенными в среде Data Scientist инструментами типа языков R, Mathlab или Ruby. Подробнее об этих и других языках программирования см.: [13, 107]. 12.2. Примеры программных систем 12.2.1. Примеры самостоятельных систем В качестве примеров универсальных, полнофункциональных, распространенных статистических пакетов называют SAS Enterprise Miner (компания SAS Institute), SPSS (SPSS Modeler Professional и SPSS Modeler Premium), Statistica (StatSoft) и др. Большинство современных СУБД также включает поддержку функциональности Data Mining: – Microsoft SQL Server Analysis Services (Microsoft Corp.); – Oracle Business Intelligence (Oracle Corp.); – IBM DB2 Intelligent Miner (IBM). Кроме того, существуeт целый ряд систем, основанных главным образом на какой-то одной группе методов Data Mining: – нейронные сети (BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic)); Интеллектуальный анализ данных 180 – деревья решений (See5/С5.0 (RuleQuest), Clementine (Integral Solutions), SIPINA (University of Lyon), IDIS (Information Discovery), KnowledgeSeeker (ANGOSS)); – генетические алгоритмы (GeneHunter, Ward Systems Group); – алгоритмы ограниченного перебора (WizWhy от компании WizSoft); – системы рассуждений на основе аналогичных случаев (англ. Сase Based Reasoning; KATE tools (Acknosoft), Pattern Recognition Workbench (Unica)); – визуализация многомерных данных (DataMiner 3D компании Dimension5). Очевидно, данными программными системами рынок современ- ного программного обеспечения Data Mining не исчерпывается. Бо- лее того, в каждой из упомянутых групп регулярно появляются но- винки, направленные на снижение требований к квалификации пользователя таких систем, повышение адекватности в результатах решения задач и т.п. 12.2.2. Примеры облачных систем Примерами «не коробочных» программных систем Data Mining, набирающих популярность, являются системы, реализованные в «облачной» архитектуре. Число таких примеров сегодня наиболее велико на высоко конкурентных рынках, где значима ценность предсказательной аналитики, – рынках США и Западной Европы. Интересным примером здесь является компания Blue Yonder, развивающая линейку продуктов в парадигме SaaS (англ. Software as a Service, ПО как сервис) [8]. Основным ядром создаваемого ПО является нейросетевой алгоритм оценки условной плотности рас- пределения вероятности, разработанный в результате научных исследований на адронном коллайдере в рамках проекта ЦЕРН (фр. CERN – (Conseil Européen pour la Recherche Nucléaire, Европейский совет по ядерным исследованиям) [16]. Сегодня на ос- нове этой разработки компания реализует целый ряд решений, предварительно адаптированных для сфер ритейла, производства, 12. Инструменты Data Mining 181 телекоммуникаций, энергетики, финансов, медиа. Заявляется, что предлагаемые решения отличаются более высокой точностью, достигаемой глубокой научной проработкой применяемых алгорит- мов. Интеллектуальный анализ данных 182 ВОПРОСЫ И ТЕМЫ ДЛЯ САМОПРОВЕРКИ 1. Какие тренды информационно-коммуникационных техноло- гий способствовали развитию Data Mining? 2. Приведите примеры применения методов Data Mining для ре- шения практических задач. 3. Какие области человеческой деятельности наиболее и наиме- нее подходят для их анализа методами Data Mining? 4. Что понимается под Data Mining и Big Data? Почему возникла такая терминология? 5. В чем состоит суть индуктивных и дедуктивных подходов в Data Mining? 6. Каковы основные этапы интеллектуального анализа данных? 7. Какие классификации методов Data Mining существуют? Приведите примеры. 8. В чем заключается предварительная обработка данных и ка- кова ее цель? Какие подходы при этом применяются? 9. В чем заключается оптимизация признакового пространства? Какие методы с трансформацией и без трансформации простран- ства применяют, в чем их отличия? 10. В чем заключается метод классификации? Какие подходы для его реализации могут быть использованы и в чем их суть? 11. Что такое неконтролируемая классификация? Какие методы применяют для ее реализации? 12. В чем заключается суть метода машины опорных векторов и в чем его преимущество перед аналогами? 13. Как работают деревья принятия решений? Какие их разно- видности существуют? Каковы пределы применимости этого ме- тода? 14. Что такое регрессия? Какие подходы применяют для ее реа- лизации? 15. Как работают ассоциативные алгоритмы? 16. Как работают алгоритмы последовательной ассоциации? Вопросы и темы для самопроверки 183 17. Что такое обнаружение аномалий? Приведите примеры при- менения этого подхода и укажите методы его реализации. 18. Что такое визуализация и какие инструменты ее реализации существуют? 19. Какие инструменты, модели и технологии существуют сего- дня для реализации высокопроизводительных вычислений? Какие критерии эффективности при этом используют? 20. Примеры коммерческих многофункциональных систем и свободно распространяемых решений, реализующих инструмента- рий Data Mining. Их сравнительные характеристики. 21. Архитектуры и особенности функционирования информа- ционных систем, реализующих методы Data Mining как сервис. Интеллектуальный анализ данных 184 ЛИТЕРАТУРА 1. Abela A. Advanced presentations by design. Creating communi- cation that drives action. John Wiley & Sons Limited, 2013. 224 p. 2. Agrawal R., Srikant R. Mining Sequential Patterns // Proc. of the 11th Int’l Conference on Data Engineering, 1995. P. 3–14. 3. Agrawal R., Srikant R. Fast algorithms for mining association rules in large databases // Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, Santiago, Chile, 1994. Р. 487–499. 4. Ayres J., Flannick J., Gehrke J., Yiu T. Sequential Pattern Mining using a Bitmap Representation // ACM SIGKDD Conference, 2002. P. 429–435 5. BaseGroup Labs. Технологии анализа данных. URL: http://www.basegroup.ru/ (дата обращения: 03.03.2020). 6. Big Data Analytics Methodological Training in Statistical Data Science. URL: http://www.statoo.com/dm/ (accessed: 03.03.2020). 7. Bishop C.M. Neural Networks for Pattern Recognition. Oxford University Press, 1995. 508 p. 8. Blue Yonder. URL: http://www.blue-yonder.com/ (accessed: 03.03.2020). 9. Boulding K.E. General Systems Theory – The Skeleton of Science // Management Science. 1956. № 2. P. 197–208. 10. Breiman L., Friedman J.H., Olshen R.A., Stone C.T. Classifica- tion and Regression Trees. Wadsworth, Belmont, CA, 1984. 358 p 11. Chandola V., Kumar V. Summarization – compressing data into an informative representation // Knowledge and Information Systems. 2007. Vol. 12, is. 3. P. 355–378. 12. Davenport T.H. Analytics 3.0 // Harvard Business Review. 2013. Vol. 91, № 4. Р. 64–72. 13. Data Mining Community Top Resource. URL: http://www.kdnuggets.com/ (accessed: 02.03.2020). 14. Deng H., Runger G., Tuv E. Bias of importance measures for multi-valued attributes and solutions // Proceedings of the 21st Inter- Литература 185 national Conference on Artificial Neural Networks (ICANN). 2011. Р. 293–300. 15. Emerson Process Management. Automation Solutions URL: http://www2.emersonprocess.com/en-IN/industries/Power/Coal/Opti- mize-Operator-and-Engineer-Effectiveness/Pages/Remote-Monitoring- Data-Analytics.aspx. (accessed: 26.02.2020). 16. Feindt M. A Neural Bayesian Estimator for Conditional Proba- bility Densities // Cornell University. 2004. URL: http://arxiv.org/abs/ physics/0402093 (accessed: 03.03.2020). 17. Fine S., Scheinberg K. INCAS: An incremental active set method for SVM : Technical Report / IBM Research Labs. Haifa, 2002. 18. Galton F. Regression Towards Mediocrity in Hereditary Stature // Journal of the Anthropological Institute. 1886. № 15. P. 246–263. 19. GartnerGroup. URL: www.gartner.com (accessed: 03.03.2020). 20. Giacinto G., Roli F. Dynamic Classifier Selection Based on Mul- tiple Classifier Behaviour // Pattern Recognition. 2001. Vol. 34 (9). P. 179–181. 21. Horvath T., Yamamoto A. (eds.). Inductive Logic Programming : 13th International Conference, ILP 2003, Szeged, Hungary, September 29 – October 1, 2003 : Proceedings. Springer, 2003. P. 215–232. (Lecture Notes in Computer Science, vol. 2835). 22. Hyafil L., Rivest R. Constructing Optimal Binary Decision Trees is NP-complete // Information Processing Letters. 1976. Vol. 5 (1). P. 15–17. 23. Jain A., Zongker D. Feature Selection: Evaluation, Application, and Small Sample Performance // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. Vol. 19, № 2. P. 153–158. 24. Jurafsky В., Ng A.Y. et al. Building DNN acoustic models for large vocabulary speech // IEEE Transactions on Audio, Speech, and Language Processing. 2017. Т. 34. № 9. 25. Kaneko I.S., Igarashi S. Combining Multiple k-Nearest Neighbour Classifiers Using Feature Combinations // J. IECI. 2000. Vol. 2, № 3. Р. 23–31. 26. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? Tandem Computers Inc., 1996. Интеллектуальный анализ данных 186 27. Kuznetsova A.V., Sen’ko O.V., Matchak G.N., Vakhotsky V.V., Zabotina T.N., Korotkova O.V. The Prognosis of Survivance in Solid Tumor Patients Based on Optimal Partitions of Immunological Param- eters Ranges //Journal Theoretical Medicine. 2000. Vol. 2. Р. 317–327. 28. Petrushin V.A., Khan L. Multimedia Data Mining and Knowledge Discovery. New York : Springer-Verlag, 2006. 29. Piatetsky-Shapiro G. Knowledge Discovery in Real Databases : а Report on the IJCAI-89 Workshop // AI Magazine. 1991. № 11 (5). Р. 68–70. 30. Quinlan J.R. Induction of Decision Trees // Machine Learning. 1986. Vol. 1, № 1. Р. 81–106. 31. Rahm E., Do H.H. Data Cleaning: Problems and Current Ap- proaches // IEEE Bulletin on Data Engineering. 2000. Vol. 23 (4). 32. Raymer M.L., Punch W.F., Goodman E.D., Kuhn L.A., Jain L.C. Dimensionality reduction using genetic algorithms. // IEEE Trans. on Evolutionary Computation. 2000. Vol. 4 (2). Р. 164–171. 33. Richards J.A., Xiuping Jia. Remote Sensing Digital Image Analysis : an Introduction. Berlin : Springer, 1999. – 363 p. 34. SAS Institute. URL: www.sas.com/ (accessed: 03.03.2020). 35. Srikant R., Agrawal R. Mining Sequential Patterns: Generaliza- tions and Performance Improvements // Advances in Database Techno- logy – EDBT '96 / P. Apers, M. Bouzeghoub, G. Gardarin (eds) Berlin, Heidelberg : Springer, 1996. (Lecture Notes in Computer Science, vol. 1057). 36. Stanton J.M. Introduction to Data Science. 3rd ed. 2012 // iTunes Open Source eBook. URL: https://itunes.apple.com/us/book/introduc- tion-to-data-science/id529088127?mt=11 (accessed: 03.03.2020). 37. Support vector machines: Theory and applications / ed. by L. Wang. Springer, 2005. 434 p. 38. Tadviser. URL: https://goo.gl/2xLSFy (accessed: 26.03.2020). 39. Tibco Statistica Inc. URL: http://statistica.io/wordpress/wp-con- tent/uploads/Striim-Partner-Solution-Brief.pdf (accessed: 24.03.2020). 40. Weigend A.S., Srivastava A.N. Predicting Conditional Probability Distributions: a Connectionist Approach // International Journal of Neural Systems. 1995. Vol. 6, № 2. Р. 109–118. Литература 187 41. Widrow B., Lehr M.A. 30 Years of Adaptive Neural Networks: Perceptron, Madaline, and Backpropagation // Proceedings of the IEEE. 1990. Vol. 78, № 9. P. 1415–1442. 42. Witten I.H., Frank E., Hall M.A., Kaufmann M. Data Mining: Practical Machine Learning Tools and Techniques. 3rd ed. Elsevier, 2011. 629 p. 43. Wonderware Software – Powering the Industrial World. URL: https://www.wonderware.com/industrial-information-management/his- torian-client (accessed: 26.03.2020). 44. Zhirnova I.G., Kuznetsova А.В., Rebrova O.Yu., Labunsky D.A., Komelkova L.V., Poleshchuk V.V., Sen’ko O.V. Logical and Statistical Approach for the Analysis of Immunological Parameters in Patients with Wilson’s Disease // Russian Journal of Immunology. 1998. Vol. 3, № 2. Р. 174–184. 45. Абдикеев Н.М. Когнитивная бизнес-аналитика. М. : ИНФРА-М, 2011. 510 с. 46. Абдикеев Н.М., Данько Т.П., Ильдеменов С.В., Киселев А.Д. Реинжиниринг бизнес-процессов. М. : Эксмо, 2005. 592 с. (Курс MBA). 47. Абдикеев Н.М., Киселев А.Д. Управление знаниями в кор- порации и реинжиниринг бизнеса. М. : ИНФРА-М, 2011. 382 с. 48. Агентство стратегических инициатив. URL: https://asi.ru/ (дата обращения: 01.03.2020) 49. Аграновский А.В., Репалов С.А., Хади Р.А., Якубец М.Б. О недостатках современных систем обнаружения вторжений // Информационные технологии. 2005. № 5. C. 39–43. 50. Айвазян C.А. Классификация многомерных наблюдений. М. : Статистика, 1978. – 232 с. 51. Айвазян СА., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности. М. : Финансы и статистика, 1989. 607 c. 52. Асеев М.Г., Баллюзек М.Ф., Дюк В.А. Разработка медицин- ских экспертных систем средствами технологий Data Mining. URL: http://www.datadiver.nw.ru (дата обращения: 03.03.2020). Интеллектуальный анализ данных 188 53. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining, СПб. : БХВ-Петербург, 2007. 336 с. 54. Большакова Е.И., Воронцов К.В., Ефремова Н.Э. и др. Авто- матическая обработка текстов на естественном языке и анализ дан- ных : учеб. пособие. М. : Изд-во НИУ ВШЭ, 2017. 269 с. 55. Большакова Е.И., Воронцов К.В., Ефремова Н.Э. и др. Глу- бокое обучение. Погружение в мир нейронных сетей. СПб. : Питер, 2018. 480 с. 56. Большие данные (Big Data). URL: http://www.tadviser.ru/ (дата обращения: 03.03.2020). 57. Еремеев В.Б. Разработка математического и программного обеспечения активного мониторинга вычислительной сети // Вести высших учебных заведений Черноземья. Автоматизация и инфор- матика. 2008. № 4 (14). URL: http://www.stu.lipetsk.ru/files/materials/ 2408/2008_04_013.pdf (дата обращения: 03.03.2020). 58. Вапник В.Н. Восстановление зависимостей по эмпириче- ским данным. М. : Наука, 1979. 488 с. 59. Вапник В.Н., Червоненкис А.Я. Теория распознавания обра- зов. Статистические проблемы обучения. М. : Наука, 1974. 416 с. 60. Воеводин В.В., Воеводин Вл.В. Параллельные вычисления. СПб. : БХВ-Петербург, 2004. 608 с. 61. Гвозденко С.В. Интеллектуальный анализ сложных неста- ционарных сигналов на примере электрокардиографических сигна- лов // Фундаментальные исследования. 2016. № 3. С. 537–542. 62. Гик Дж. ван. Прикладная общая теория систем. М. : Мир, 1981. 731 с. 63. Головкин Б.А. Параллельные вычислительные системы. М. : Наука, 1980. 520 с. 64. Давыдов А.А. Системная социология: анализ мультимедийной информации в Интернете URL: http://www.isras.ru/files/File/Publication/ Multimedia_Information_DavydovA.pdf (дата обращения: 03.03.2020). 65. Доровских И.В., Кузнецова А.В., Сенько О.В., Реброва О.Ю. Прогноз динамики депрессивных синдромов в остром периоде со- трясения головного мозга по показателям первичного обследования Литература 189 (с использованием логико-статистических методов) // Социальная и клиническая психиатрия. 2003. № 4. С. 18–24. 66. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия. 3-е изд. М. : Диалектика, 2007. 912 с. 67. Дуда Р., Харт П. Распознавание образов : пер. с англ. М. : Наука, 1981. 450 с. 68. Дюк В.А. Обработка данных на ПК в примерах. СПб. : Питер, 1997. 240 с. 69. Дюк В., Самойленко А. Data Mining : учеб. курс. СПб. : Питер, 2001. 386 с. 70. Дюран Б., Оделл П. Кластерный анализ : пер. с англ. М. : Статистика, 1977. 128 с. 71. Епанечников В.А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятностей и ее применения. 1969. Т. 14, вып. 1. С. 156–161. 72. Загоруйко Н.Г. Прикладные методы анализа данных и зна- ний. Новосибирск : Изд-во Ин-та математики СО РАН, 1999. 268 с. 73. Загоруйко Н.Г., Лбов Г.С. Проблема выбора в задачах ана- лиза данных и управления // Сибирский журнал индустриальной математики. 2000. Vol. 3 (1). Р. 101–109. 74. Замятин А.В. Введение в интеллектуальный анализ данных : учеб. пособие. Томск : Изд. Дом Том. гос. ун-та, 2016. 120 с. 75. Замятин А.В. Операционные системы : учеб. пособие. Томск : Изд-во Том. политехн. ун-та, 2010. 167 с. 76. Замятин А.В., Марков Н.Г. Анализ динамики земной по- верхности с использованием данных дистанционного зондирования Земли. М. : Физматлит, 2007. 176 c. 77. Замятин А.В., Марков Н.Г., Напрюшкин А.А. Адаптивный алгоритм классификации с использованием текстурного анализа для автоматизированной интерпретации аэрокосмических изобра- жений // Исследование Земли из космоса. 2004. № 2. С. 32–40. 78. Замятин А.В., Аксенов С.В., Костин К.А., Иванова А.В., Лианг Дж. Диагностика патологий по данным видео эндоскопии с использованием ансамбля сверточных нейронных сетей // Совре- менные технологии в медицине. 2018. № 2. Интеллектуальный анализ данных 190 79. Киселев М., Соломатин Е. Средства добычи знаний в биз- несе и финансах // Открытые системы. 1997. № 4. С. 41–44. 80. Кислова О.Н. Интеллектуализация информационных техно- логий как фактор развития интеллектуального анализа социологи- ческих данных // Методологія, теорія та практика соціологічного аналізу сучасного суспільства : збірник наукових праць. Харків : вид. центр ХНУ ім. В.Н. Каразіна, 2009. С. 318–324. 81. Консалтинговая компания IDC. URL: http://idc-group.ru (дата обращения: 03.03.2020). 82. Костюкова Н.И. Применение технологии Data Mining для решения задач оптимизации проектирования сложных технических систем // Альманах современной науки и образования. Тамбов : Гра- мота, 2010. № 5 (36). С. 60–61. 83. Костюкова Н.И. Принятие решений в условиях риска // Приложение к журналу «Открытое образование». М., 2010. С. 90–93. 84. Костюкова Н.И. Создание новой технологии в среде С++, JAVA на базе вычисления группы, допускаемой дифференциаль- ными уравнениями // Альманах современной науки и образования. Тамбов : Грамота, 2010. № 7 (38). С. 59–61. 85. Костюкова Н.И. Технология Data Mining в задачах исследо- вания сетевого трафика // Приложение к журналу «Открытое обра- зование». М., 2010. С. 148–149. 86. Костюкова Н.И., Залевский А.А., Москвин Н.В. Разработка системы поддержки принятия решений // Альманах современной науки и образования. Тамбов : Грамота, 2010. № 5 (36). С. 59–60. 87. Костюкова Н.И., Кудинов А.Е. Математические модели ле- чения с учетом эффективности // Альманах современной науки и образования. Тамбов : Грамота, 2010. № 3 (34). С. 17–21. 88. Костюкова Н.И. Система принятия решений в области ме- дицинской диагностики и выбора оптимальных решений по техно- логии Data Mining // Приложение к журналу «Открытое образова- ние». М., 2010. С. 145–146. 89. Костюкова Н.И. Создание автоматизированной системы анализа технологии добычи данных для обнаружения сетевого Литература 191 вторжения // Приложение к журналу «Открытое образование». М., 2010. С. 149–151. 90. Костюкова Н.И., Кудинов А.Е. Автоматизация научных ис- следований в области медицины с применением технологии Data Mining // Альманах современной науки и образования. Тамбов : Грамота, 2010. № 3 (34), ч. 1. С. 22–24. 91. Костюкова Н.И., Родин Е.В. Система поддержки принятия решений для отраслей, связанных с риском // Альманах современной науки и образования. Тамбов : Грамота, 2010. № 7 (38). С. 41–44. 92. Костюкова Н.И., Кудинов А.Е. Статистические методы в ме- дицине // Альманах современной науки и образования. Тамбов : Грамота, 2011. № 4 (47). C. 100–107. 93. Кречетов Н. Продукты для интеллектуального анализа дан- ных // Рынок программных средств. 1997. № 14-15. С. 32–39. 94. Кузнецов В.А., Сенько О.В., Кузнецова А.В. и др. Распозна- вание нечетких систем по методу статистически взвешенных син- дромов и его применение для иммуногематологической нормы и хронической патологии // Химическая физика. 1996. Т. 15, № 1. С. 81–100. 95. Кузнецова А.В., Сенько О.В. Возможности использования методов Data Mining при медико-лабораторных исследованиях для выявления закономерностей в массивах данных // Врач и информа- ционные технологии. 2005. № 2. С. 49–56. 96. Кузнецова А.В. Диагностика и прогнозирование опухоле- вого роста по иммунологическим данным с помощью методов син- дромного распознавания : автореф. дис. … канд. биол. наук. М., 1995. 23 с. 97. Лапко А.В., Ченцов С.В. Непараметрические системы обра- ботки информации : учеб. пособие. М. : Наука, 2000. 350 c. 98. Назаров Л.Е. Применение многослойных нейронных сетей для классификации земных объектов на основе анализа многозо- нальных сканерных изображений // Исследование Земли из кос- моса. 2000. № 6. С. 41–50. 99. Напрюшкин А.А. Алгоритмическое и программное обес- печение системы интерпретации аэрокосмических изображений Интеллектуальный анализ данных 192 для решения задач картирования ландшафтных объектов : дис. … канд. техн. наук. Томск, 2002. 168 с. 100. Нейроинформатика / А.Н. Горбань, В.Л. Дунин-Барков- ский, А.Н. Кирдин и др. Новосибирск : Наука, Сиб. отд-ние, 1998. 296 с. 101. Нейронные сети. Statistica Neural Networks : пер. с англ. М. : Горячая линия-Телеком, 2000. 182 с. 102. Обработка естественного языка. URL: https://ru.wikipe- dia.org/wiki/ (дата обращения: 10.03.2020). 103. Прэтт У. Цифровая обработка изображений : пер. с англ. М. : Мир, 1982. Кн. 2. 480 с. 104. Рангайян Р.М. Анализ биометрических сигналов : практи- ческий подход / под ред. А.П. Немирко. М. : Физматлит, 2007. 222 c. 105. Рашка С. Python и машинное обучение : пер. с англ. М. : ДМК-Пресс, 2017. 418 с. 106. Реброва О.Ю. Статистический анализ медицинских дан- ных. Применение пакета прикладных программ STATISTICA. М. : Медиа Сфера, 2002. 305 с. 107. Рейтинг языков программирования для data mining. URL: http://computerscinece.ru/posts/48 (дата обращения: 03.03.2020). 108. Рекрутинговая компания. URL: www.indeed.com (дата об- ращения: 03.03.2020). 109. Селевцов Л.И. Автоматизация технологических процес- сов. М. : Академия, 2014. 345 c. 110. Татарова Г.Г. Методология анализа данных в социологии (введение) : учебник для вузов. М. : Nota Bene, 1999. 224 с. 111. Толстова Ю.Н. Анализ социологических данных. Методо- логия, дескриптивная статистика, изучение связей между номи- нальными признаками. М. : Научный мир, 2000. 352 с. 112. Ту Д., Гонсалес Р. Принципы распознавания образов : пер. с англ. М. : Мир, 1978. 412 с. 113. Финн В.К. Об интеллектуальном анализе данных // Ново- сти искусственного интеллекта. 2004. № 3. С. 3–18. 114. Хуссейн X.Ш., Якунин А.Г. Методы выявления аномалий при контроле динамических процессов природных и техногенных Литература 193 объектов // Вестник ИжГТУ им. М.Т. Калашникова. 2015. № 1 (65). С. 79–83. 115. Что такое Data Mining. URL: http://www.iso.ru/ (дата обра- щения: 03.03.2020). 116. Чубукова И.А. Курс Data Mining. URL: http://www.intuit.ru/ department/database/datamining/ (дата обращения: 03.03.2020). 117. Шапиро Е.И. Непараметрические оценки плотности веро- ятности в задачах обработки результатов наблюдений // Зарубежная радиоэлектроника. 2000. № 2. С. 3–22. 118. Якубец М.Б. Обнаружение сетевых атак методом поиска аномалий на основе вероятностного и верификационного модели- рования // Искусственный интеллект. 2006. № 3. C. 816–823. Интеллектуальный анализ данных 194 Учебное издание Замятин Александр Владимирович ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ Учебное пособие Редактор Е.Г. Шумская Оригинал-макет Е.Г. Шумской Дизайн обложки Л.Д. Кривцовой Подписано к печати 07.05.2020 г. Формат 60×84 1 / 16 Бумага для офисной техники. Гарнитура Times. Усл. печ. л. 11,4. Тираж 500 экз. Заказ № 4308. Отпечатано на оборудовании Издательского Дома Томского государственного университета 634050, г. Томск, пр. Ленина, 36 Тел. 8+(382-2)–52-98-49 Сайт: http://publish.tsu.ru E-mail: rio.tsu@mail.ru |