деректерді талдау. слайд каз. 2 ызыты пнді алдын ала зерделеуді жзеге асыру
Скачать 18.22 Kb.
|
2слайд.Деректерді талдау Деректерді талдау - бұл пайдалы ақпарат алу және шешім қабылдау үшін деректерді зерттеу, сүзу, түрлендіру және модельдеу процесі 3 слайд Деректерді талдаудың көптеген аспектілері мен тәсілдері бар, ғылым мен қызметтің әртүрлі салаларындағы әртүрлі әдістерді қамтиды. Деректерді жинау жоспарын құру үшін сізге қажет: 1) проблемаларды анықтау және зерттеу мақсаттарын тұжырымдау. 2) Қызықты пәнді алдын ала зерделеуді жүзеге асыру. 3) зерттеу тұжырымдамасын әзірлеу. 4) зерттеуді егжей-тегжейлі жоспарлау; 5) ақпарат көздерін іріктеуді және қайталама деректерді жинауды жүргізу. 6) алынған деректерді бағалау және деректердің қаншалықты бастапқы екендігі туралы шешім қабылдау 7) бастапқы деректерді жинау әдісін анықтау-анықтау, байқау, эксперимент. 8) бастапқы ақпаратты тікелей жинауды жүзеге асыру. 9) зерттеу (презентация) нәтижелерін ұсыну. - сарапшылардың пікірлері мен бағалауларымен айналысатын интуитивті; - формальды, олар әдебиетте сипатталған және олардың негізінде болжамды модельдер құрылған. Шешім ағаштары деректерді кесу саласында кеңінен қолданылады. 4 слайд. Жіктелуі дегеніміз не? Төменде деректерді талдау міндеті жіктеу болып табылатын жағдайлардың мысалдары келтірілген − Банк несие бөлімінің қызметкері қандай клиенттер (несие іздеушілер) қауіпті және қайсысы қауіпсіз екенін білу үшін деректерді талдағысы келеді. Компаниядағы маркетинг менеджері жаңа компьютер сатып алатын белгілі бір профилі бар Клиентті талдауы керек. Жоғарыда келтірілген екі мысалда да категориялық белгілерді болжау үшін модель немесе классификатор жасалады. Бұл жапсырмалар несие алу туралы мәліметтер үшін қауіпті немесе қауіпсіз және маркетингтік деректер үшін "Иә" немесе "жоқ". 5 слайд. Болжау дегеніміз не? Төменде деректерді талдау міндеті болжау болып табылатын жағдайлардың мысалдары келтірілген − мысалы, маркетинг менеджері осы клиенттің өз компаниясында сату кезінде қанша жұмсайтынын болжауы керек делік. Бұл мысалда біз сандық мәнді болжауға алаңдаймыз. Осылайша, деректерді талдау міндеті сандық болжаудың мысалы болып табылады. Бұл жағдайда үздіксіз мәні немесе реттелген мәні бар функцияны болжайтын модель немесе болжаушы жасалады. Ескерту-регрессиялық талдау-бұл сандық болжау үшін жиі қолданылатын статистикалық әдіс. 6 слайд. Жіктеу және болжау әдістерін салыстыру Дәлдік-классификатордың дәлдігі классификатордың қабілеттілігін білдіреді. Ол сынып белгісін дұрыс болжайды, ал болжаушының дәлдігі берілген болжаушының жаңа мәліметтер үшін болжамды атрибуттың мәнін қаншалықты жақсы болжай алатындығын білдіреді. Жылдамдық-бұл жіктеуішті немесе болжағышты құру және пайдалану үшін есептеу шығындарын білдіреді. Беріктік-бұл классификатордың немесе болжаушының берілген шулы мәліметтер негізінде дұрыс болжау жасау қабілетін білдіреді. Масштабталу-масштабталу дегеніміз-деректердің үлкен көлемі болған кезде классификаторды немесе предикторды тиімді құру мүмкіндігі. Интерпретация-бұл классификатор немесе болжаушы қандай дәрежеде түсінетінін білдіреді. 7-8 слайд. Шешім ағаштары - бұл ережелерді иерархиялық, дәйекті құрылымда ұсыну әдісі, онда әр объект шешім беретін жеке түйінге сәйкес келеді. Ағаш әдісімен шешілетін барлық тапсырмаларды келесі үш сыныпқа біріктіруге болады: 1) деректер сипаттамасы: шешім ағаштары деректер туралы ақпаратты ықшам түрде сақтауға мүмкіндік береді, олардың орнына объектілердің нақты сипаттамасы бар шешімдер ағашын сақтай аламыз. 2) жіктеу: шешім ағаштары жіктеу міндеттерін жақсы орындайды, яғни объектілерді алдын-ала белгілі сыныптардың біріне жатқызу. Мақсатты айнымалы дискретті мәндерге ие болуы керек. 3) регрессия: Егер мақсатты айнымалы үздіксіз мәнге ие болса, шешім ағаштары мақсатты айнымалының тәуелсіз (кіріс) айнымалыларға тәуелділігін анықтауға мүмкіндік береді. Мысалы, бұл сыныпқа сандық болжау есептері кіреді (мақсатты айнымалы мәндерді болжау). Шешім ағаштарын жүзеге асыратын көптеген алгоритмдер бар, олардың ішінде CART, C4.5, NewId функциясы, ITrule, CHAID, CN2 пайдаланады және т. б. алайда, ең көп тарағандары: CART (Classification and Regression Tree)-шешімдердің екілік ағашын құру алгоритмі-дихотомизациялаушы жіктеу моделі. Мұндай ағаштың әрбір түйіні бөлінген жағдайда тек екі ұрпағы болады. Алгоритм жіктеу және регрессия мәселелерін шешеді. C4.5 - бұл шешім ағашын құру алгоритмі, онда түйіннің ұрпақтарының саны шектелмейді. 10 слайд. Деректерді талдау процесі Талдау дегеніміз-жеке зерттеу үшін бүтінді жеке компоненттерге бөлу.[10] Деректерді талдау - бұл шикі деректерді алу және оны пайдаланушылар шешім қабылдауға пайдалы ақпаратқа айналдыру процесі.[1] сұрақтарға жауап беру, гипотезаларды тексеру немесе теорияларды жоққа шығару үшін мәліметтер жиналып, талданады.[11] 11 слайд. Деректерге қойылатын талаптар Деректер талдауды басқаратын адамдардың (немесе дайын талдау өнімін пайдаланатын Клиенттердің) талаптары негізінде анықталатын талдау үшін бастапқы деректер ретінде қажет.[14] [15] деректер жиналатын Объектінің жалпы түрі эксперименттік бірлік деп аталады (мысалы, адам немесе адамдар жиынтығы). Халыққа қатысты нақты айнымалылар көрсетілуі және алынуы мүмкін (мысалы, Жас және табыс). Деректер сандық немесе категориялық болуы мүмкін (яғни сандар үшін мәтіндік белгі).[13] 12 слайд. Деректер жинау Деректер әртүрлі көздерден жиналады.[16] [17] талаптарды аналитиктер ұйымдағы ақпараттық технологиялармен айналысатын қызметкерлер сияқты деректерді сақтаушыларға жеткізе алады.[18] деректер қоршаған ортадағы Сенсорлардан, соның ішінде жол камераларынан, спутниктерден, жазу құрылғыларынан және т.б. жиналуы мүмкін.[13] 13 слайд Деректерді өңдеу Шикі ақпаратты пайдалы ақпаратқа немесе білімге айналдыру үшін қолданылатын интеллектуалды цикл кезеңдері деректерді талдау кезеңдеріне концептуалды түрде ұқсас. Деректер бастапқыда алынған кезде өңделуі немесе Талдау үшін ұйымдастырылуы керек.[19] [20] мысалы, бұл көбінесе электрондық кестелерді немесе статистикалық бағдарламалық жасақтаманы қолдана отырып, одан әрі талдау үшін кесте форматында (құрылымдық деректер деп аталады) жолдар мен бағандарға деректерді орналастыруды қамтуы мүмкін.[13] 14 слайд. Деректерді тазарту Өңдеуден және реттеуден кейін деректер толық болмауы, телнұсқалары немесе қателері болуы мүмкін.[21] [22] деректерді тазарту қажеттілігі деректерді енгізу және сақтау мәселелеріне байланысты туындайды.[21] деректерді тазарту - бұл қателіктердің алдын алу және түзету процесі. Жалпы тапсырмаларға жазбаларды салыстыру, деректердің дәл еместігін анықтау, бар деректердің жалпы сапасы, көбейту және бағандарды сегментациялау жатады.[23] мұндай деректер мәселелерін әртүрлі аналитикалық әдістер арқылы да анықтауға болады. Мысалы; қаржылық ақпаратпен нақты айнымалылар бойынша қорытынды деректерді сенімді деп саналатын жеке жарияланған сандармен салыстыруға болады.[24] [25] сондай-ақ, алдын-ала белгіленген шектерден асатын немесе одан төмен ерекше сомаларды қайта қарастыруға болады. Деректер жиынындағы деректер түріне байланысты деректерді скраптаудың бірнеше түрлері бар; бұл телефон нөмірлері, электрондық пошта мекенжайлары, жұмыс берушілер немесе басқа мәндер болуы мүмкін.[26] [27] шығарындыларды анықтауға арналған сандық деректер әдістерін қате енгізу ықтималдығы жоғары болып көрінетін деректерді жою үшін қолдануға болады.[28] қате терілген сөздердің санын азайту үшін мәтіндік деректердің емлесін тексеруге болады. Алайда, сөздердің дұрыс екенін анықтау қиынырақ.[29] 15 слайд. Модельдеу және алгоритмдер Айнымалылар арасындағы қатынасты анықтау үшін деректерге математикалық формулалар немесе модельдер (Алгоритмдер деп аталады) қолданылуы мүмкін; мысалы, корреляцияны немесе себептік байланысты қолдану арқылы.[34][35] жалпы алғанда, модельдер белгілі бір айнымалыны мәліметтер жиынтығындағы басқа айнымалыларға сүйене отырып, іске асырылған модельдің дәлдігіне байланысты белгілі бір қалдық қатемен бағалау үшін жасалуы мүмкін (мысалы, деректер = Модель + қате).[36][11] Выводная статистика қамтиды әдістерін пайдалану, олар өлшейді арасындағы өзара байланысты нақты айнымалы.[37] мысалы, регрессиялық талдауды жарнамадағы өзгеріс (тәуелсіз айнымалы X) сатылымдағы өзгерістерге түсініктеме беретіндігін модельдеу үшін қолдануға болады (тәуелді айнымалы Y).[38] математикалық тұрғыдан алғанда, Y (сату) - x функциясы (жарнама).[39] оны сипаттауға болады (Y = aX + b + қате), модель (A) және (b) модель X мәндерінің берілген диапазоны үшін Y болжаған кезде қатені азайтуға арналған жерде[40] аналитиктер сонымен қатар талдау мен нәтижелерді беруді жеңілдету үшін деректерді сипаттайтын модельдерді құруға тырысуы мүмкін.[11] 16 слайд. Деректер өнімі Деректерді өңдеу өнімі-бұл кірістерді қабылдайтын және оларды қоршаған ортаға қайта жіберу арқылы шығыс деректерін жасайтын компьютерлік бағдарлама.[41] ол модельге немесе алгоритмге негізделуі мүмкін. Мысалы, клиенттердің сатып алу тарихы туралы деректерді талдайтын және нәтижелерді тұтынушы ұнатуы мүмкін басқа сатып алуларды ұсыну үшін пайдаланатын бағдарлама. 17слайд. Қарым-қатынас Деректер талданғаннан кейін оларды талдау пайдаланушыларына олардың талаптарына сәйкес көптеген форматта ұсынуға болады.[44] пайдаланушыларда кері байланыс болуы мүмкін, бұл қосымша талдауға әкеледі. Осылайша, аналитикалық циклдің көп бөлігі итеративті болып табылады.[13] Нәтижелерді қалай жеткізу керектігін анықтай отырып, талдаушы аудиторияға хабарламаны неғұрлым нақты және тиімді жеткізуге көмектесетін деректерді визуализациялаудың әртүрлі әдістерін енгізуді қарастыруы мүмкін.[45] деректерді визуализациялау деректердің негізгі хабарламаларын жеткізуге көмектесу үшін ақпараттық дисплейлерді (кестелер мен диаграммалар сияқты графикалық суреттер) пайдаланады.[46] кестелер құнды құрал болып табылады, өйткені олар қолданушыға нақты сандарды сұрауға және фокустауға мүмкіндік береді; ал диаграммалар (мысалы, Бағаналы диаграммалар немесе сызықтық диаграммалар) деректердегі сандық хабарламаларды түсіндіруге көмектеседі.[47] |