Ma'lumotlarni konida tasniflash

Tasnifi - aniqroq bashoratlar va tahlillarni amalga oshirish uchun ma'lumotlarni yig'ish toifalarini tayinlaydigan ma'lumotlarni yig'ish usuli. Ba'zida " Decision Tree" deb ham ataladi, tasniflash juda katta ma'lumotlar to'plamini samarali tahlil qilish uchun mo'ljallangan bir necha uslublardan biridir.

Nima uchun tasniflash kerak?

Juda katta ma'lumotlar bazalari bugungi kunda "katta ma'lumot" larda normaga aylanmoqda. Ko'p terabaytli ma'lumotlar bilan ma'lumotlar bazasini tasavvur qiling - terabayt - bir trillion bayt ma'lumotlar.

Facebook faqat har kuni 600 terabayt yangi ma'lumotni tarqatib yubordi (2014 yildan boshlab, oxirgi marta ushbu xususiyatlar haqida xabar bergan). Katta ma'lumotlarning asosiy muammo - uni qanday tushunish kerakligi.

Va juda katta hajmli ma'lumotlarning o'zi bir muammo emas: katta ma'lumotlar ham turli xil, tuzilmas va tez o'zgaruvchan bo'lishga intiladi. Audio va video ma'lumotlarini, ijtimoiy media postlarini, 3D ma'lumotlarini yoki geografik ma'lumotlarni ko'rib chiqing. Ushbu turdagi ma'lumotlar osongina tasniflanmagan yoki tartibga solinmagan.

Ushbu muammolarni bartaraf etish uchun foydali axborotlarni olish uchun bir qator avtomatlashtirilgan usullar ishlab chiqildi, ular orasida tasniflash mavjud .

Qanday tasniflanadi

Texnologiyalar haqida gapirishga juda iloji boricha, tasniflashning qanday ishlashini ko'rib chiqaylik. Maqsad, savolga javob berish, qaror qabul qilish yoki xatti-harakatni bashorat qiladigan bir qator tasniflash qoidalarini yaratishdir. Boshlash uchun ma'lum bir atributlar to'plami va ehtimol natija o'z ichiga olgan ta'lim ma'lumotlari to'plami ishlab chiqilgan.

Tasniflash algoritmining ishi - bu atributlarning to'plami qanday yakunlanishiga erishishdir.

Stsenariy : Ehtimol, kredit karta kompaniyasi qaysi istiqbollarga kredit karta taklifini olishi kerakligini aniqlashga harakat qilmoqda.

Bu uning ta'lim ma'lumotlari to'plami bo'lishi mumkin:

Ta'lim ma'lumoti
Ism Yoshi Jins Yillik daromad Kredit karta taklifi
Jon Doe 25 M $ 39,500 Yo'q
Jane Doe 56 F $ 125,000 Ha

Yoshi , jinsi va yillik daromadi "tahmin qiluvchi" ustunlar " kredit karta taklifi " ning "taxminiy xususiyati" qiymatini aniqlaydi. Ta'lim majmui ichida predictor xususiyati ma'lum. Keyinchalik tasniflash algoritmi predictor ko'rsatkichining qiymatiga qanday erishilganligini aniqlashga harakat qiladi: predictor va qaror o'rtasida qanday munosabatlar mavjud? Odatda, IF / THEN ifodasi, masalan, quyidagi taxminiy qoidalarni ishlab chiqadi:

IF (YaNGI> 18 YA YaQ <75) va Yillik daromad> 40,000 dan so'ng Kredit karta taklifi = ha

Shubhasiz, bu oddiy misoldir va algoritm bu erda ko'rsatilgan ikkita yozuvdan ko'ra ancha katta ma'lumotlar namunasiga muhtoj bo'ladi. Bundan tashqari, bashorat qilish qoidalari, xususan, tafsilotlarni ta'qib qilishning quyi qoidalarini ham o'z ichiga oladi.

Keyinchalik, algoritmga tahlil qilish uchun ma'lumotlarning "bashorat qilish to'plami" beriladi, ammo bu belgilanadigan predmet xususiyati (yoki qaror) yo'q:

Predictor Data
Ism Yoshi Jins Yillik daromad Kredit karta taklifi
Jek Frost 42 M $ 88,000
Meri Murray 16 F $ 0

Ushbu taxminiy ma'lumotlar bashorat qoidalarining aniqligini baholashga yordam beradi va qoidalar ishlab chiquvchi bashoratlarni foydali va foydali deb hisoblmaguncha, keyinchalik tweaked.

Kundalik tasniflash misollari

Tasniflash va boshqa ma'lumotlarni yig'ish metodlari iste'molchi sifatida bizning kunlik tajribamizning aksar qismida.

Ob-havo bashoratlari kunning yomg'irli, quyoshli yoki bulutli bo'lishi haqida xabar berish uchun tasniflardan foydalanishlari mumkin. Tibbiyot sohasi mutaxassislari tibbiyot natijalarini oldindan aniqlash uchun sog'liqni saqlash sharoitlarini tahlil qilishlari mumkin. Naif Bayesian tasniflashning bir turi, spam-elektron pochtalarini tasniflash uchun shartli ehtimoldan foydalanadi. Firibgarliklarni aniqlashdan mahsulotga takliflarni berishdan boshlab, tasniflash kundan-kunga ma'lumotni tahlil qiladi va prognozlarni ishlab chiqaradi.