K-kümeleme nimani anglatadi?

K-vositalaridan ma'lumotlarni yig'ish algoritmi

K- kümeleme algoritması, bu munosabatlar haqida biron-bir ma'lumotga ega bo'lmasdan, kuzatuvlar guruhlar bilan bog'liq kuzatuvlarga klasterlash uchun foydalaniladigan ma'lumotni ishlab chiqarish va kompyuterni o'rganish vositasidir. Namuna olish yo'li bilan algoritm ma'lumotlarning qaysi kategoriyasida yoki klasterga tegishli ekanligini ko'rsatishga urinadi, k qiymatlari bilan belgilangan klasterlar soni bilan .

K- algoritmi eng oddiy klasterlash usullaridan biri bo'lib, u ko'pincha tibbiy tasvirlash, biometrik va boshqa sohalarda qo'llaniladi. K- kümelemenin afzalligi shundaki, u sizning boshingizdagi ma'lumotlar (algoritmning boshqariladigan shaklidan foydalangan holda) haqida algoritmni ko'rsatmasdan turib, sizning ma'lumotlaringiz haqida ma'lumot beradi (uning nazorat qilinmagan shaklidan foydalaniladi).

Ba'zida Lloyd's Algoritm deb ataladi, ayniqsa, kompyuter fanlari doiralarida, chunki standart algoritm birinchi bo'lib Stuart Loyd tomonidan 1957 yilda taklif qilingan. "K-vositasi" 1967 yilda Jeyms MakKyuen tomonidan ishlab chiqilgan.

K-vositasi Algoritm vazifalari

K- algoritmi uning nomini operatsion usulidan olgan evolyutsion algoritmdir. Algoritm klasterlarining k guruhlari bo'yicha kuzatishlar, bu erda k parametrlari kirish parametri sifatida taqdim etiladi. Keyin kuzatishning klasterning o'rtacha qiymatiga yaqinligi asosida har bir kuzatish klasterlarga beriladi. Klasterning o'rtacha qiymati qayta ishlanadi va jarayon qayta boshlanadi. Algoritm qanday ishlaydi:

  1. Algoritm boshlang'ich klient markazlari (vositalar) sifatida k nuqtalarini o'zboshimchalik bilan tanlaydi.
  2. Ma'lumotlar to'plamidagi har bir nuqta yopiq klasterga, har bir nuqta va har bir klaster markazi o'rtasidagi Ouklidlar masofasidan asoslangan.
  3. Har bir klaster markazi ushbu klasterdagi ballarning o'rtacha qiymatiga ko'ra qayta ishlanadi.
  4. 2 va 3-qadamlar klasterlar yaqinlashgunga qadar takrorlang. Konvergensiya dasturga bog'liq holda boshqacha tarzda aniqlanishi mumkin, lekin odatda, 2 yoki 3-qadamlar takrorlanganida yoki hech qanday o'zgarish klasterlar tavsifida moddiy farqi yo'qligini hisobga olgan holda hech qanday kuzatishlar klasterlarni o'zgartirmaydi.

Klasterlar sonini tanlash

K- ning asosiy kamchiliklaridan biri kümelenme degani, algoritmga kirish sifatida kümelenmeler sonini belgilashingiz kerak. Loyihalashtirilganidek, algoritm muvofiq guruhlar sonini aniqlashga imkon bermaydi va foydalanuvchini oldindan aniqlashga bog'liq.

Misol uchun, erkak yoki ayol sifatida o'zaro jinsiy identifikatsiya asosida klasterga olingan bir guruh odamlar bo'lsa, k = 3 usuli yordamida k - algoritmini chaqirib, odamlarni faqat ikkita guruhga yoki uchta guruhga k = 2 ning kiritilishi tabiiy muhitga ko'proq mos keladi.

Xuddi shunday, agar bir guruh odamlar osonlikcha uy sharoitiga asoslanib kümelenmişler va k = 20 usuli bilan k - vosita algoritması deb nom olgan bo'lsangiz, natijalar samarali bo'lishi uchun juda umumiy bo'lishi mumkin.

Shuning uchun ma'lumotlaringizni mos keladigan qiymatni aniqlash uchun har xil k qiymatlari bilan tajriba o'tkazish odatda yaxshi bo'ladi. Bundan tashqari, kompyuter ma'lumotlarini o'rganish uchun boshqa ma'lumotlarni yig'ish algoritmlaridan foydalanishni ham o'rganishingiz mumkin.