Bayesiyalik spam-filtrlash haqida bilishingiz kerak bo'lgan narsalar

Statistika sizning kutubxonangizni toza saqlashga qanday yordam berishini bilib oling

Bayesiyalik spam-filtrlar xabarning tarkibiga qarab spam bo'lish ehtimolini hisoblashadi. Oddiy kontentga asoslangan filtrlardan farqli o'laroq, Bayesian spam-filtrlash spamlardan va yaxshi xatlarni o'rganadi, natijada juda kuchli, moslashuvchan va samarali spamga qarshi yondashuv, eng muhimi, hech qanday noto'g'ri pozitsiyani qaytaradi.

Muhim bo'lmagan xatlarni qanday taniysiz?

Spamni qanday aniqlayotganingizni o'ylab ko'ring. Ko'pincha tezkor qarashlar etarli. Siz spamning nimaga o'xshashligini bilasiz va yaxshi pochta qanday ko'rinishini bilasiz.

Yaxshi mailga o'xshash spamning ehtimoli atrofida ... nol.

Kontent-asosidagi filtrlarni baholash mos emas

Avtomatik spam-filtrlar ham shunga o'xshash ish qilsa yaxshi bo'lmaydimi?

Kontentga asoslangan spam-filtrlarni baholab, uni sinab ko'ring. Spamga xos bo'lgan so'zlar va boshqa xususiyatlarni qidirishadi. Har bir xarakterli elementga ball beriladi va barcha xabar uchun spam-balllar alohida balllardan hisoblanadi. Ba'zi balli filtrlar shuningdek, xabarning yakuniy skorini tushirib, qonuniy pochta xarakteristikalarini tekshirishadi.

Skor filterlari yondashuvi ishlaydi, lekin u ham bir nechta kamchiliklarga ega:

Bayesiyalik spam-filtrlar o'zlarini chiroyli qilib, yaxshiroq va yaxshiroq olishadi

Bayesiyalik spam-filtrlar ham kontent-asosidagi filtrlarni baholashning bir turidir. Ularning yondashuvi, oddiy spam-filtr filtrlari muammosini yo'qotib qo'yadi va u radikal tarzda amalga oshiriladi. Siqish filtrlarining zaifligi qo'lda mavjud bo'lgan xususiyatlar ro'yxatida va ularning ballarigacha bo'lganligi sababli ushbu ro'yxat o'chiriladi.

Buning o'rniga, Bayes spam filtrlari ro'yxatni o'zlari tashkil qiladi. Ideal holda siz spam sifatida tasniflangan (katta) elektron pochta xabarlari va boshqa yaxshi pochta jo'natmalari bilan boshlaysiz. Filtrlar spamda paydo bo'ladigan turli xarakteristikalar ehtimolligini va yaxshi xatlarni hisoblash uchun, ikkalasiga ham qaraydi va qonuniy pochta xabarlarini tekshiradi.

Bayesiyalik spam-filtri qanday qilib elektron pochta tekshiradi

Bayesiyalik spam-filtrga qarash mumkin bo'lgan xususiyatlar:

Agar biror so'z, masalan, "kartezyen", spamda hech qachon paydo bo'lmasa ham, ko'pincha sizning qonuniy e-pochtangizda "Cartesian" spamni nolga yaqinligini ko'rsatadi. Boshqa tomondan, "Toner" faqatgina spamda va ko'pincha paydo bo'ladi. "Toner" spamda topilishi ehtimoli juda yuqori, 1 (100%) kam emas.

Yangi xabar kelganda, Bayes spam-filtrlari tomonidan tahlil qilinadi va to'liq xabarning spam bo'lish ehtimoli alohida xususiyatlar yordamida hisoblab chiqiladi.

Xabarlarda "Cartesian" va "toner" ham borligini tasavvur qiling. Bu so'zlardan yolg'iz spam yoki qonuniy xat bor-yo'qligi hali aniq emas. Boshqa xususiyatlar (umid qilamanki va ehtimol ehtimol) bu xabarni spam yoki yaxshi pochta deb tasniflash imkonini beradigan ehtimolni ko'rsatadi.

Bayesiyalik spam-filtrlari avtomatik o'rganish mumkin

Endi tasnifimizga ega bo'lsak, xabarni filtrni yanada ko'proq o'qitish uchun ishlatish mumkin. Bu holda, yaxshi postlarni ko'rsatadigan "kartezyen" ehtimolligi ("Kartezyen" va "toner" spam bo'lgan xabar bo'lsa) yoki spamni ko'rsatuvchi "toner" ehtimoli qayta ko'rib chiqilishi kerak.

Ushbu avto-adaptiv texnikani qo'llash orqali, Bayes filtrlari o'zlari va foydalanuvchining qarorlaridan (agar u filtrlar tomonidan noto'g'ri qarorlarni tuzatmoqchi bo'lsa) o'rganishi mumkin. Bayes filtrlashning moslashuvchanligi, shuningdek, ular shaxsiy elektron pochta foydalanuvchisi uchun ham eng samarali ekanligiga ishonch hosil qiladi. Ko'pgina odam spamining o'xshash xususiyatlarga ega bo'lishi mumkin bo'lsa-da, qonuniy pochta har kimga xosdir.

Spamerlar o'tgan Bayes filtrlarini qanday olishlari mumkin?

Pochta xabarlarining xarakteristikalari spam-shakl sifatida Bayeziy spam-filtrlash jarayoni uchun juda muhim. Filtrlar har bir foydalanuvchi uchun maxsus tayyorlangan bo'lsa, spamerlar har bir odamning (yoki hatto ko'pchilik odamlarning) spam-filtrlari atrofida ishlaydigan qiyinroq vaqtga ega bo'ladi va filtrlar spam-xarakatlarning deyarli har biriga moslasha oladi.

Spam-jo'natuvchilar, faqat spam-xabarlarni oddiy elektron pochtaga o'xshab ko'rinadigan bo'lsa, uni yaxshi tarbiyalangan Bayes filtrlaridan o'tkazadilar.

Spammerlar odatda bunday oddiy elektron pochta xabarlarini yubormaydilar. Buni ko'rib chiqaylik, chunki bu elektron pochta xatlar elektron pochta orqali ishlamaydi. Shunday qilib, oddiy, zerikarli elektron pochta xabarlari spam-filtrlarni o'tkazib yuboradigan yagona usul bo'lsa, ular buni qilmaydi.

Agar spammerlar odatiy ko'rinadigan e-pochtalarga o'tadigan bo'lsa, biz yana Inbox'larimizda spamlarni ko'p ko'ramiz va e-pochta Bayesiyadan oldin (yoki bundan ham yomonroq) bo'lganidek, asab solishi ham mumkin. Bundan tashqari, spamning ko'pgina turlari uchun bozorni buzgan bo'ladi va shu bilan uzoq davom etmaydi.

Kuchli ko'rsatkichlar Bayesiyalik spam-filtr bo'lishi mumkin Axilles & # 39; Heel

Spamerlarga Bayes filtrlari orqali odatdagi kontentlari bilan ishlashga harakat qilishlari mumkin. Bayes statistikasiga ko'ra, yaxshi xabarda tez-tez uchraydigan so'z yoki xarakterli spamga o'xshash biron bir xabarni filtri tomonidan baholanishi uchun juda katta ahamiyatga ega bo'lishi mumkin.

Agar spammerlar o'zingizning ishonchli pochta qutingizdagi so'zlarni aniqlash uchun yo'l topsalar , masalan siz ochgan xabarlarni ko'rish uchun HTML qaytiknomalaridan foydalanib, ulardan bittasini arzimas pochta orqali kiritib, Bayes filtrini o'rgatdi.

John Graham-Cumming bu ikkita Bayes filtrlarini bir-biriga qarshi ishlashga harakat qilib, "yaxshi" filtr orqali xabarlarni qabul qilish uchun moslangan "yomon" odamni sinab ko'rdi. Uning aytishicha, u ishlaydi, garchi bu jarayon ko'p vaqt talab qiladigan va murakkab bo'lsa. Biz bu voqealarning aksariyatini, hech bo'lmaganda katta miqyosda ko'rib chiqamiz va odamlarning elektron pochta xarakteristikalariga mos kelmasligini bilmaymiz. Spammers (ba'zi bir kishilar uchun "Almaden" kabi ba'zi narsalar uchun tashkilotlar uchun ba'zi kalit so'zlarni aniqlab olish mumkin).

Odatda, spam doimo muntazam pochta orqali farq qiladi yoki spam bo'lmaydi.

Bottom tuhfa: Bayes filtrlash kuchsizligi zaif bo'lishi mumkin

Bayesiyalik spam-filtrlar kontent-asosidagi filtrlardir :