Bayesiyalik spam-filtrlash haqida bilishingiz kerak bo'lgan narsalar

by Heinz Tschabitscher

Statistika sizning kutubxonangizni toza saqlashga qanday yordam berishini bilib oling

Bayesiyalik spam-filtrlar xabarning tarkibiga qarab spam bo'lish ehtimolini hisoblashadi. Oddiy kontentga asoslangan filtrlardan farqli o'laroq, Bayesian spam-filtrlash spamlardan va yaxshi xatlarni o'rganadi, natijada juda kuchli, moslashuvchan va samarali spamga qarshi yondashuv, eng muhimi, hech qanday noto'g'ri pozitsiyani qaytaradi.

Muhim bo'lmagan xatlarni qanday taniysiz?

Spamni qanday aniqlayotganingizni o'ylab ko'ring. Ko'pincha tezkor qarashlar etarli. Siz spamning nimaga o'xshashligini bilasiz va yaxshi pochta qanday ko'rinishini bilasiz.

Yaxshi mailga o'xshash spamning ehtimoli atrofida ... nol.

Kontent-asosidagi filtrlarni baholash mos emas

Avtomatik spam-filtrlar ham shunga o'xshash ish qilsa yaxshi bo'lmaydimi?

Kontentga asoslangan spam-filtrlarni baholab, uni sinab ko'ring. Spamga xos bo'lgan so'zlar va boshqa xususiyatlarni qidirishadi. Har bir xarakterli elementga ball beriladi va barcha xabar uchun spam-balllar alohida balllardan hisoblanadi. Ba'zi balli filtrlar shuningdek, xabarning yakuniy skorini tushirib, qonuniy pochta xarakteristikalarini tekshirishadi.

Skor filterlari yondashuvi ishlaydi, lekin u ham bir nechta kamchiliklarga ega:

Funktsiyalar ro'yxati filtr muhandislariga mavjud bo'lgan spam (va yaxshi pochta) dan tuzilgan. Odatda spamni yaxshi bilish uchun har bir kishi pochta orqali yuzlab elektron pochta manzillarida to'planishi kerak. Bu filtrlarning samaradorligini zaiflashtiradi, chunki yaxshi pochta xarakteristikasi har bir kishi uchun boshqacha bo'ladi , lekin bu e'tiborga olinmaydi.
Qidirib topilishi kerak bo'lgan xususiyatlar ko'proq yoki kamroq toshga o'rnatiladi . Agar spammerlar moslashishga harakat qilsalar (va ularning spam-filtrlarga yaxshi xabar sifatida qarashlariga to'g'ri kelsa), filtrlash xususiyatlarini qo'lda tweaked qilish kerak - bu juda katta kuch.
Har bir so'zga berilgan ball, ehtimol, yaxshi tahminlarga asoslanadi, lekin u o'zboshimchalik bilan. Xarakterlar ro'yxati kabi, u ham o'zgaruvchan spam dunyosiga, ham shaxsiy foydalanuvchining ehtiyojlariga moslashadi.

Bayesiyalik spam-filtrlar o'zlarini chiroyli qilib, yaxshiroq va yaxshiroq olishadi

Bayesiyalik spam-filtrlar ham kontent-asosidagi filtrlarni baholashning bir turidir. Ularning yondashuvi, oddiy spam-filtr filtrlari muammosini yo'qotib qo'yadi va u radikal tarzda amalga oshiriladi. Siqish filtrlarining zaifligi qo'lda mavjud bo'lgan xususiyatlar ro'yxatida va ularning ballarigacha bo'lganligi sababli ushbu ro'yxat o'chiriladi.

Buning o'rniga, Bayes spam filtrlari ro'yxatni o'zlari tashkil qiladi. Ideal holda siz spam sifatida tasniflangan (katta) elektron pochta xabarlari va boshqa yaxshi pochta jo'natmalari bilan boshlaysiz. Filtrlar spamda paydo bo'ladigan turli xarakteristikalar ehtimolligini va yaxshi xatlarni hisoblash uchun, ikkalasiga ham qaraydi va qonuniy pochta xabarlarini tekshiradi.

Bayesiyalik spam-filtri qanday qilib elektron pochta tekshiradi

Bayesiyalik spam-filtrga qarash mumkin bo'lgan xususiyatlar:

xabarning tanasidagi so'zlar, albatta, va
uning sarlavhalari (jo'natuvchilar va xabar yo'llari , misol uchun!), shuningdek
HTML / CSS kodi (ranglar va boshqa formatlash kabi) kabi boshqa jihatlar yoki hatto
so'z juftlari, jumlalar va
metan ma'lumoti (masalan, ma'lum bir jumla paydo bo'lganida).

Agar biror so'z, masalan, "kartezyen", spamda hech qachon paydo bo'lmasa ham, ko'pincha sizning qonuniy e-pochtangizda "Cartesian" spamni nolga yaqinligini ko'rsatadi. Boshqa tomondan, "Toner" faqatgina spamda va ko'pincha paydo bo'ladi. "Toner" spamda topilishi ehtimoli juda yuqori, 1 (100%) kam emas.

Yangi xabar kelganda, Bayes spam-filtrlari tomonidan tahlil qilinadi va to'liq xabarning spam bo'lish ehtimoli alohida xususiyatlar yordamida hisoblab chiqiladi.

Xabarlarda "Cartesian" va "toner" ham borligini tasavvur qiling. Bu so'zlardan yolg'iz spam yoki qonuniy xat bor-yo'qligi hali aniq emas. Boshqa xususiyatlar (umid qilamanki va ehtimol ehtimol) bu xabarni spam yoki yaxshi pochta deb tasniflash imkonini beradigan ehtimolni ko'rsatadi.

Bayesiyalik spam-filtrlari avtomatik o'rganish mumkin

Endi tasnifimizga ega bo'lsak, xabarni filtrni yanada ko'proq o'qitish uchun ishlatish mumkin. Bu holda, yaxshi postlarni ko'rsatadigan "kartezyen" ehtimolligi ("Kartezyen" va "toner" spam bo'lgan xabar bo'lsa) yoki spamni ko'rsatuvchi "toner" ehtimoli qayta ko'rib chiqilishi kerak.

Ushbu avto-adaptiv texnikani qo'llash orqali, Bayes filtrlari o'zlari va foydalanuvchining qarorlaridan (agar u filtrlar tomonidan noto'g'ri qarorlarni tuzatmoqchi bo'lsa) o'rganishi mumkin. Bayes filtrlashning moslashuvchanligi, shuningdek, ular shaxsiy elektron pochta foydalanuvchisi uchun ham eng samarali ekanligiga ishonch hosil qiladi. Ko'pgina odam spamining o'xshash xususiyatlarga ega bo'lishi mumkin bo'lsa-da, qonuniy pochta har kimga xosdir.

Spamerlar o'tgan Bayes filtrlarini qanday olishlari mumkin?

Pochta xabarlarining xarakteristikalari spam-shakl sifatida Bayeziy spam-filtrlash jarayoni uchun juda muhim. Filtrlar har bir foydalanuvchi uchun maxsus tayyorlangan bo'lsa, spamerlar har bir odamning (yoki hatto ko'pchilik odamlarning) spam-filtrlari atrofida ishlaydigan qiyinroq vaqtga ega bo'ladi va filtrlar spam-xarakatlarning deyarli har biriga moslasha oladi.

Spam-jo'natuvchilar, faqat spam-xabarlarni oddiy elektron pochtaga o'xshab ko'rinadigan bo'lsa, uni yaxshi tarbiyalangan Bayes filtrlaridan o'tkazadilar.

Spammerlar odatda bunday oddiy elektron pochta xabarlarini yubormaydilar. Buni ko'rib chiqaylik, chunki bu elektron pochta xatlar elektron pochta orqali ishlamaydi. Shunday qilib, oddiy, zerikarli elektron pochta xabarlari spam-filtrlarni o'tkazib yuboradigan yagona usul bo'lsa, ular buni qilmaydi.

Agar spammerlar odatiy ko'rinadigan e-pochtalarga o'tadigan bo'lsa, biz yana Inbox'larimizda spamlarni ko'p ko'ramiz va e-pochta Bayesiyadan oldin (yoki bundan ham yomonroq) bo'lganidek, asab solishi ham mumkin. Bundan tashqari, spamning ko'pgina turlari uchun bozorni buzgan bo'ladi va shu bilan uzoq davom etmaydi.

Kuchli ko'rsatkichlar Bayesiyalik spam-filtr bo'lishi mumkin Axilles & # 39; Heel

Spamerlarga Bayes filtrlari orqali odatdagi kontentlari bilan ishlashga harakat qilishlari mumkin. Bayes statistikasiga ko'ra, yaxshi xabarda tez-tez uchraydigan so'z yoki xarakterli spamga o'xshash biron bir xabarni filtri tomonidan baholanishi uchun juda katta ahamiyatga ega bo'lishi mumkin.

Agar spammerlar o'zingizning ishonchli pochta qutingizdagi so'zlarni aniqlash uchun yo'l topsalar , masalan siz ochgan xabarlarni ko'rish uchun HTML qaytiknomalaridan foydalanib, ulardan bittasini arzimas pochta orqali kiritib, Bayes filtrini o'rgatdi.

John Graham-Cumming bu ikkita Bayes filtrlarini bir-biriga qarshi ishlashga harakat qilib, "yaxshi" filtr orqali xabarlarni qabul qilish uchun moslangan "yomon" odamni sinab ko'rdi. Uning aytishicha, u ishlaydi, garchi bu jarayon ko'p vaqt talab qiladigan va murakkab bo'lsa. Biz bu voqealarning aksariyatini, hech bo'lmaganda katta miqyosda ko'rib chiqamiz va odamlarning elektron pochta xarakteristikalariga mos kelmasligini bilmaymiz. Spammers (ba'zi bir kishilar uchun "Almaden" kabi ba'zi narsalar uchun tashkilotlar uchun ba'zi kalit so'zlarni aniqlab olish mumkin).

Odatda, spam doimo muntazam pochta orqali farq qiladi yoki spam bo'lmaydi.

Bottom tuhfa: Bayes filtrlash kuchsizligi zaif bo'lishi mumkin

Bayesiyalik spam-filtrlar kontent-asosidagi filtrlardir :

maxsus spam-pochtani va yaxshi xatlarni tanib olish uchun spam-spamerlarga yuqori darajada samarali va qiyin sharoitlarni yaratish uchun maxsus tayyorlangan.
uzluksiz va ko'p harakat yoki qo'lda tahlil qilmasdan spamerlarning so'nggi fokuslariga moslasha oladi .
foydalanuvchining yaxshi xatini hisobga olish va juda kam miqdorda noto'g'ri pozitsiyaga ega bo'lish .
Afsuski, bu Bayes josuslariga qarshi spam filtrlariga bo'lgan ishonchni keltirib chiqarsa, bu xatolik yanada jiddiyroq . Noto'g'ri negativlarning teskari ta'sirlari (muntazam pochta kabi ko'rinadigan spam) foydalanuvchini bezovta qilish va foydalanuvchilarni ag'darish potentsialiga ega.