Unachohitaji kujua kuhusu Filtering Bayesian Spam

Pata maelezo jinsi takwimu zinavyosaidia kusafisha kikasha chako

Wafutaji wa taka wa Bayesian huhesabu uwezekano wa ujumbe kuwa spam kulingana na yaliyomo yake. Tofauti na filters zilizo na maudhui rahisi, kuchuja spam ya Bayesian hujifunza kutokana na barua taka na kutoka barua pepe nzuri, na kusababisha njia nzuri sana ya kupambana na spam ambayo inafaa zaidi, inarudi kwa urahisi yoyote ya uongo.

Unajuaje barua pepe ya Junk?

Fikiria jinsi unavyogundua spam . Mtazamo wa haraka ni mara nyingi kutosha. Unajua nini spam inaonekana, na unajua barua nzuri inaonekana kama.

Uwezekano wa spam kuangalia kama barua nzuri ni karibu ... sifuri.

Kuchora Filters-Based Based Sio Adapt

Je, haiwezi kuwa nzuri kama filters za spam za moja kwa moja zilifanya kazi kama hiyo, pia?

Kuweka vichujio vya spam vya msingi vinajaribu tu. Wanatafuta maneno na sifa zingine za kawaida za spam. Kipengele chochote cha sifa kinapewa alama, na alama ya barua taka ya ujumbe wote inachambuliwa kutoka kwa alama za kibinafsi. Baadhi ya filters pia huangalia sifa za barua halali, kupunguza alama ya mwisho ya ujumbe.

Njia ya filters ya bao inafanya kazi, lakini pia ina vikwazo kadhaa:

Wafanyabiashara wa Spam wa Bayesian Wenyewe Wenyewe, Kupata Bora na Bora

Wafutaji wa spam wa Bayesian ni aina ya kufuta filters inayotokana na maudhui, pia. Mtazamo wao unaondoa matatizo ya filters rahisi za bao, hata hivyo, na hufanya hivyo kwa kiasi kikubwa. Kwa kuwa udhaifu wa filters ya alama ni katika orodha ya kujengwa yenye sifa na alama zao, orodha hii imefutwa.

Badala yake, filters ya Bayesian spam hujenga orodha yenyewe. Kwa kweli, unaanza na (kubwa) kundi la barua pepe ulizoweka kama spam, na kundi lingine la barua nzuri. Wafuta huangalia wote na kuchambua barua ya halali pamoja na barua taka ili kuhesabu uwezekano wa sifa mbalimbali zinazoonekana kwenye spam, na katika barua nzuri.

Jinsi Filamu ya Spam ya Bayesian Inatafuta Email

Tabia chujio cha spam ya Bayesian kinaweza kutazama inaweza kuwa:

Ikiwa neno, "Cartesian" kwa mfano, halijaonekana kamwe kwenye spam lakini mara nyingi katika barua pepe halali unayopokea, uwezekano wa kuwa "Cartesian" unaonyesha spamu iko karibu na sifuri. "Toner", kwa upande mwingine, inaonekana peke yake, na mara nyingi, katika spam. "Toner" ina uwezekano mkubwa sana wa kupatikana katika spam, si chini ya 1 (100%).

Ujumbe mpya unapokuja, unachambuliwa na filter ya Bayesian spam, na uwezekano wa ujumbe kamili kuwa spam huhesabiwa kwa kutumia sifa za kibinafsi.

Fanya ujumbe una wote "Cartesian" na "toner". Kutoka kwa maneno haya peke yake bado haijulikani ikiwa tuna spamu au barua ya hatia. Tabia nyingine (kwa matumaini na pengine) zinaonyesha uwezekano ambao inaruhusu chujio kuainisha ujumbe kama barua taka au barua nzuri.

Filesi za Spam za Bayesian zinaweza kujifunza kwa moja kwa moja

Sasa kwa kuwa tuna uainishaji, ujumbe unaweza kutumika kutumikia chujio yenyewe zaidi. Katika kesi hii, ama uwezekano wa "Cartesian" unaonyesha barua nzuri inapungua (ikiwa ujumbe unao na "Cartesian" na "toner" huonekana kuwa spam), au uwezekano wa "toner" unaoonyesha spamu lazima upatanishwe.

Kutumia mbinu hii ya auto-adaptive, filters za Bayesian zinaweza kujifunza kutokana na maamuzi yao wenyewe na ya mtumiaji (ikiwa yeye hutengeneza kwa njia ya makosa kwa vijidudu). Kubadilika kwa kuchuja Bayesian pia kunahakikisha kuwa ni bora kwa mtumiaji binafsi wa barua pepe. Wakati spam ya watu wengi inaweza kuwa na sifa zinazofanana, barua ya halali ina tabia tofauti kwa kila mtu.

Je, Spammers Inawezaje Kupata Vidokezo vya zamani vya Bayesian?

Tabia ya barua ya halali ni muhimu tu kwa mchakato wa kuchuja wa spam ya Bayesian kama spam. Ikiwa vichujio vimefundishwa mahsusi kwa kila mtumiaji, spammers watakuwa na wakati ngumu zaidi kufanya kazi karibu na kila mtu (au hata watu wengi) filters spam, na filters inaweza kukabiliana na karibu kila kitu spammers kujaribu.

Spammers itafanya tu kuwa na filters zilizofundishwa vizuri za Bayesian ikiwa zinafanya ujumbe wao wa spam uangalie kikamilifu kama barua pepe ya kawaida kila mtu anayeweza kupata.

Spammers hawatumii barua pepe za kawaida kama kawaida. Hebu tufikiri hii ni kwa sababu barua pepe hizi hazifanyi kazi kama barua pepe ya junk. Kwa hiyo, nafasi zao hazitakufanya wakati wa barua pepe za kawaida, zenye boring ndiyo njia pekee ya kuifanya filters zilizopita za zamani.

Ikiwa spammers hubadilika kwenye barua pepe za kawaida, hata hivyo, tutaona spam nyingi kwenye Inboxes zetu tena, na barua pepe inaweza kuwa mbaya kama ilivyokuwa siku za kabla ya Bayesian (au mbaya zaidi). Pia itakuwa imesababisha soko kwa aina nyingi za spam, ingawa, na hivyo haitaishi kwa muda mrefu.

Viashiria vikali Inaweza kuwa Filters ya Spam ya Bayesian & Achill & # 39; s Achilles & # 39; Kisigino

Upungufu mmoja unaweza kutambuliwa kwa spammers kufanya kazi yao kwa njia ya filters Bayesian hata kwa maudhui yao ya kawaida. Ni katika hali ya takwimu za Bayesian kwamba neno moja au tabia ambayo huonekana mara kwa mara katika barua nzuri inaweza kuwa muhimu sana kugeuza ujumbe wowote kutoka kwa kuangalia kama spam ili kuhesabiwa kama ham na kichujio.

Ikiwa spammers wanapata njia ya kuamua maneno yako ya barua pepe ya uhakika-kwa kutumia risiti za kurejesha HTML ili kuona ujumbe ulioufungua, kwa mfano-, wanaweza kuingiza mmoja wao kwenye barua pepe isiyo na jukumu na kukufikia hata kupitia vizuri- chuo kikuu cha Bayesian.

John Graham-Cumming amejaribu hili kwa kuruhusu filters mbili za Bayesian zifanane dhidi ya kila mmoja, moja "mbaya" yanayofanana na ujumbe unaopatikana kupata kupitia filter "nzuri". Anasema inafanya kazi, ingawa mchakato huo unatumia muda na unaojumuisha. Hatufikiri tutaona mengi ya haya yanayotokea, angalau si kwa kiwango kikubwa, na sio sahihi kwa sifa za barua pepe za kibinadamu. Spammers wanaweza (jaribu) kufikiri baadhi ya maneno muhimu kwa mashirika (kitu kama "Almaden" kwa watu wengine katika IBM labda?) Badala yake.

Kawaida, spam itakuwa (kwa kiasi kikubwa) tofauti na barua ya kawaida au haitakuwa spam, ingawa.

Chini ya Chini: Nguvu za Bayesian Filtering & # 39; s Inaweza kuwa dhaifu

Wafutaji wa spam wa Bayesian ni filters inayotokana na maudhui ambayo: