Რა უნდა იცოდეთ Bayesian Spam ფილტრაციის შესახებ

by ჰაინც ცაბაბიცერი

შეიტყვეთ, თუ როგორ დაეხმარება სტატისტიკას ინახვას თქვენი შემომავალი სუფთა

Bayesian spam ფილტრები გამოთვალოთ ალბათობის გაგზავნა spam საფუძველზე მისი შინაარსი. განსხვავებით მარტივი შინაარსის დაფუძნებული ფილტრები, Bayesian spam ფილტრაცია გაიგებს spam და კარგი ფოსტა, რის შედეგადაც ძალიან ძლიერი, ადაპტირებისა და ეფექტური ანტი- spam მიდგომა, რომელიც, საუკეთესო ყოვლისა, ბრუნდება ძნელად რაიმე ცრუ პოზიტიური.

როგორ იცნობთ რუკის ელფოსტა?

იფიქრეთ იმაზე, თუ როგორ აღმოაჩენთ სპამს . სწრაფი შეგრძნება ხშირად საკმარისია. თქვენ იცით, რა სპამი ჰგავს და იცით, რა კარგი ელფოსტა ჰგავს.

სპამის მოსალოდნელი ალბათობა კარგი ელფოსტის გარშემოა ... ნულოვანია.

კონტენტის დაფუძნებული ფილტრების გატანა არ შემიძლია

არ იქნებოდა დიდი თუ ავტომატური სპამის ფილტრები მუშაობდა ასე, ძალიან?

სცენაზე დაფუძნებული სპამის ფილტრები გაიკეთეთ. ისინი ეძებენ სიტყვებს და სპამით დამახასიათებელ სხვა მახასიათებლებს. თითოეული დამახასიათებელი ელემენტი მინიჭებულია ქულაზე, ხოლო სპამის ინდივიდუალური ქულები გამოითვლება ინდივიდუალური ქულებისგან. ზოგიერთი გაიტანა ფილტრები ასევე ვეძებოთ მახასიათებლები ლეგიტიმური ფოსტა, ამცირებს გაგზავნა საბოლოო ანგარიშით.

გაიტანა ფილტრები მიდგომა მუშაობს, მაგრამ მას ასევე აქვს რამდენიმე ნაკლოვანებები:

სიაში მახასიათებლები აგებულია სპამისგან (და კარგი ფოსტა) ხელმისაწვდომი ფილტრის ინჟინრები. ტიპური სპამის კარგი დაჯგუფების მისაღებად ვინმემ შეიძლება მიიღოს, ფოსტა უნდა აგროვდეს ასობით ელექტრონული ფოსტის მისამართზე. ეს ხელს უშლის ფილტრების ეფექტურობას, განსაკუთრებით იმის გამო, რომ კარგი ფოსტის მახასიათებლები თითოეული ადამიანისთვის განსხვავდება , მაგრამ ეს არ არის გათვალისწინებული.
თვისებების ძიება მეტ-ნაკლებად დადგენილია ქვისგან . თუ სპამისერები ცდილობენ ადაპტირებისთვის (და მათი სპამის სახით საჩვენებელ ფილმებს), ფილტრაციის მახასიათებლები უნდა იყოს tweaked ხელით - უფრო დიდი ძალისხმევა.
თითოეული სიტყვისთვის მინიჭებული ანგარიში, ალბათ, კარგი შეფასებით ეფუძნება, მაგრამ მაინც თვითნებურია. ისევე, როგორც სიაში მახასიათებლები, იგი არ ადაპტირება არც შეცვლის სამყაროში სპამი ზოგადად და ინდივიდუალური მომხმარებლის მოთხოვნებს.

Bayesian Spam ფილტრები Tweak თავად, უკეთესობისკენ და უკეთესი

Bayesian spam ფილტრები არის ერთგვარი გაიტანა შინაარსი დაფუძნებული ფილტრები, ძალიან. მათი მიდგომა არღვევს სპამის ფილტრების მარტივი გაბმის პრობლემებს, თუმცა, ეს ასე რადიკალურად. მას შემდეგ, რაც სისუსტე გაიტანა ფილტრები არის ხელით აშენებული სია მახასიათებლები და მათი ქულები, ეს სია აღმოფხვრილი.

ამის ნაცვლად, Bayesian spam ფილტრები აშენება სია თავად. იდეალურ შემთხვევაში, თქვენ იწყებთ (დიდი) რამოდენიმე ელ-ფოსტის საშუალებით, რომლიდანაც თქვენ გაქვთ კლასიფიცირებული, როგორც სპამი და სხვა კარგი ელფოსტა. ფილტრები ორივე მიმოიხილავს და გაანალიზებენ ლეგიტიმურ ფოსტას, ასევე სპამს, რათა გაანგარიშებინათ სპამისგან განსხვავებული მახასიათებლების ალბათობა და კარგი ფოსტით.

როგორ ხდება Bayesian Spam Filter ელექტრონული ფოსტით

მახასიათებლები Bayesian spam filter შეიძლება შევხედოთ შეიძლება იყოს:

სიტყვები სხეულის გაგზავნა, რა თქმა უნდა, და
მისი სათაურები (გამომგზავნი და გზავნილის გზები , მაგალითად!), არამედ
სხვა ასპექტები, როგორიცაა HTML / CSS კოდი (როგორც ფერები და სხვა ფორმატირება), ან თუნდაც
სიტყვის წყვილები, ფრაზები და
მეტა ინფორმაცია (სადაც კონკრეტული ფრაზა ჩნდება, მაგალითად).

თუ სიტყვა "კარტიზიანი" მაგალითად, სპამში არ გამოჩნდება, მაგრამ ხშირად ლეგიტიმურ ელფოსტებში იღებთ, ალბათობა, რომ "კარტოზიელი" მიუთითებს სპამის სიახლოვეს. "ტონერი", მეორეს მხრივ, როგორც ჩანს, ექსკლუზიურად და ხშირად სპამში. "ტონერს" აქვს ძალიან მაღალი ალბათობა spam- ში, არა უმეტეს 1 (100%).

როდესაც ახალი შეტყობინება ჩამოდის, ის გაანალიზებულია Bayesian spam filter- ით და სპამის საანგარიშო გზავნილის ალბათობა გამოითვლება ინდივიდუალური მახასიათებლებით.

ვარაუდობენ, რომ შეტყობინება შეიცავს "კარტიესანს" და "ტონერს". ამ სიტყვებით მხოლოდ ის არ არის ნათელი, აქვს თუ არა სპამი ან ლეგიტიმური ფოსტა. სხვა მახასიათებლები (იმედია და სავარაუდოდ) მიუთითებს ალბათობას, რომელიც საშუალებას აძლევს ფილმს, როგორც სპამის ან კარგი ფოსტის კლასიფიცირება.

Bayesian Spam ფილტრები შეუძლია ისწავლოს ავტომატურად

ახლა, რომ ჩვენ გვაქვს კლასიფიკაცია, გაგზავნა შეიძლება გამოყენებულ იქნას მომზადება ფილტრი თავად შემდგომი. ამ შემთხვევაში, "კარტიესანის" ალბათობა აღინიშნება კარგი ფოსტით (თუ შეტყობინება "კარტიანი" და "ტონერი" შეიცავს სპამს) ან "ტონერის" ალბათობა უნდა გადახედეს.

ამ ავტომატური ადაპტური ტექნიკის გამოყენებით, Bayesian ფილტრები შეუძლიათ ისწავლონ ორივე და საკუთარი მომხმარებლის გადაწყვეტილებები (თუ მან ხელით შეასწორებს misjudgment მიერ ფილტრები). Bayesian ფილტრაციის adaptability ასევე დარწმუნებულია, რომ ისინი ყველაზე ეფექტური ინდივიდუალური ელ შესახებ. მიუხედავად იმისა, რომ ადამიანების უმრავლესობას სპამი შეიძლება ჰქონდეს მსგავსი მახასიათებლები, ლეგიტიმური წერილი დამახასიათებელია ყველასთვის.

როგორ შეიძლება სპამერებმა მიიღონ Bayesian ფილტრები?

ლეგიტიმური ფოსტის მახასიათებლები ისეთივე მნიშვნელოვანია, როგორც ბაიასური სპამის ფილტრაციის პროცესი, როგორც სპამი. თუ ფილტრები სპეციალურად მომზადებული არიან ყველა მომხმარებლისთვის, სპამისგან კიდევ უფრო გაართულებენ მუშაობას ყველას (ან თუნდაც ყველაზე ხალხის) სპამის ფილტრები და ფილტრები შეუძლიათ თითქმის ყველაფერს მოერგოს სპამისგან.

სპამერები გახდებიან კარგად გაწვრთნილი ბაიასური ფილტრები, თუ მათი სპამი შეტყობინებები სრულყოფილად გამოიყურება, როგორც ჩვეულებრივი ელ.ფოსტით ყველას შეუძლია.

სპამერები ჩვეულებრივ ჩვეულებრივ წერილებს არ აგზავნიან. მოდით ვივარაუდოთ, რომ ეს იმიტომ, რომ ეს ელ არ მუშაობს როგორც რუკიდან ელ. ასე რომ, შანსი არ იქნება ამის გაკეთება, როდესაც ჩვეულებრივი, მოსაწყენი ელები ერთადერთი გზაა, რათა გაატარონ სპამის ფილტრები.

თუ სპამისერები ჩვეულებრივ ჩვეულებრივ ელ-ფოსტებზე გადადიან, თუმცა ჩვენ კვლავ ვნახავთ ბევრ სპამს ჩვენს შემოსულებში, და ელ-ფოსტა შეიძლება გახდეს იმედგაცრუება, როგორც ეს ადრე იყო Bayesian- ში (ან უფრო უარესი). ის ასევე გაანადგურებს ბაზარზე ყველაზე მეტ სპამას, თუმცა, და ამდენად ხანგრძლივი არ გაგრძელდება.

ძლიერი მაჩვენებლები შეიძლება იყოს Bayesian Spam Filter & # 39; s Achilles & # 39; ქუსლი

ერთი გამონაკლისი შეიძლება შეიცავდეს სპემერებს, რათა თავიანთი ჩვეულებრივი შინაარსით ბაიასური ფილტრების საშუალებით მუშაობა გაეწიათ. ეს არის ბუნება Bayesian სტატისტიკა, რომ ერთი სიტყვა ან დამახასიათებელი, რომ ძალიან ხშირად ჩანს კარგი ფოსტა შეიძლება იყოს იმდენად მნიშვნელოვანია, რომ გახდეს ნებისმიერი გზავნილი საწყისი ეძებს სპამი როგორც შეაფასა, როგორც ლორი ფილტრი.

თუ სპამისგან იპოვნეთ თქვენი სწორად შესამოწმებელი ელ-ფოსტის სიტყვების დასადგენად HTML- ის დაბრუნების შემოსავლების გამოყენებით, თუ რა გახსენით შეტყობინებები, მაგალითად, მათ შეუძლიათ ერთ-ერთი მათგანი გამოაგზავნონ რუკიდან, მომზადებული Bayesian ფილტრი.

ჯონ გრეჰემ-კუმიმმა ეს სცადა, რომ ორი ბაიასური ფილტრი ერთმანეთის წინააღმდეგ მუშაობდა, "ცუდი", რომელიც ადაპტირებას ახდენს "კარგი" ფილტრის საშუალებით. მისი თქმით, იგი მუშაობს, თუმცა პროცესი შრომატევადი და რთული. ჩვენ არ ვფიქრობთ, რომ ჩვენ ვხედავთ ბევრად ამ მოვლენას, ყოველ შემთხვევაში არა ფართომასშტაბიან და არა მორგებული ინდივიდუალური ელფოსტის მახასიათებლები. Spammers შეიძლება (ცდილობენ) გაერკვნენ გარკვეული საკვანძო სიტყვები ორგანიზაციები (რაღაც "Almaden" ზოგიერთი ადამიანი IBM იქნებ?) ნაცვლად.

როგორც წესი, სპამი ყოველთვის (რეგულარულად) განსხვავდება რეგულარული გვერდისგან, თუმცა ეს არ იქნება სპამი.

ქვედა ხაზი: Bayesian ფილტრაციის & # 39; Strength შეიძლება იყოს სისუსტე

Bayesian spam ფილტრები შინაარსზე დაფუძნებული ფილტრებია :

სპეციალურად მომზადებული ინდივიდუალური ელფოსტის მომხმარებლის სპამის და კარგი ფოსტის აღიარება , რაც მათ უაღრესად ეფექტური და რთულია ადაპტირება სპამისათვის.
შეიძლება მუდმივად და გარეშე ძალისხმევა ან სახელმძღვანელო ანალიზი ადაპტირება სპამისგან უკანასკნელი ხრიკები.
მიიღოს ინდივიდუალური მომხმარებლის კარგი ფოსტის გათვალისწინებით და აქვს ძალიან დაბალი მაჩვენებელი ცრუ დადებითი .
სამწუხაროდ, თუ ეს იწვევს ბესიუს ანტი-სპამ ფილტრებში ბრმა ნდობას, ის ხანდახან უფრო სერიოზულ შეცდომას უშვებს. ცრუ ნეგატივის საწინააღმდეგო ეფექტი (სპამი, რომელიც რეგულარულ ფოსტას ჰგავს) აქვს პოტენციალი, რომ ხელი შეუშალოს და დაარღვიოს მომხმარებლები.