Კლასიფიკაცია მონაცემთა სამთო

კლასიფიკაცია არის მონაცემთა სამთო ტექნიკა, რომელიც კატეგორიას ანიჭებს მონაცემებს მონაცემთა შეგროვებაში, რათა უფრო ზუსტი პროგნოზებისა და ანალიზით დაეხმაროს. ასევე მოუწოდა გადაწყვეტილება ხე , კლასიფიკაცია არის რამდენიმე მეთოდი, რომელიც მიზნად ისახავს ძალიან დიდი მონაცემთა ანალიზს.

რატომ კლასიფიკაცია?

ძალიან დიდი მონაცემთა ბაზა ხდება ნორმა დღევანდელ სამყაროში "დიდი მონაცემები". წარმოიდგინეთ მონაცემების მონაცემთა მრავალრიცხოვანი ტერაბაიტ-ტერაბაიტი მონაცემთა ერთი ტრილიონი ბაიტი.

Facebook- მა მხოლოდ ერთხელ დაასკვნა ყოველ დღე 600 ტერაბაიტი ახალი მონაცემებით (2014 წლის ბოლო პერიოდის განმავლობაში, ეს სპეც.). დიდი მონაცემების უმთავრესი გამოწვევა არის ის, თუ როგორ უნდა იგრძნოს იგი.

და მტკნარი მოცულობა არ არის ერთადერთი პრობლემა: დიდი მონაცემები ასევე მრავალფეროვანია, შეუცვლელი და სწრაფად იცვლება. განვიხილოთ აუდიო და ვიდეო მონაცემები, სოციალური მედია შეტყობინება, 3D მონაცემები ან geospatial მონაცემები. ასეთი მონაცემები არ არის ადვილად კატეგორიული ან ორგანიზებული.

ამ გამოწვევის დასაკმაყოფილებლად შემუშავდა სასარგებლო ინფორმაციის მოპოვების მთელი რიგი ავტომატური მეთოდები, მათ შორის კლასიფიკაცია .

როგორ მუშაობს კლასიფიკაცია

მაღალტექნოლოგიურ თემებზე გადაადგილების საშიშროებაზე, განვიხილოთ, თუ როგორ მუშაობს კლასიფიკაცია. მიზანია შექმნას კლასიფიკაციის წესები, რომლებიც პასუხს გასცემენ კითხვას, მიიღებენ გადაწყვეტილებას ან წინასწარ განსაზღვრონ ქცევას. დაწყებისას შეიქმნა ტრენინგების მონაცემთა ნაკრები, რომელიც შეიცავს გარკვეულ კომპლექტი ატრიბუტებს, ასევე სავარაუდო შედეგს.

კლასიფიკაციის ალგორითმის სამუშაოა იმის აღმოჩენა, თუ როგორ მიდის ატრიბუტების კომპლექტი დასკვნამდე.

სცენარი : ალბათ საკრედიტო ბარათის კომპანია ცდილობს განსაზღვროს რომელი პერსპექტივა უნდა მიიღოს საკრედიტო ბარათის შეთავაზება.

ეს შეიძლება იყოს ტრენინგის მონაცემები:

სასწავლო მონაცემები
სახელი ასაკი გენდერი წლიური შემოსავალი საკრედიტო ბარათის შეთავაზება
ჯონ დოე 25 $ 39,500 არა
ჯეინ დოე 56 F $ 125,000 დიახ

"Predictor" სვეტების ასაკი , სქესი და წლიური შემოსავალი განსაზღვრავს " პროკრედიტორის ატრიბუტის" საკრედიტო ბარათის შეთავაზების ღირებულებას . ტრენინგ კომპლექტში, ცნობილია პროგნოზტორის ატრიბუტი. კლასიფიკაციის ალგორითმი შემდეგ ცდილობს განსაზღვროს, თუ როგორ მიაღწია predictor ატრიბუტის მნიშვნელობას: რა ურთიერთობებს აქვს პროგნოკტორებსა და გადაწყვეტილებას შორის? ის შეიმუშავებს პროგნოზირების წესების კომპლექტს, როგორც წესი, IF / THEN განცხადებას, მაგალითად:

IF (ასაკი> 18 ან ასაკი <75) და წლიური შემოსავალი> 40,000-მდე საკრედიტო ბარათი შეთავაზება = დიახ

ცხადია, ეს მარტივი მაგალითია და ალგორითმს უფრო დიდი მონაცემების შერჩევა სჭირდება, ვიდრე აქ ნაჩვენები ორი ჩანაწერი. გარდა ამისა, პროგნოზირების წესები სავარაუდოდ ბევრად უფრო რთული, მათ შორის ქვე-წესები ხელში ატრიბუტი დეტალები.

შემდეგი, ალგორითმი მოცემულია "პროგნოზირების კომპლექტი" მონაცემების ანალიზი, მაგრამ ეს ნაკრები აკლია პროგნოზირების ატრიბუტი (ან გადაწყვეტილება):

Predictor მონაცემები
სახელი ასაკი გენდერი წლიური შემოსავალი საკრედიტო ბარათის შეთავაზება
ჯეკ ფროსტი 42 $ 88,000
მერი მიურეი 16 F $ 0

ეს predictor მონაცემები ეხმარება შეაფასებს სიზუსტეს პროგნოზირების წესები და წესები შემდეგ tweaked სანამ დეველოპერი მიიჩნევს პროგნოზები ეფექტური და სასარგებლო.

დღე კლასიფიკაციის დღის მაგალითები

კლასიფიკაცია და სხვა მონაცემთა სამთო ტექნიკა, ჩვენი ყოველდღიური გამოცდილების უმეტესობა მომხმარებელთა რიცხვითაა უკან.

ამინდის პროგნოზებმა შეიძლება გამოიყენონ კლასიფიკაციის გამოყენება იმის შესახებ, არის თუ არა დღე წვიმიანი, მზიანი ან წვიმა. სამედიცინო პროფესია შეიძლება გააანალიზოს ჯანმრთელობის მდგომარეობა სამედიცინო პროგნოზის პროგნოზირების მიზნით. ტიპი კლასიფიკაციის მეთოდი, გულუბრყვილო ბაისიანი, იყენებს სპამის ელ-ფოსტის კატეგორიების პირობით პირობებს. თაღლითობის გამოვლენა პროდუქტის შეთავაზებამდე, კლასიფიკაცია კულისებში კეთდება ყოველ დღე ანალიზისა და წინასწარმეტყველებების წარმოდგენაში.