Uainishaji katika Uchimbaji wa Data

Uainishaji ni mbinu ya madini ya data ambayo huwapa makundi kwa ukusanyaji wa data ili kusaidia katika utabiri sahihi na uchambuzi. Pia inaitwa wakati mwingine huitwa Mti wa Uamuzi , uainishaji ni mojawapo ya mbinu kadhaa ambazo zinalenga kufanya uchambuzi wa datasets kubwa sana.

Kwa nini Uainishaji?

Takwimu kubwa sana zimekuwa za kawaida katika ulimwengu wa leo wa "data kubwa." Fikiria databana yenye terabytes nyingi za data -a terabyte ni toloni moja za data.

Facebook peke yake inakabiliwa na takriban 600 za data mpya kila siku (kama ya mwaka 2014, mara ya mwisho iliripoti specs hizi). Changamoto ya msingi ya data kubwa ni jinsi ya kupata maana yake.

Na kiasi kikubwa sio tatizo pekee: data kubwa pia huelekea kuwa tofauti, isiyojenga na ya kubadilisha. Fikiria data ya redio na video, machapisho ya kijamii, data 3D au data geospatial. Aina hii ya data haipatikani kwa urahisi au kupangwa.

Ili kukabiliana na changamoto hii, mbinu mbalimbali za moja kwa moja za kuchunguza habari muhimu zimeandaliwa, kati ya uainishaji wao.

Jinsi Uainishaji Unavyofanya Kazi

Katika hatari ya kuhamia mbali sana kwenye teknolojia ya kuzungumza, hebu tujadili jinsi uainishaji unavyofanya kazi. Lengo ni kuunda seti ya sheria za uainishaji ambazo zitaswali swali, kufanya uamuzi, au kutabiri tabia.Kwaanza, seti ya data ya mafunzo imeundwa ambayo ina sifa fulani ya sifa pamoja na matokeo ya uwezekano.

Kazi ya algorithm ya uainishaji ni kugundua jinsi seti hiyo ya sifa inakaribia.

Hali : Labda kampuni ya kadi ya mkopo inajaribu kuamua matarajio gani yanapaswa kupokea kutoa kadi ya mkopo.

Hii inaweza kuwa seti yake ya data ya mafunzo:

Mafunzo ya Data
Jina Umri Jinsia Mapato ya kila mwaka Mpango wa Kadi ya Mikopo
John Doe 25 M $ 39,500 Hapana
Jane Doe 56 F $ 125,000 Ndiyo

Nguzo za "predictor" Umri , Jinsia , na Mapato ya Mwaka huamua thamani ya "sifa ya utabiri" Mtoa Kadi ya Mikopo . Katika kuweka mafunzo, sifa ya utangulizi inajulikana. Halmashauri ya uainishaji kisha inajaribu kuamua jinsi thamani ya sifa ya utangulizi ilifikia: ni uhusiano gani ulio kati ya predictors na uamuzi? Itakuwa kuendeleza seti ya sheria za utabiri, kwa kawaida taarifa ya IF / THEN, kwa mfano:

Ikiwa (Umri> 18 OR Umri <75) NA Mapato ya Mwaka> 40,000 KATIKA KATIKA Kutoa Kadi = ndiyo

Kwa wazi, hii ni mfano rahisi, na algorithm itahitaji sampuli ya data kubwa zaidi kuliko kumbukumbu mbili zilizoonyeshwa hapa. Zaidi ya hayo, sheria za utabiri zinawezekana kuwa ngumu zaidi, ikiwa ni pamoja na sheria ndogo za kukamata maelezo ya sifa.

Halafu, algorithm inapewa "utabiri wa utabiri" wa data ili kuchambua, lakini hii haifai sifa ya utabiri (au uamuzi):

Data ya Predictor
Jina Umri Jinsia Mapato ya kila mwaka Mpango wa Kadi ya Mikopo
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Data hii ya utangulizi husaidia kukadiria usahihi wa sheria za utabiri, na sheria hizo zimewekwa tena mpaka mtengenezaji anaona ufanisi ufanisi na muhimu.

Siku kwa Mfano Mifano ya Uainishaji

Uainishaji, na mbinu nyingine za madini ya data, ni nyuma ya uzoefu wetu wa kila siku kama watumiaji.

Utabiri wa hali ya hewa inaweza kutumia utaratibu wa kuainisha ikiwa siku itakuwa mvua, jua au mawingu. Taaluma ya matibabu inaweza kuchambua hali ya afya ili kutabiri matokeo ya matibabu. Aina ya uainishaji, Bayvean Naive, hutumia uwezekano wa masharti ya kugawa barua pepe za spamu. Kutoka kwa kutambua udanganyifu kwa matoleo ya bidhaa, uainishaji ni nyuma ya matukio kila siku kuchambua data na kutabiri utabiri.