Hali ya Kutambua sauti ya Linux

Utangulizi

Nitumia muda mwingi kutafiti makala na mara nyingi nadhani kuhusu suala hilo kwa makala wakati wa kutembea kwenye kituo cha treni au wakati nje na juu kwa ujumla.

Jioni moja wakati wa kutembea umbali wa maili 1.5 hadi kituo cha kazi yangu nilifikiri "siofaa ikiwa ningeweza kurekodi yale niliyotaka kusema na kisha kuwa na nakala moja kwa moja kwa faili ya maandishi ambayo ningeweza kuhariri na kuifanya baadaye" .

Nimetumia masaa mengi kwa muda mrefu kuangalia chaguzi tofauti zinazoweza kupatikana kwa kutambua sauti na kulazimisha ikiwa ni pamoja na kurekodi moja kwa moja kupitia kipaza sauti kwa kutumia programu ya uchapishaji katika Linux, kurekodi faili kwenye format ya MP3 au WAV na kuibadilisha kupitia mstari wa amri, na pia kutumia Chrome na maombi ya Android.

Makala hii inaonyesha matokeo yangu baada ya siku za kazi ngumu.

Chaguzi za Linux

Kujaribu kupata programu ya kulazimisha na kutambua sauti katika Linux si rahisi kama inaweza kuwa na chaguo zilizopo sio wajanja.

Ukurasa huu wa wikipedia una orodha ya chaguo bora ikiwa ni pamoja na CMU Sphinx, Julius na Simon.

Ninatumia SparkyLinux ambayo inategemea Upimaji wa Debian kwa sasa na naweza kukuambia kwamba pakiti ya pekee ya kutambua sauti inapatikana kwenye vituo ni Sphinx.

Programu za Linux za asili ambazo niliishia ni PocketSphinx, ambazo nilitumia kubadili faili za WAV kwa maandishi na Freespeech-VR ambayo ni maombi ya python ambayo inakuwezesha kurekodi moja kwa moja kutoka kwenye kipaza sauti.

Nilijaribu programu kadhaa za Chrome ikiwa ni pamoja na VoiceNote II na Dictanote.

Hatimaye nilijaribu "Dictation na Email" na "Majadiliano na Majadiliano ya Majadiliano" Apps Android.

Freespeech-VR

Freespeech-VR haipatikani kwenye vituo vya kawaida. Nilitumia faili kutoka hapa.

Baada ya kupakua na kuchukua yaliyomo kwenye faili ya zip nilifungua terminal na nilitembea kwenye folda ambapo faili zilifanywa.

Nimeandika amri ifuatayo kufungua freespeech-vr.

sudo python freespeech-vr

Nina jozi ya vichwa vya sauti na kipaza sauti cha heshima na haki ya kusini ya Kiingereza ya kusini.

Nakala ifuatayo ilionekana kwenye dirisha la freespeech-vr:

Karibu kwa mbwa wa kitengo cha matokeo Leo uhakikishe jinsi ya kusimamia majaribio Anapaswa kupima Wakati wa maandishi Anatumia njia ya mfumo Hotuba I kwa kila mmoja ilikuwa tu Katika matumaini ya kukaa Na Ya maana ya Kuku moja dhahabu kama mfumo The Ea wakati mimi jina langu thech ijayo wito simu Faili hii Hivi karibuni kutosha simu simu kwa Mikono- Space sphinx Kwenda Hiyo si simu itakuwa kushiriki A mafunzo na zana Kutumia kuzungumza Wakati kumaliza Sema A kutumika faili Mwisho a hadithi A Na kutumia kwa Nini ni jinsi gani mafanikio Linux hii ilikuwa kama Je, wewe kuepuka ni

Ningependa kusema sasa kwamba hii sio tovuti ya Unganyo wa Mbwa na sijawahi kutaja chochote cha kufanya na kuku za dhahabu. Nilikuwa nikijaribu kuelezea mchakato wa kutumia programu ya kutambua sauti.

Nilijaribu programu mara chache ikiwa ni pamoja na lami na kasi tofauti lakini usahihi ulikuwa mbaya.

PocketSphinx

PocketSphinx ina uwezo wa kuchukua faili ya WAV na kuibadilisha kwa maandishi kwa kutumia mstari wa amri.

PocketSphinx inapatikana kupitia vituo vya Debian na inapaswa kupatikana kwa utoaji zaidi.

Suala kuu nililopata na PocketSphinx ni kwamba unahitaji karibu shahada katika kutambua sauti, faili za lugha, kamusi na jinsi ya kufundisha mfumo.

Baada ya kufunga PocketSphinx unapaswa kwenda kwenye tovuti ya CMU Sphinx na usome habari nyingi iwezekanavyo. Pia unahitaji kupakua faili iliyofuata ya mfano.

(Kama sio msemaji wa Kiingereza wa asili huchagua mtindo wa lugha unaofaa kwako).

Nyaraka za PocketSphinx na Sphinx kwa ujumla ni vigumu kuelewa kwa mtu aliyewekwa lakini kutoka kwa kile ninaweza kufanya faili za kamusi kamusi hutumiwa kutoa orodha ya maneno iwezekanavyo na mifano ya lugha zina orodha ya matamshi.

Kujaribu PocketSphinx nilitumia kurekodi sauti yangu mwenyewe, snippet kutoka Al Pacino katika "Mshauri wa Kijivu" na snippet kutoka "Morgan Freeman". Jambo la hili lilikuwa ni kujaribu sauti tofauti na kwangu hakuna mtu ambaye anaweza kusema hadithi kama wazi kama Morgan Freeman na hakuna mtu anayetoa mstari kama Al Pacino.

Kwa PocketSphinx kufanya kazi inahitaji faili WAV na inahitaji kuwa na muundo fulani. Ikiwa faili iko katika format ya MP3 tumia amri ya ffmpeg ili kuibadilisha kuwa muundo wa WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Kuendesha PocketSphinx kutumia amri ifuatayo:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_endelea inachukua faili ya WAV na kuibadilisha ili kuandika.

Katika amri juu ya pocketsphinx inauriwa kutumia faili ya kamusi inayoitwa "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" na mfano wa lugha "cmusphinx-5.0-en-us.lm". Faili inayobadilishwa kwa maandishi inaitwa sauti2.wav (ambayo ni kurekodi niliyoifanya kwa sauti yangu). Hatimaye 2> huweka pato zote za verbose ambazo huhitaji haja ya faili iliyoitwa voice2.log. Matokeo halisi ya mtihani huonyeshwa ndani ya dirisha la terminal.

Matokeo kwa kutumia sauti yangu ni kama ifuatavyo:

kuwakaribisha kwa ijayo kuhusu vizuri hakuna wiki hii somo kuhusu programu ya kutambua kwa dakika

Matokeo si kama ya kutisha kama na freespeech-vr lakini bado haitumiwi. Nilijaribu kutumia PocketSphinx na Al Pacino lakini hii haikurudi matokeo yoyote.

Hatimaye nilijaribu kutumia sauti ya Morgan Freeman kutoka kwenye filamu "Bruce Wote" na hapa ni matokeo:

000000000: tutaweza juu yake
000000001: ni yote yanayo shida Yeah siku hiyo hivi sasa ndiyo hii ndiyo tumekuwa hai mimi ni sehemu ya moto
000000002: katika lifti ambaye ni muhimu nje kidogo ya saa ya baseball au kujua nini cha kufanya katika maisha
000000003: ni nani ambao watapona
000000004: hawakuandika
000000005: wao wana juu yangu nje
000000006: lazima uwe sheria
000000007: nimekutazamia
000000008: na alijifunza hapa kwamba ilikuwa mfano ni wa chama cha Krismasi cha kuua
000000009: inageuka moja ya njia ya kuandika o. punda nilifikiri wachache daima kuvaa moja
000000010: kama tatizo lililounganishwa haitampa yeye mzuri mimi ninawahesabiwa wakati huo wakati hatukufanya yote unayofikiri niko katika ulimwengu itakuwa nyumba na nimeona kuwa
000000011: baba anaye nayo
000000012: ni mengi gani kuhusu hili
000000013: Je, hiyo inapewa
000000014: kila kitu ambacho sio huanguka kwa mengi
000000015: hakika wakati wa kuanguka
000000016: vizuri kushikilia tu kwa ajili yangu
000000017: ni furaha kama nadhani pia kwamba watakuwa na kwamba hiyo yote ambayo yameoa juu ya hakuwa na sisi tunapenda tofauti na njia

Mtihani wangu hauwezi kuchukuliwa kuwa wa kisayansi na waendelezaji wa PocketSphinx wanaweza kusema kuwa mimi sio kutumia programu kwa usahihi. Kuna pia mbinu inayoitwa mafunzo ya sauti ambayo inaweza kutumika kutengeneza dictionaries bora na faili za lugha.

Maoni yangu yenye nguvu zaidi ni kwamba ni vigumu sana kwa matumizi ya kawaida ya kila siku.

SautiNote II

VoiceNote II ni App Chrome ambayo inatumia API kutambua API.

Ikiwa unatumia browsers Chrome au Chromium unaweza kufunga VoiceNote II kupitia Duka la Wavuti .

Icons juu ya VoiceNote II zinawekwa kwa njia ya ajabu kama unahitaji kuanzisha lugha chini ya dirisha na kifungo cha hariri pia chini, hata hivyo kifungo cha kurekodi kina nafasi ya juu.

Jambo la kwanza unahitaji kufanya ni kuchagua lugha na hii inaweza kupatikana kwa kubonyeza icon ya dunia.

Ili kuanza kurekodi, bonyeza kamera ya kipaza sauti na uanze kuzungumza kwenye kipaza sauti yako. Kwa matokeo bora niliyoyaona kusema kidogo ilikuwa muhimu ili programu ingewe na nafasi ya kuendelea.

Matokeo hayakuwa makubwa kama yanaweza kuonekana chini:

Karibu na kuwakaribisha kuungana. Kurasa za leo za hivi karibuni kuhusu uongofu wa sauti na uandishi wa maandishi dunelm farrell 2008 kama mageuzi na imesema vizuri mkono njia bora zaidi ya kupata neno la maandishi ya sauti kuonyesha 2014debian au rpm paket kufungua sauti ya sauti kwa hotuba ya kufungua ikiwa unataka kuchagua vs alichaguliwa katika jerumani ya Kifaransa ya Edinburgh kupata muda katika umoja wa ufalme katika bahari ya microphone ambayo umewahi kuandika maandishi yako kama faili ya maandishi kwa heruccess vizuri kwamba ni kiwango cha kawaida sana english english kutoka kusini ya england bora kwa ajili yake lakini mimi kwenda textvia hii torrentalong na hati halisi na unaweza kuona kwa makosa ambayo hukufanya kwa rafiki wa kusikiliza

Dictanote

Dictanote ni programu nyingine ya Chrome ambayo inaweza kutumika kwa madhumuni ya kulazimisha na ikaonekana kama intuitive zaidi lakini matokeo hayakuwa bora zaidi kuliko VoiceNote II.

Nilitumia tu toleo la demo la Dictanote ambalo linakuzuia kuunda nyaraka mpya lakini inakuwezesha kuzungumza juu ya maandishi ambayo tayari ni katika mhariri. Niliweza kupima kutambua sauti lakini matokeo hakuwa bora kuliko VoiceNote II na hivyo sijisajili kwa toleo la pro.

Dictation And Mail

"Dictation And Mail" ni Maombi ya Android ambayo inatumia API ya asili ya kutambua sauti ya Google.

Matokeo kutoka "Dictation na Mail" yalikuwa bora zaidi kuliko programu yoyote iliyojaribu hadi sasa.

hello welcome kwenye Linux kuhusu., leo tunazungumzia juu ya kubadilisha sauti na maandishi

Hila na "Dictation na Mail" ni kuzungumza polepole na kutamka na vilevile unaweza kwa kifupi hata.

Baada ya kumaliza kuzungumza unaweza barua pepe matokeo.

Majadiliano na Majadiliano ya Majadiliano

Maombi mengine ya Android ambayo nilijaribu ilikuwa "Majadiliano na Majadiliano ya Majadiliano".

Kiambatisho cha programu hii kilikuwa kizuri cha rundo na utambuzi wa sauti ulifanya kazi vizuri sana. Baada ya kurekodi dictation niliweza kushiriki matokeo kwa njia mbalimbali ikiwa ni pamoja na barua pepe.

Karibu na linux kuhusu.com leo tunazungumzia juu ya kugeuza hotuba kwa maandishi

Kwa kuwa unaweza kuona maandishi hapo juu ni juu ya wazi kama unaweza uwezekano kutarajia kupata. Kuzungumza polepole ni ufunguo.

Muhtasari

Native Linux ina njia fulani ya kwenda kwa kuzingatia kutambua Sauti na kulazimisha hasa. Kuna baadhi ya programu zinazotumia API ya Google Voice lakini bado haijaorodheshwa kwenye kumbukumbu.

Maombi ya ChromeOS ni bora zaidi lakini kwa matokeo bora zaidi yalitolewa kwa kutumia simu yangu ya Android. Labda simu ina kipaza sauti bora na kwa hiyo programu ya kutambua sauti inasimama nafasi nzuri ya uongofu.

Kwa kutambua sauti kuwa kweli kutumiwa inahitaji kuwa intuitive zaidi na kuanzisha chini inahitajika. Haupaswi kuhitaji fujo kuzunguka na mifano ya lugha na kamusi ya kamusi ili uifanye akili.

Ninashukuru hata hivyo kwamba sanaa nzima ya utambuzi wa sauti ni changamoto sana kwa sababu kila mtu ana sauti tofauti na kuna wachache sana kutoka eneo hadi kanda katika nchi moja kamwe hujishughulisha na mamia ya lugha zinazotumiwa duniani kote.

Kwa hiyo, uchambuzi wangu ni kwamba programu ya kutambua sauti bado inafanya kazi.