Linux Ovozini Ovozlash Davlati

Kirish

Men maqola uchun ko'p vaqt sarflayman va ko'pincha poezd stantsiyasiga borayotganda yoki umuman olganda va umuman olganda maqola uchun mavzu haqida o'ylayman.

Bir kuni kechqurun ish stantsiyasidan 1,5 chaqirim masofani bosib o'tar ekanman, "men aytmoqchi bo'lgan narsani yozib olsam, keyinchalik tahrir qilish va formatlashim mumkin bo'lgan matnli faylga avtomatik ravishda transkriptsiya qilsam yaxshi bo'lardi" deb o'yladim. .

Ovozlarni aniqlash va yozish uchun turli xil variantlarni ko'rib chiqdim, shu jumladan to'g'ridan-to'g'ri Linuxdagi diktatorlik dasturini ishlatib mikrofon orqali yozib olish, faylni MP3 yoki WAV formatiga yozib olish va buyruq satriga aylantirish, shuningdek, Chrome va Android ilovalari.

Ushbu maqola mening og'ir ish kunlarimdan keyin mening kashfiyotlarimga dalolat beradi.

Linux imkoniyatlari

Linuxda diktatorlik va ovozni aniqlash dasturlarini topishga harakat qilish u qadar oson emas va mavjud variantlar bu aqlli emas.

Ushbu Vikipediya sahifasida CMU Sfenks, Yuliy va Simon kabi variantlar mavjud.

Men hozirda Debian viktorinasiga asoslangan SparkyLinux dan foydalanmoqdaman va havzalarda mavjud bo'lgan yagona ovozni aniqlash to'plami sfinksdir.

Men ishlashni tugatgan mahalliy Linux dasturlari PocketSphinx, WAV fayllarini matnga aylantiradigan va mikrofondan to'g'ridan to'g'ri yozishni ta'minlaydigan python dasturi bo'lgan Freespeech-VR edi.

Bundan tashqari, VoiceNote II va Dictanote kabi bir nechta Chrome ilovalarini sinab ko'rdim.

Nihoyat men "Dikte va elektron pochta" va "Talk va nutq so'zlashuvi" ilovalarini sinab ko'rdim.

Freespeech-VR

Freespeech-VR standart havzalarda mavjud emas. Men bu erdan fayllarni yuklab oldim.

Zop faylining tarkibini tushirib, diskvalifikatsiya qilgandan so'ng men terminalni ochdim va fayllar chiqarilgan papkaga o'tdim.

Freespeech-vrni ochish uchun quyidagi buyruq yozdim.

sudo python freespeech-vr

Menda juda yaxshi mikrofon va juda aniq inglizcha ingliz aksenti bo'lgan bir juft minigarnituram bor.

Freespeech-vr oynasida quyidagi matn paydo bo'ldi:

Xush kelibsiz bugungi kunda birlik itlarga xush kelibsiz Bugun qanday qilib boshqariladigan testlarni sinab ko'rish kerak Matn yozish uchun tizimning usulini ishlatish Gap I Men uchun birgina umidda bo'lish Va bir tovuqlar uchun vosita sifatida oltin Mening ismim keyingi paytlarda telefonni telefonga chaqirganida, bu faylni tezda telefonlarga qo'l uzatishi mumkin bo'lgan sxemalar Going Bu telefonlar emas, balki birgalikda almashtiriladi Ta'lim beriladigan va asboblar Gapirishni ishlatish Ishlayotgan Say Saylangan fayl A hikoyasi va undan foydalanish Agar juda katta muvaffaqiyat qozonganda, bu Linux kabi sizdan qochishingiz mumkin

Men faqatgina "Itlar bo'linmasi" saytidan emasligini aytmoqchiman va Oltin tovuqlar bilan hech qanday aloqani qayd etmadim. Men aslida ovozni aniqlash dasturidan foydalanish jarayonini tasvirlashga harakat qilardim.

Men dasturni bir necha marta sinab ko'rdim, shu jumladan o'zgaruvchan pitch va tezlik, lekin aniqlik yomon edi.

PocketSphinx

PocketSphinx WAV faylini olish va buyruq satrini foydalanib, matnga aylantira oladi.

PocketSphinx Debian ombori orqali mavjud va ko'plab tarqatish uchun foydalanish mumkin.

PocketSphinx bilan topilgan asosiy masala shundaki, siz ovozni aniqlash tushunchalari, til fayllari, lug'atlar va tizimni qanday o'qitishni bilib olishingiz kerak.

PocketSphinx ni o'rnatganingizdan so'ng siz CMU Sfenks veb-saytiga borib, iloji boricha ko'proq ma'lumotni o'qib chiqing. Bundan tashqari, quyidagi model faylini yuklab olishingiz kerak.

(Agar siz ingliz tilida gaplashuvchi bo'lmagan bo'lsangiz, siz uchun mos bo'lgan til modelini tanlang).

Umuman, PocketSphinx va Sphinx hujjatlari oddiy odam uchun tushunarli emas, lekin lug'at fayllaridan foydalanish mumkin bo'lgan so'zlar ro'yxatini taqdim qilish uchun foydalaniladi va til modellari mumkin o'qiganlarning ro'yxatiga ega.

PocketSphinxni sinab ko'rish uchun "Al-Pacino" ning "The Devils Advocate" dagi bir qismini va "Morgan Freeman" ning bir qismini o'zimning ovozimni yozdim. Buning ma'nosi turli tovushlarni sinab ko'rish edi va men uchun Morgan Freeman kabi aniq bir hikoya aytib beradigan hech kim yo'q va hech kim Al Pacino kabi chiziqni taqdim etmaydi.

PocketSphinx ishlashi uchun u WAV fayliga muhtoj va ma'lum formatda bo'lishi kerak. Agar fayl MP3 formatida bo'lsa, uni WMF formatiga aylantirish uchun ffmpeg buyrug'idan foydalaning:

ffmpeg -i kirishfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx ishlatish uchun quyidagi buyruqni ishlating:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -fayl ovoz2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous WAV faylini oladi va uni matnga aylantiradi.

Yuqoridagi buyrug'dagi "cmusphinx-5.0-en-us.lm" til modeliga ega "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" lug'at faylini ishlatish kerak. Matnga aylantiriladigan faylga "voice2.wav" deb nom berilgan (bu mening ovozim bilan yozilgan yozuvdir). Nihoyat, 2> sizning ovozli yozuvingiz bo'lgan audio2.log deb nomlangan faylga kiritilmaydi. Sinovning haqiqiy natijalari terminal oynasida ko'rsatiladi.

Ovozimni ishlatish natijalari quyidagicha:

bir daqiqada tanib bilish dasturi haqida keyingi haftada xush kelibsiz

Natijalar freespeech-vr kabi dahshatli emas, lekin hali ham foydalanish mumkin emas. Keyin PocketSphinxni Al Pacino bilan sinab ko'rdim, lekin bu hech qanday natija bermadi.

Nihoyat Morgan Freemanning "Bruce Almighty" filmidan ovozini sinab ko'rdim va natijalar quyidagicha:

000000000: biz unga egamiz
000000001: ha, ha, ha, ha, ha hozirgi kunda ha, ha, bu tirik ekanmiz, eng issiq
000000002: asansörde bir oz tayoq soatidan kaliti yoki hayotda nima qilish kerakligini bilish
000000003: shifo topadigan narsalar
000000004: ular yozmaganlar
000000005: ular menga to'g'ri keladi
000000006: qoidalar bo'lishi kerak
000000007: men sizni kutmoqdaman
000000008: u bu erda, qotil bayrami partiyasini tasvirlab bergan
000000009: u yozish uchun usullardan biri chiqadi. Men bir necha kishi doimo kiyib yurgan deb o'ylardim
000000010: xuddi birlashtirilgan muammoni kabi, u yaxshi narsalarni bermaydi, men bu dunyoda yashayapman deb o'ylayotgan narsalarni qilmagandek, men ularni o'sha vaqtda baholaganman va men buni ko'rganman
000000011: otasi unga ega
000000012: bu haqda juda ko'p narsa
000000013: beriladimi?
000000014: siz juda ko'p narsalarga tushmaydigan narsalar
000000015: kuzda
000000016: men uchun faqat yaxshi ushlab turing
Agar siz bu narsalarni bilib olishni istasangiz, unda sizning nikohingiz yo'q.

Mening testim juda ilmiy deb hisoblanishi mumkin emas va PocketSphinx ishlab chiquvchilari dasturiy ta'minotni to'g'ri ishlatmayotganimni ta'kidlashlari mumkin. Bundan tashqari, yaxshi lug'atlar va til fayllarini yaratish uchun ishlatilishi mumkin bo'lgan ovozli o'qitish usuli ham mavjud.

Mening fikrimcha, standart kundalik foydalanish uchun juda qiyin.

VoiceNote II

VoiceNote II - Google Voice ma'ruza API ishlatadigan Chrome ilovasi.

Agar Chrome yoki Chromium brauzerlaridan foydalanayotgan bo'lsangiz, siz Veb-do'kon orqali VoiceNote II ni o'rnatishingiz mumkin.

VoiceNote II ning piktogrammasi g'aroyib tarzda joylashtirilgan, chunki siz derazaning pastki qismida tilni sozlashingiz kerak va tahrirlash tugmasi ham pastda, ammo rekord tugma yuqori o'ng tomonda.

Sizga kerak bo'lgan birinchi narsa - tilni tanlash va bu dunyo ikonasiga bosish orqali erishish mumkin.

Yozishni boshlash uchun mikrofon belgisini bosing va mikrofoningizga gapirishni boshlang. Eng yaxshi natijalarga erishish uchun men sekin gaplashdim, chunki dasturiy ta'minotni saqlab qolish imkoniyati paydo bo'ldi.

Natijalar quyida keltirilgani kabi ajoyib emas edi:

Salom va ulanishga xush kelibsiz. Dovelm farrell turg'unlik konvertatsiya qilish uchun 2008 yilgi matnni konvertatsiya qilish bo'yicha ovozli maqolalar haqida va bugungi kunda yaxshi deb topilgan ovozli matn qo'shimchasini 2014debian yoki rpm paketini ko'rsatish uchun ovozli matnni ochish va boshqalarga Edinburgh fransuz nemis tanladingiz sizga birlashgan qirollikdagi vaqtni dengizda mikrofonga aylantirdingizmi, siz matnni matnni fayliga yozib tugatganingizdan keyin bu eng yaxshi ingliz inglizning janubidan janubdan eng yaxshi ingliz urg'usidir, ammo men bu matritsiyaga bormoqdamiz haqiqiy hujjat bilan va siz tinglovchilar uchun siz qilgan xatolarni ko'rishingiz mumkin

Diktant

Dictanote boshqa bir Chrome ilovasi bo'lib, u diktatorlik maqsadlarida ishlatilishi mumkin va undan sezgirroq bo'lib kelgan, ammo natijalar VoiceNote II dan yaxshiroq emas edi.

Men faqat Dictanote-ning demo versiyasini ishlatdingiz, bu sizni yangi hujjatlar yaratishingizga to'sqinlik qilmoqda, ammo siz allaqachon muharrirda bo'lgan matn ustida gaplashishga imkon beradi. Men ovozni aniqlashni sinab ko'rdim, lekin natijalar VoiceNote II dan yaxshiroq emas edi, shuning uchun pro versiyasiga ro'yxatdan o'tmagan edim.

Dikte va pochta

"Diktatsiya va pochta" mahalliy Google ovozni aniqlash API-dan foydalanadigan Android ilovasi.

"Diktatsiya va pochta" ning natijalari ushbu dasturga nisbatan boshqa dasturlardan yaxshiroq edi.

salom, Linux haqida xush kelibsiz, bugungi kunda ovozni matnga aylantirish haqida gapiramiz

"Diktatsiya va pochta" iborasi, asta-sekin gapirish va gapirish, shuningdek, sizning ham diqqatingiz bilan bo'lishi mumkin.

So'zlashuvni tugatgandan so'ng natijalarni o'zingizga jo'natishingiz mumkin.

Nutq va nutq so'zlash

Men harakat qilgan boshqa Android ilovasi "Talk and Talk Dictation" edi.

Ushbu ilova uchun interfeys shamlardan eng yaxshisi edi va ovozni aniqlash juda yaxshi ishladi. Diktatsiyani yozgandan so'ng natijalarni elektron pochta orqali, shu jumladan, turli yo'llar bilan bo'lishishga muvaffaq bo'ldim.

Linuxni bugungi kunda chatga aylantirish haqida suhbatlashamiz

Ko'rib turganimizdek, yuqoridagi matnni aniq deb bilishingiz mumkin. Sekin gaplashadigan kalit bu.

Xulosa

Mahalliy Linux Ovozni aniqlash va ayniqsa, diktaturaga bog'liq holda borishga imkon beradi. Google Voice API-dan foydalanadigan ba'zi ilovalar mavjud, ammo ular havflarda hali ro'yxatga olinmagan.

ChromeOS ilovalari biroz yaxshiroq, lekin mening Android telefonim orqali eng yaxshi natijalarga erishildi. Ehtimol, telefon yaxshi mikrofonga ega va shuning uchun ovozni aniqlash dasturlari ayirboshlashning yanada yaxshi imkoniyatidir.

Ovozni aniqlash uchun haqiqatan ham foydali bo'lishi uchun u kamroq sozlash zarur bo'lganda yanada intuitiv bo'lishi kerak. Siz tushunarli bo'lish uchun til modellari va lug'atlar bilan gaplashish kerak emas.

Shunga qaramasdan, ovozni tan olishning butun san'ati juda qiyin, chunki har bir kishi boshqa ovozga ega va dunyodagi yuzlab tillarni tashvishga solayotgan bir mamlakatda mintaqadan tortib to mintaqaga qadar ko'plab tillar mavjud.

Mening tahlilim shuni anglatadiki, ovozni aniqlash dasturi hali ham davom etmoqda.