Სახელმწიფო ენაზე ლაუნის ხმის ამოცნობის შესახებ

შესავალი

მე ვატარებ ბევრი სტატიის სტატიებს და ხშირად ვფიქრობ სტატიის შესახებ სტატიის შესახებ, ხოლო მატარებლის სადგურის გასწვრივ ან საერთოდ საერთოდ.

ერთ საღამოს, როცა სადგურზე 1,5 მეტრი ფეხით მიდიოდა სავარჯიშოში, ვფიქრობდი, რომ არ იქნებოდა კარგი თუ შემიძლია ჩაიწერო რა მინდოდა ვთქვა და შემდეგ ავტომატურად ჩაიწერა ტექსტური ფაილი, რომელსაც შემეძლო, .

მე ძალიან დიდი ხანია ვხარჯავდი ხმის ამოცნობისა და კარნახვისათვის ხელმისაწვდომი სხვადასხვა ვარიანტების მეშვეობით, მათ შორის, პირდაპირ მიკროფონის მეშვეობით, Linux- ში კარნახით გამოყენებული პროგრამული უზრუნველყოფის გამოყენებით, ჩაწერეთ ფაილი MP3- ზე ან WAV ფორმატში და კონვერტის მეშვეობით კონვერტირება და Chrome- ის გამოყენება და Android პროგრამები.

ეს სტატია ხაზს უსვამს ჩემს დასკვნებს მძიმე შრომის დღეების შემდეგ.

Linux პარამეტრები

ცდილობს მოძებნოს კარნახით და ხმის ამოცნობის პროგრამული უზრუნველყოფა Linux- ში არ არის ისეთი მარტივი, როგორც ეს შეიძლება იყოს და ხელმისაწვდომი ვარიანტი არ არის ჭკვიანი.

ეს ვიკიპედიის გვერდი აქვს პოტენციური ვარიანტების სიას, მათ შორის CMU Sphinx, Julius და Simon.

მე გამოყენებით SparkyLinux რომელიც ეფუძნება Debian Testing მომენტში და მე შემიძლია გითხრათ, რომ ერთადერთი ხმის ამოცნობის პაკეტი ხელმისაწვდომია საცავებში არის Sphinx.

მშობლიურ ლინკირების პროგრამებს ვცდილობდი PocketSphinx- სთვის, რომელიც WAV- ს ფაილებს ტექსტისა და Freespeech-VR- ის გარდაქმნის, რომელიც არის პითონის პროგრამა, რომელიც საშუალებას გაძლევთ ჩაწეროთ პირდაპირ მიკროფონიდან.

მე ასევე შევეცადე რამდენიმე Chrome აპლიკაცია, მათ შორის VoiceNote II და დიქტოფონი.

საბოლოოდ მე შევეცადე "კარნახი და ელ" და "საუბარი და განხილვა დიქტატურა" Android პროგრამები.

Freespeech-VR

Freespeech-VR არ არის ხელმისაწვდომი სტანდარტული საცავებში. მე გადმოწერილი ფაილი აქედან.

ჩამოტვირთვის შემდეგ და zip ფაილის შინაარსის გადმოღების შემდეგ მე გახსნილი ტერმინალიდან და ნავიგაცია საქაღალდეში, სადაც ფაილები ამოიღეს.

მე აკრიფეს შემდეგი ბრძანება გახსნა freespeech-vr.

sudo python freespeech-vr

მე მაქვს წყვილი ყურსასმენები საკმაოდ ღირსეული მიკროფონი და საკმაოდ ნათელი სამხრეთ ინგლისური აქცენტით.

შემდეგი ტექსტი გამოჩნდა freespeech-vr ფანჯარაში:

კეთილი იყოს თქვენი მობრძანება ერთეულის ძაღლების შედეგებზე დღეს უზრუნველყოს ტესტების მართვა როგორ უნდა გამოვიყენოთ ტექსტის გამოყენება სისტემაში გზაზე მეტყველების მეტყველება ერთი თითოეული იყო მხოლოდ იმ იმედით, რომ დარჩენის და იმ საშუალებების ერთი ქათამი ოქროს როგორც სისტემა EA, როდესაც ეს ჩემი სახელია, რომელიც მომდევნო ნომერს უწოდებს ტელეფონს ეს ფაილი მალე საკმარისია ტელეფონები ხელები-სივრცეში სფინქსის გამგზავრება ეს არ არის ტელეფონები გაზიარებული მომზადებული და ხელსაწყოები გამოიყენეთ ლაპარაკი სიუჟეტი და გამოყენებით როდესაც როდესაც ეს ძალიან წარმატება ეს Linux იყო, როგორც თქვენ თავიდან ასაცილებლად არის

მე მინდა ახლა ვთქვა, რომ ეს არ არის ძაღლების ერთეულის ერთეული და არაფერს ვგულისხმობ არაფერზე მეტყველებს ოქროს ქათებთან. სინამდვილეში ვცდილობდი ვიცოდი, რომ ხმის ამოცნობის პროგრამული უზრუნველყოფის გამოყენების პროცესი იყო.

მე შევეცადე პროგრამული უზრუნველყოფა რამდენჯერმე მათ შორის სხვადასხვა მოედანზე და სიჩქარე, მაგრამ სიზუსტე იყო ცუდი.

ჯიბის სფინქსი

PocketSphinx შეუძლია მიიღოს WAV ფაილი და დააკონვერტიროთ ტექსტის გამოყენებით ბრძანების.

PocketSphinx ხელმისაწვდომია Debian საცავების საშუალებით და ხელმისაწვდომი უნდა იყოს საუკეთესო დისტრიბუციისთვის.

მთავარი საკითხი, რომელიც მე ვიპოვე PocketSphinx- ისთვის, არის ის, რომ თქვენ პრაქტიკულად საჭიროა ხმის ამოცნობის კონცეფციებში, ენის ფაილებში, ლექსიკონებში და როგორ მოვამზადოთ სისტემა.

PocketSphinx- ის ინსტალაციის შემდეგ თქვენ უნდა მივიდნენ CMU Sphinx- ში და წაიკითხეთ მაქსიმალურად ინფორმაცია. თქვენ ასევე უნდა ჩამოტვირთოთ შემდეგი მოდელის ფაილი.

(თუ არ ხართ მშობლიური ინგლისური ენის სპიკერი, აირჩიე ენის მოდელი, რომელიც თქვენთვის შესაფერისია).

PocketSphinx- ისა და სფინქსის ზოგადი დოკუმენტაცია ძნელია იმისთვის, რომ შეიცავდეს საერო პირს, მაგრამ რა შემიძლია გამოვიყენო ლექსიკონის ფაილები, რომელთა საშუალებითაც შესაძლებელი იქნება სიტყვებისა და ენის მოდელების ჩამონათვალი პოტენციურ გამონათქვამის სიაში.

შესამოწმებლად PocketSphinx- ს ვიყენებდი საკუთარი ხმის ჩაწერას, ალ პაჩინოდან "ეშმაკის ადვოკატიდან" და "მორგან ფრიმანისგან" მიმაგრებული სპიპით. ამის მომენტი იყო სხვადასხვა ხმები და ჩემთვის არავის შეუძლია, რომ მორგან ფრიმანის ამბავს ნათლად გადმოეწერა და არავინ აწვდის ალ პაჩინოს.

იყიდება PocketSphinx- ის მუშაობისთვის საჭიროა WAV ფაილი და ის უნდა იყოს გარკვეული ფორმატში. თუ ფაილი MP3 ფორმატშია, გამოიყენეთ ffmpeg ბრძანება WAV ფორმატში:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx- ის გასაშვებად გამოიყენოთ შემდეგი ბრძანება:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous იღებს WAV ფაილი და აკონვერტებს მას ტექსტი.

ბრძანებულების ზემოთ მოცემულ ბრძანებაში, "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" ლექსიკონის გამოსაყენებლად გამოიყენეთ ენის მოდელი "cmusphinx-5.0-en-us.lm". ტექსტში მოყვანილი ფაილი უწოდებენ voice2.wav (რაც ჩაწერილია მე ჩემს ხმასთან ერთად). საბოლოოდ 2> განათავსებს ყველა verbose გამომავალი, რომ თქვენ არ აუცილებლად გვჭირდება შევიდა ფაილი მოუწოდა voice2.log. ტესტის რეალური შედეგები ტერმინალურ ფანჯარაშია ნაჩვენები.

შედეგები ჩემი ხმა გამოყენებით შემდეგია:

კეთილი იყოს თქვენი მობრძანება მომდევნო კვირას არა უგვიანეს კვირის განმავლობაში, რომლის შესახებაც ცნობისმოყვარეობა ერთი წუთის განმავლობაში

შედეგები არ არის ისეთი საშინელი, როგორც freespeech-vr, მაგრამ მაინც არ არის ნამდვილად გამოსაყენებელი. მე შევეცადე გამოყენებით PocketSphinx ერთად ალ Pacino მაგრამ ეს დაუბრუნდა არანაირი შედეგი ყველა.

საბოლოოდ მე შევეცადე მორგან ფრიმანის ხმა გამოიყენოთ ფილმის "ბრიუს ყოვლისმშობიარო" და აქედან გამომდინარე შედეგები:

000000000: ჩვენ მის შესახებ
000000001: ყველა რომ მკაცრი yeah დღეს, რომ ახლავე yeah ეს არის ყველაზე მეტად ცოცხალი ვარ ნაწილი ვარ ცხელი
000000002: ლიფტში ვინ არის გასაღები ბეისბოლის საათის გასვლის შემდეგ ან ვიცი, რა უნდა გააკეთოს ცხოვრებაში
000000003: რა არის ის, ვინც აღდგება
000000004: ისინი არ წერდნენ
000000005: მე მაქვს უფლება ჩემზე
000000006: თქვენ უნდა იყოთ წესები
000000007: მე ველოდები თქვენ
000000008: და მან ისწავლა აქ რომ იყო ილუსტრაცია იყო მკვლელი საშობაო პარტიის
000000009: გამოდის ერთი გზა დაწერა o. ass ვიფიქრე რამდენიმე ყოველთვის აცვიათ ერთი
000000010: როგორც პრობლემა ერთიანი არ მისცემს მას კარგი მე სავარაუდო მათ იმ მომენტში, როდესაც ჩვენ არ ყველა, რომ თქვენ ფიქრობთ, მე მსოფლიოში იქნება სახლებში და მე მინახავს
000000011: მამა, რომელსაც აქვს
000000012: რა არის ამის შესახებ
000000013: აკეთებს ამას
000000014: ყველაფერი რაც თქვენ არ იშლება ბევრი
000000015: უფლება შემოდგომაზე
000000016: კარგად გამართავს ჩემთვის
000000017: ეს უკმაყოფილოა, თუ მე ვფიქრობ ძალიან, რომ ისინი აპირებენ, რომ ეს ყველა რომ ცოლად იყო არ იყო ჩვენ მომწონს განსხვავებით გზა

ჩემი გამოცდა ძნელად შეიძლება ჩაითვალოს მეცნიერებად და პაკისფინგის დეველოპერებმა შეიძლება განაცხადონ, რომ მე არ ვიყენებ პროგრამას სწორად. ასევე არსებობს ტექნიკა, რომელსაც ეწოდება ხმოვანი სწავლება, რომელიც შეიძლება გამოყენებულ იქნას უკეთესი ლექსიკონისა და ენის ფაილების შესაქმნელად.

ჩემი უმნიშვნელო აზრია ისიც, რომ ეს მხოლოდ ყოველდღიური გამოყენების სტანდარტისთვის ძალიან ძნელია.

VoiceNote II

VoiceNote II არის Chrome აპლიკაცია, რომელიც იყენებს Google Voice Recognition API- ს.

თუ იყენებთ Chrome ან Chromium ბრაუზერებს, შეგიძლიათ დააინსტალიროთ VoiceNote II Web Store- ის მეშვეობით .

VoiceNote II- ის ხატები უცნაური სახით არის ასახული, როგორც ფანჯრის ქვედა ნაწილში ენის დაყენება და რედაქტირების ღილაკი ასევე ბოლოშია, თუმცა რეკორდული ღილაკი ზედა მარჯვენა პოზიციაშია.

პირველი, რაც უნდა გააკეთოთ, აირჩიეთ ენა და ეს შეიძლება მიღწეული იქნას მსოფლიო ხატის დაჭერით.

ჩაწერის დასაწყებად, დააწკაპუნეთ მიკროფონის ხატულაზე და დაიწყეთ საუბარი მიკროფონზე. საუკეთესო შედეგების მისაღებად მე ვილაპარაკე ნელა იყო გასაღები ისე, რომ პროგრამული უზრუნველყოფა ექნებოდა შანსი შეინარჩუნო.

შედეგები არ იყო დიდი, როგორც ჩანს ქვემოთ:

გამარჯობა და მივესალმებით დაკავშირებას. Taille-moyenne.tk დღევანდელი სტატიები ხმა ტექსტის კონვერტაციის dunelm farrell რეცესიის 2008 როგორც კონვერტაციის და განაცხადა, რომ კარგად მხარი დაუჭირა საუკეთესო გზა ვიპოვე ხმოვანი ტექსტი addon რათა ნახოთ 2014debian ან rpm პაკეტი გახსნა ხმოვანი ტიპის სიტყვის ტექსტის გახსნა თუ გსურთ აირჩიოს vs აირჩია ფრანგულ გერმანულში თქვენ მიიღებთ დროს გაერთიანებული სამეფოს პლატფორმაზე საზღვაო მიკროფონომ, რაც დასრულდა თქვენი ტექსტის ტექსტის ტექსტის გამოწერაში, რომლითაც ძალიან კარგად არის ინგლისური ენის აქცენტი ინგლისის სამხრეთიდან, მაგრამ მე ვაპირებ ტექსტურიას რეალურ დოკუმენტთან ერთად და ხედავთ იმ შეცდომებს, რომლებსაც მოსმენთ მეგობრებისთვის

დიქტოანოტი

დიქტოანოტი არის კიდევ ერთი Chrome აპლიკაცია, რომელიც შეიძლება გამოყენებულ იქნეს კარნახით, და უფრო მეტი ინტუიციური აღმოჩნდა, მაგრამ შედეგები არ იყო უკეთესი, ვიდრე VoiceNote II.

მე მხოლოდ გამოვიყენე Dictanote- ის დემო ვერსია, რომელიც ხელს უშლის თქვენ ახალი დოკუმენტების შექმნას, მაგრამ ის საშუალებას მოგცემთ, რომ ესაუბროთ ტექსტს, რომელიც უკვე რედაქტორშია. მე შემიძლია შესამოწმებლად ხმის ამოცნობის, მაგრამ შედეგი არ იყო უკეთესი, ვიდრე VoiceNote II და ამიტომ მე არ დარეგისტრირდით პრო ვერსია.

კარნახი და ფოსტა

"კარნახი და ფოსტა" არის Android აპლიკაცია, რომელიც იყენებს ადგილობრივ Google ხმის ამოცნობის API.

შედეგები "კარნახი და ფოსტა" ბევრად უკეთესია, ვიდრე რომელიმე სხვა პროგრამის სცადა ამ ეტაპზე.

გამარჯობა მივესალმო Linux- ს შესახებ, დღეს ვსაუბრობთ ტექსტის ხმის გადაცემის შესახებ

ხრიკი "კარნახითა და ფოსტით" ლაპარაკობს ნელა და გამოხატავს, ისევე როგორც თქვენ შეგიძლიათ კიდევ უფრო აქცენტით.

ლაპარაკის დასრულების შემდეგ შეგიძლიათ გააგზავნოთ შედეგები.

განხილვა და საუბარი დიქტატურა

სხვა Android განაცხადის რომ მე შევეცადე იყო "განხილვა და განხილვა კარნახი".

ინტერფეისი ამ აპლიკაცია იყო საუკეთესო რევოლუციისა და ხმის ამოცნობის ძალიან კარგად მუშაობდა. დიქტატორის ჩაწერის შემდეგ მე შეძლო შედეგების გაზიარება სხვადასხვა გზებით, მათ შორის ელექტრონული ფოსტით.

მივესალმებით linux- ის შესახებ დღეს ვსაუბრობთ სიტყვის კონვერტაციაზე

როგორც ზემოთ ვნახავთ, ზემოთ მოყვანილი ტექსტის შესახებ ნათელია, როგორც თქვენ შეგიძლიათ მიიღოთ მოსალოდნელი. საუბარი ნელა არის გასაღები.

შემაჯამებელი

მშობლიური Linux აქვს გარკვეული გზა წასვლა დაკავშირებით ხმის ამოცნობის და კონკრეტულად კარნახით. არსებობს გარკვეული აპლიკაციები, რომლებიც იყენებენ Google Voice API- ს, მაგრამ ისინი ჯერ კიდევ არ არის ჩამოთვლილი საცავებში.

ChromeOS აპლიკაციები ცოტა უკეთესია, მაგრამ საუკეთესო შედეგების მიღწევა ჩემი Android ტელეფონით. შესაძლოა, ტელეფონს აქვს უკეთესი მიკროფონი და ამიტომ ხმის ამოცნობის პროგრამული უზრუნველყოფა კონვერტაციის უკეთესი შანსია.

ხმის ამოცნობისთვის ნამდვილად გამოსაყენებელია ის, რომ უფრო ინტუიტიური უნდა იყოს ნაკლები ნაკლოვანებით. არ უნდა დაგჭირდეთ ენის მოდელებთან და ლექსიკონებთან ერთად, რათა ეს გააზრებული იყოს.

მე ვაფასებ იმას, რომ ხმაურის აღიარების მთელი ხელოვნება ძალიან რთულია, რადგან ყველას აქვს განსხვავებული ხმა და რეგიონის რეგიონის რეგიონიდან იმდენი დიალექტებია, რომ ქვეყნები მთელ მსოფლიოში არ სარგებლობენ ასობით ენაზე.

ჩემი ანალიზი, ამიტომ, არის ის, რომ ხმის ამოცნობის პროგრამული უზრუნველყოფა ჯერ კიდევ მიმდინარეობს მუშაობა.