لینکس وائس شناختی کی حیثیت

by گیری نیویل

تعارف

میں مضامین کے لئے بہت وقت گذارتا ہوں اور اکثر اس مضمون میں مضمون کے بارے میں سوچتا ہوں جب تک کہ ٹرین سٹیشن تک یا عام طور پر اور باہر کے بارے میں.

ایک شام جب میرا کام سے اسٹیشن پر 1.5 میل چلتا ہے تو میں نے سوچا "اچھا نہیں ہوگا اگر میں ریکارڈ کر سکتا ہوں کہ میں کیا کہنا چاہتا ہوں اور اس کے بعد یہ خود کار ٹیکسٹ فائل میں ٹرانسمیشن کی ہے جس میں میں بعد میں ترمیم کرسکتا ہوں اور فارمیٹ کر سکتا ہوں" .

میں نے آواز کی شناخت اور تنازع کے لئے دستیاب مختلف اختیارات کو دیکھ لیا ہے جس میں براہ راست مائیکروفون کے ذریعہ لینکس میں ٹیکسٹریشن سافٹ ویئر کا استعمال کرتے ہوئے ریکارڈ کرنا، MP3 یا WAV کی شکل میں فائل کو ریکارڈ کرنے اور کمانڈ لائن کے ذریعہ تبدیل کرنے کے ساتھ ساتھ کروم کا استعمال کرنا ہے. اور لوڈ، اتارنا Android ایپلی کیشنز

یہ مضمون میرے نتائج کو سخت محنت کے دنوں کے بعد روشنی دیتا ہے.

لینکس کے اختیارات

لینکس میں بولی اور آواز کی شناخت کے سافٹ ویئر کو تلاش کرنے کی کوشش کرنا آسان نہیں ہے کیونکہ یہ ہو سکتا ہے اور اختیارات دستیاب ہو وہ ہوشیار نہیں ہیں.

یہ وکیپیڈیا کے صفحے میں ممکنہ اختیارات کی فہرست ہے، بشمول سی ایم یو ایسفینکس، جولیوس اور شمعون.

میں SparkyLinux کا استعمال کر رہا ہوں جو اس وقت ڈیبیان ٹیسٹنگ پر مبنی ہے اور میں آپ کو بتا سکتا ہوں کہ ذخیرہ کرنے میں دستیاب واحد آواز کی شناختی پیکیج، سوفیکس ہے.

جس میں میں نے ختم ہونے والی لینکس پروگرامز کی کوشش کی تھی، جیبی ایسفینکس تھے، جس میں میں نے ویو فائلوں کو ٹیکسٹ اور فریسیچ-وی آر میں تبدیل کیا تھا جس میں ایک آرتھو ایپلی کیشن ہے جس سے آپ مائیکروفون سے براہ راست ریکارڈ کرسکتے ہیں.

میں نے صوتی نوٹی II اور ڈکٹانٹو سمیت Chrome کے ایک جوڑے کو بھی آزمائی.

آخر میں نے "ڈیکریشن اور ای میل" اور "ٹاک اور ٹاک ڈٹریشن" کی لوڈ، اتارنا Android ایپلی کی کوشش کی.

Freespeech-VR

Freespeech-VR معیاری ذخیرہ کرنے میں دستیاب نہیں ہے. میں نے یہاں سے فائلوں کو ڈاؤن لوڈ کیا.

زپ فائل کے مواد کو ڈاؤن لوڈ کرنے اور نکالنے کے بعد میں نے ایک ٹرمینل کھول دیا اور اس فولڈر میں نیویگیشن کی گئی جہاں فائلوں کو نکال دیا گیا تھا.

میں نے Freespeech-vr کھولنے کے لئے مندرجہ ذیل کمانڈ ٹائپ کیا.

سڈو پیڈن فریسیچ - وی

میرے پاس کافی مہذب مائکروفون کے ساتھ ہیڈ فون ہے اور جنوبی انگلش تلفظ کو واضح طور پر واضح ہے.

مندرجہ ذیل متن کے فرش وے ونڈو میں شائع ہوا:

نتائج کے یونٹ کتوں میں خوش آمدید آج آج کو منظم کرنے کے لئے کس طرح ٹیسٹ کرنے کے لئے ایک ٹیسٹ کرنے کے لئے ہے جب متن کرنے کے لئے ایک طریقہ کار کا استعمال کرتا ہے تقریر میں ایک ہر ایک میں صرف رہنے کے لئے اور ایک مرغوں کا مطلب ایک مرجان کا مطلب ای اے جب یہ میرا نام اگلے چیچ فون فون ہے اس فائل کو جلد ہی ایک مقدمہ فون کافی ہاتھوں پر فون ہے. سپنین جارہا ہے کہ فون نہیں ہے ایک تربیت یافتہ اور ٹولز بولی کا استعمال کرتے ہوئے بولی جب آپ ختم ہو گئے تو ایک استعمال کردہ فائل کہتے ہیں. کہانی A اور اس کا استعمال کرتے ہوئے جب یہ کتنا کامیابی ہے تو یہ لینیکس ایسا ہی تھا جیسے آپ سے بچنے کے لئے

اب میں یہ کہنا چاہتا ہوں کہ یہ کتے کی ویب سائٹ نہیں ہے اور اس وقت میں گولڈن مرگیوں سے کچھ بھی نہیں کرنا چاہتا تھا. میں اصل میں آواز کی شناخت سافٹ ویئر کا استعمال کرنے کے عمل کی وضاحت کرنے کی کوشش کر رہا تھا.

میں مختلف سافٹ ویئر کی مختلف رفتار اور رفتار سمیت چند بار کوشش کررہا تھا لیکن درستگی غریب تھی.

جیبی ایسفینکس

جیبی ایسفینکس ایک ویو فائل لے لے اور اسے کمانڈ لائن کا استعمال کرتے ہوئے متن میں تبدیل کرنے میں کامیاب ہے.

جیبی ایسفینکس ڈیبین ذخیرہ کے ذریعہ دستیاب ہے اور زیادہ تر تقسیم کیلئے دستیاب ہونا چاہئے.

جیبی ایسفینکس کے ساتھ مل کر اہم مسئلہ یہ ہے کہ آپ کو آواز کی شناخت، زبان فائلوں، لغاتوں اور نظام کو تربیت دینے کے طریقے کے لحاظ سے آپ کو تقریبا ایک ڈگری کی ضرورت ہوتی ہے.

جیبی ایسفینکس کو انسٹال کرنے کے بعد آپ کو سی ایم یو ایسفینکس کی ویب سائٹ پر جانا چاہیئے اور ممکنہ حد تک ممکنہ معلومات پڑھائیں. آپ مندرجہ ذیل ماڈل فائل کو بھی ڈاؤن لوڈ کرنے کی ضرورت ہے.

امریکی انگریزی جنری زبان ماڈل

(اگر آپ انگلش مقامی زبانی نہیں ہیں تو زبان کے ماڈل کو منتخب کریں جو آپ کے لئے موزوں ہے).

جیبی ایسفینکس اور سوفینکس کے لئے دستاویزات عام طور پر انفرادی طور پر سمجھنے کے لئے مشکل ہے لیکن میں کس طرح میں ڈکشنری فائلوں کو نکال سکتا ہوں ممکنہ الفاظ کی فہرست فراہم کرنے کے لئے استعمال کیا جاتا ہے اور زبان کے ماڈل میں ممکنہ الفاظ کی فہرست ہے.

جیبی ایسفینکس کی آزمائش کیلئے میں نے اپنی اپنی آواز کی ریکارڈنگ کا استعمال کیا، الیک پینوینو سے "شیطان ایڈووکیٹ" اور "مورگن فریمن" سے ایک ٹکڑا میں ایک ٹکڑا. اس کا نقطہ مختلف آوازوں کی کوشش کرنا تھا اور میرے لئے وہاں کوئی نہیں ہے جو کہ واضح طور پر مورگن Freeman کے طور پر واضح طور پر بتاتا ہے اور کوئی بھی القاعدہ کی طرح ایک لائن نہیں بچاتا ہے.

کام کرنے کیلئے PocketSphinx کے لئے یہ ایک ویو فائل کی ضرورت ہے اور اسے ایک مخصوص شکل میں ہونا ضروری ہے. اگر فائل MP3 فارمیٹ میں ہے تو ایف ایف ایم ایم آر کمانڈ کا استعمال WAV کی شکل میں تبدیل کرنے کے لئے استعمال کریں:

FFmpegIi ان پٹ فیلینم.mp3 - کوڈڈیک pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx کو چلانے کیلئے مندرجہ ذیل کمانڈ استعمال کریں:

جیبٹسفینکس _ کنٹونس - ڈائٹ /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic-file-file آواز 2.wav -lm سینٹسفینکس-5.0-en-us.lm 2> voice2.log

جیبٹسفینکس_continuous WAV فائل لیتا ہے اور متن میں بدلتا ہے.

مندرجہ ذیل کمانڈ میں جاکسفینکس کو کہا جاتا ہے کہ لغت لغت کی فائل "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" کا نام استعمال کیا جاتا ہے جس میں زبان کے ماڈل "cmusphinx-5.0-en-us.lm" کے ساتھ. فائل کو متن میں تبدیل کیا جا رہا ہے voice2.wav (جس میں ریکارڈنگ میں نے اپنی آواز سے بنایا ہے) کہا جاتا ہے. آخر میں 2> تمام زبانی پیداوار جس میں آپ کو لازمی طور پر آواز 2 .log کہا جاتا فائل میں ضرورت نہیں ہے. ٹیسٹ کے اصل نتائج ٹرمینل کھڑکی کے اندر اندر ظاہر کئے جاتے ہیں.

میری آواز کا استعمال کرتے ہوئے نتائج مندرجہ ذیل ہیں:

اس ہفتے کے بارے میں اچھی طرح سے کسی بھی منٹ کے بارے میں تسلیم شدہ سافٹ ویئر کے بارے میں اگلے میں خوش آمدید

نتائج کے طور پر افسوسناک نہیں کے طور پر freespeech-vr کے ساتھ لیکن اب بھی واقعی قابل استعمال قابل نہیں ہیں. میں نے پھر پراکسینو کے ساتھ PocketSphinx کا استعمال کرنے کی کوشش کی مگر اس کے نتیجے میں کوئی نتیجہ نہیں آیا.

آخر میں میں نے فلم "بروس الاسلام" سے مورگن فری مینمان کی آواز کا استعمال کرنے کی کوشش کی اور یہاں نتائج ہیں:

000000000: ہم اس پر کریں گے
000000001: یہ سب مشکل ہیں ہاں وہ دن جو ابھی ابھی ہے ہاں یہ سب سے زیادہ ہے جسے ہم زندہ رہے ہیں. میں گرم کا حصہ ہوں
000000002: لفٹ میں جو تھوڑا سا بیس بال کی کلید ہے یا جانیں کہ زندگی میں کیا کرنا ہے
000000003: وہ لوگ جو دوبارہ بحال کریں گے
000000004: انہوں نے اسے نہیں لکھا
000000005: وہ مجھ پر صحیح طریقے سے ہیں
000000006: آپ کے قوانین لازمی ہیں
000000007: میں آپ کی توقع کر رہا ہوں
000000008: اور وہ یہاں سیکھا تھا کہ ایک مثال قاتل کرسمس پارٹی تھا
000000009: یہ اوہ لکھنے کا راستہ بدلتا ہے. گدی میں نے سوچا کہ چند لوگ ہمیشہ پہنچے
000000010: جیسے کسی متحد مسئلے میں وہ اچھا نہیں دے گا کہ میں اس اندازے سے ان اندازوں پر ہوں جب ہم نے ایسا نہیں کیا جو تم سوچتے ہو میں دنیا میں ہوں اور میں نے دیکھا ہے کہ
000000011: جو والدین ہے
000000012: اس کے بارے میں بہت کچھ
000000013: اس کو دیا ہے
000000014: جو کچھ آپ کے لئے نہیں آتا وہ سب کچھ ہے
000000015: دائیں بازو میں
000000016: بس میرے لئے بس رکھو
000000017: اگر یہ ایرر برقرار رہے تو ہمارے ہیلپ ڈیسک سے رابطہ کریں. غلط استعمال کی اطلاع دیتے ہوئے ایرر آ گیا ہے. براہ مہربانی دوبارہ کوشش کریں. اگر یہ ایرر برقرار رہے تو ہمارے ہیلپ ڈیسک سے رابطہ کریں. غلط استعمال کی اطلاع دیتے ہوئے ایرر آ گیا ہے. براہ مہربانی دوبارہ کوشش کریں. اگر یہ ایرر برقرار رہے تو ہمارے ہیلپ ڈیسک سے رابطہ کریں.

میرے ٹیسٹ کو شاید ہی سائنسی سمجھا جا سکتا ہے اور PocketSphinx کے ڈویلپرز یہ کہہ سکتے ہیں کہ میں سافٹ ویئر کو صحیح طریقے سے استعمال نہیں کروں گا. صوتی تربیت نامی ایک ٹیکنالوجی بھی ہے جو بہتر لغات اور زبان فائلوں کو بنانے کے لئے استعمال کیا جا سکتا ہے.

میرا پریشان کن رائے یہ ہے کہ معیاری روزانہ استعمال کے لئے یہ بہت مشکل ہے.

صوتی نوٹ II

VoiceNote II ایک Chrome ایپ ہے جس میں Google Voice کی شناخت API کا استعمال ہوتا ہے.

اگر آپ کروم یا Chromium براؤزر استعمال کر رہے ہیں تو آپ کو ویب سٹور کے ذریعہ صوتی نوٹ II انسٹال کر سکتے ہیں.

صوتی نوٹ II پر شبیہیں ایک عجیب فیشن میں رکھی جاتی ہیں کیونکہ آپ کو ونڈو کے نچلے حصے میں زبان قائم کرنے کی ضرورت ہوتی ہے اور ترمیم کے بٹن بھی سب سے نیچے ہے، تاہم ریکارڈ بٹن اوپر دائیں پوزیشن میں ہے.

آپ کو کرنے کی پہلی چیز ایک زبان کا انتخاب ہے اور یہ دنیا کے آئیکن پر کلک کرکے حاصل کیا جاسکتا ہے.

ریکارڈنگ شروع کرنے کے لئے، مائکروفون آئکن پر کلک کریں اور اپنے مائکروفون میں بات شروع کرنا. بہترین نتائج کے لئے میں نے بولا کہ آہستہ آہستہ بولی کلیدی طور پر کلیدی تھی تاکہ سافٹ ویئر قائم رکھے.

نتائج بہت اچھے نہیں تھے جیسے ذیل میں دیکھا جا سکتا ہے:

ہیلو اور رابطہ قائم کرنے کا خیر مقدم متن کے تبادلے کے بارے میں آواز کے بارے میں about.com مضامین کے بارے میں 2008 کے بارے میں تبادلوں کے طور پر ڈومیل فارریل مشن 2008 میں تبدیل کیا گیا اور اس نے کہا کہ آپ نے 2014 میں ظاہر کرنے کے لئے آواز کا متن اضافی طور پر سہولت فراہم کی ہے. ڈیبیان یا آر ایف پی پیکج آپ کو منتخب کرنا چاہتے ہیں، بمقابلہ ایڈنبرگ فرانسیسی جرمن کا انتخاب آپ کو سمندری مائکروفون میں آپ کو وقت میں حاصل کرنے کے لئے ایک متن فائل کے طور پر آپ کے متن لکھنا مکمل طور پر انگلینڈ کے جنوب سے اس کے لئے انگریزی معیاری تلفظ کے لئے لکھا ہے، لیکن میں نے اس torrentalong textual جا رہا ہوں اصل دستاویز کے ساتھ اور آپ کو ان کی غلطیوں کے لئے دیکھ سکتے ہیں جو آپ کو سننے کے لئے سازش کرتے ہیں

Dictanote

Dictanote ایک اور کروم اپلی کیشن ہے جس میں تدوین مقاصد کے لئے استعمال کیا جا سکتا ہے اور زیادہ بدیہی ہونے کے طور پر آیا لیکن نتائج صوتی نوٹ II سے بہتر نہیں تھے.

میں صرف ڈکٹانٹو کے ڈیمو ورژن کا استعمال کرتا ہوں جس سے آپ کو نئے دستاویزات پیدا کرنے سے روکتا ہے، لیکن اس سے آپ کو متن میں بات کرنے کی اجازت دیتا ہے جو پہلے ہی ایڈیٹر میں ہے. میں آواز کی شناخت کی جانچ کرنے میں کامیاب تھا لیکن نتائج صوتی نوٹ II سے بہتر نہیں تھے اور اس وجہ سے میں پرو ورژن کے لئے سائن اپ نہیں کیا.

بیان اور میل

"وقفے اور میل" ایک Android ایپلی کیشن ہے جو مقامی Google صوتی شناخت API کا استعمال کرتا ہے.

"وقفے اور میل" کے نتائج اس پروگرام کے دوسرے پروگرام سے کہیں زیادہ بہتر تھے.

ہیلو لینکس کے بارے میں خوش آمدید.، آج ہم آواز کو متن میں تبدیل کرنے کے بارے میں بات کرتے ہیں

"وقفے اور میل" کے ساتھ چال آہستہ آہستہ اور واضح طور پر بولنا ہے اور اس کے ساتھ آپ بھی ایک تلفظ کے ساتھ کرسکتے ہیں.

آپ کو بات کرنے کے بعد آپ اپنے نتائج کو ای میل کرسکتے ہیں.

بات اور بات کی وضاحت

دوسری لوڈ، اتارنا Android درخواست جس نے میں کوشش کی تھی "بات چیت اور بات کا اظہار".

اس اپلی کیشن کے لئے انٹرفیس گروپ کا سب سے اچھا تھا اور آواز کی شناخت واقعی میں اچھی طرح سے کام کیا. حکم ریکارڈ کرنے کے بعد میں نتائج کو ای میل کے ذریعہ سمیت مختلف طریقوں میں اشتراک کرنے کے قابل تھا.

linux.com.com آج ہم خوشخبری کو متن میں تبدیل کرنے کے بارے میں بات کر رہے ہیں

جیسا کہ آپ اوپر متن دیکھ سکتے ہیں اس کے بارے میں واضح ہے کہ آپ ممکنہ طور پر حاصل کرنے کی توقع کرسکتے ہیں. آہستہ بات کرتے ہوئے کلید ہے.

خلاصہ

مقامی لینکس میں صوتی شناخت اور خاص طور پر تنازعات کے حوالے سے جانے کا کوئی طریقہ ہے. وہاں کچھ ایپلی کیشنز ہیں جو Google Voice API استعمال کرتے ہیں لیکن ابھی تک ان کی ذخیرہ شدہ فہرست میں درج نہیں ہیں.

ChromeOS ایپلی کیشنز تھوڑی سی بہتر ہیں لیکن میرے موبائل فون کا استعمال کرتے ہوئے اب تک بہترین نتائج حاصل کیے گئے تھے. شاید فون میں ایک بہتر مائیکروفون ہے اور اس وجہ سے صوتی شناختی سافٹ ویئر کو تبادلوں کا بہتر موقع ملتا ہے.

آواز کی شناخت کے لئے واقعی قابل استعمال بننے کے لئے اسے کم سیٹ اپ کی ضرورت کے ساتھ زیادہ بدیہی ہونا ضروری ہے. آپ کو یہ سمجھدار بنانے کے لئے زبانی ماڈلوں اور لغاتوں کے ارد گرد گندگی کرنے کی ضرورت نہیں ہے.

میں اس کی تعریف کرتا ہوں کہ آواز کی شناخت کی پوری فن بہت مشکل ہے کیونکہ ہر ایک مختلف آواز ہے اور خطے سے خطے میں خطے میں بہت سی زبانیں موجود ہیں جو دنیا بھر میں استعمال ہونے والی سوسی زبانوں کے بارے میں فکر مند نہیں ہیں.

لہذا، میرا تجزیہ، یہ ہے کہ صوتی شناختی سافٹ ویئر ابھی تک جاری ہے.