به لطف پیشرفت در پردازش گفتار و زبان، این امید وجود دارد که روزی بتوانید از دستیار مجازی خود بپرسید که بهترین مواد تشکیل دهنده چیست. اکنون، میتواند از ابزار خانگی شما بخواهد موسیقی بسازد یا فرمان صوتی را که از قبل در برخی از کیتهای تولید وجود دارد، روشن کند.
اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر زبان دیگری از زبان عربی صحبت می کنید، که از منطقه ای به منطقه دیگر تنوع زیادی دارد، جایی که برخی از آنها مخالف هستند، داستان متفاوت است. اگر زبان شما همیشه عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با درجه تنوع الگوی بالایی است، ممکن است فکر کنید چپ.
این تحولات احمدعلی را بر آن داشت تا به دنبال راه حل باشد. او کارشناس گروه فناوری زبان عربی در مؤسسه تحقیقات محاسباتی قطر (QCRI) است – بخشی از دانشگاه حمد بن خلیفه بنیاد قطر و بنیانگذار ArabicSpeech، “جامعه گفت. عربی و فناوری “
علی سالها پیش در IBM مجذوب ایده صحبت کردن درباره ماشینها، ابزارها و وسایل بود. «آیا میتوانیم دستگاهی بسازیم که قادر به درک زبانهای مختلف باشد – یک دکتر در مصر برای تغییر دستور، یک مربی سوری برای کمک به کودکان برای استفاده حداکثری از زبانشان، یا یک آشپز مراکشی بهترین دستور پخت کوسکوس را توصیف میکند؟» او گفت. با این حال، الگوریتمهایی که ماشینها را نیرو میدهند، نمیتوانند تقریباً 30 نوع زبان عربی را غربال کنند، چه رسد به اینکه آنها را قابل درک کند. امروزه اکثر دستگاه های گفتاری فقط به زبان انگلیسی و چند زبان کار می کنند.
این بیماری همه گیر بیشتر بر قابلیت اطمینان فناوری صدا تأثیر گذاشته است، جایی که استفاده از دستگاه های زبان طبیعی به مردم کمک می کند تا دستورالعمل ها را در خانه و از نظر فیزیکی اندازه گیری کنند. با این حال، در حالی که ما از دستورات برای کمک به خرید تجارت الکترونیک و مدیریت خانواده خود استفاده می کنیم، در آینده هنوز برنامه های کاربردی زیادی وجود دارد.
میلیون ها نفر در سراسر جهان از آموزش آنلاین عظیم (MOOC) برای برنامه های باز و غیر مشارکتی آن استفاده می کنند. تشخیص گفتار یکی از ویژگیهای کلیدی در MOOC است، که در آن دانشآموزان میتوانند در زمینههای خاصی در زمینه محتوای کلاس کاوش کنند و در ترجمه زیرنویسها کمک کنند. فناوری گفتار دیجیتالی کردن سخنرانی ها را برای آموزش متون گفتاری در کلاس های کالج امکان پذیر می کند.

بر اساس مقاله اخیر در مجله Speech Technology، پیش بینی می شود که بینش صدا و صنعت تا سال 2025 به 26.8 میلیارد دلار برسد که دلیل آن میلیون ها مصرف کننده و شرکت در سراسر جهان است. بلکه برای بهبود خدمات مشتری، هدایت نوآوری های پزشکی، و بهبود دسترسی و شمارش از جمله مهارت های شنوایی، گفتار یا حرکتی.
در یک نظرسنجی در سال 2019، Capgemini پیشبینی کرد که تا سال 2022، بیش از دو سوم مصرفکنندگان به جای مراجعه به خردهفروشان یا حسابهای بانکی، ارائهدهندگان خدمات صوتی را انتخاب خواهند کرد. سرمایه گذاری مشترکی که می تواند تمرکز کند، مسکن، بدن را از زندگی و اقتصاد دور کند که اپیدمی بیش از یک سال و نیم جهان را مجبور کرده است.
با این حال، این دستگاه ها به بسیاری از دنیاها صادر نمی شوند. برای آن 30 زبان به زبان عربی و میلیون ها نفر، وقت هیچ چیز نیست.
عربی برای ماشین
رباتهای انگلیسی یا فرانسوی زبان کاملاً کامل نیستند. با این حال، آموزش یک ماشین برای درک عربی برای بسیاری دشوار است. در اینجا سه چالش وجود دارد که نشان می دهد:
- بدون نشانه. زبان عربی مانند اکثر ضمایر عامیانه است. بیشتر متن های موجود غیرقابل توصیف هستند، به این معنی که صداهایی مانند ‘(‘) یا grave (‘) ندارد که صدای متن را نشان دهد. بنابراین، تعیین محل رفتن حروف صدادار دشوار است.
- بدون لایه سرمایه کمبود رکورد برای زبان های مختلف عربی وجود دارد. آنها با هم چارچوب قانونی ندارند که با زبان شناسی از جمله الگوها یا املا، خط فاصله، نقطه گذاری و اهمیت سروکار داشته باشد. این منابع برای آموزش مدل های کامپیوتری ضروری هستند، و این واقعیت که تعداد بسیار کمی از آنها مانع توسعه زبان عربی شده اند.
- پیچیدگی مورفولوژیکی عرب زبانان در بسیاری از تغییرات سیاست شرکت می کنند. به عنوان مثال، در مناطق فرانسه-شمال آفریقا، مراکش، الجزایر و تونس- زبان چینی شامل بسیاری از اصطلاحات وام فرانسوی است. در نتیجه آنقدر گفتار خارج از زبان نامیده می شود که دانش گفتار به دلیل عربی نبودن زبان قابل درک نیست.
علی گفت: «اما صاعقه میدان را به حرکت درآورد. این همکاری بسیاری از دانشمندان است تا سریعتر حرکت کند. آزمایشگاه فناوری زبان عربی علی بر روی ArabicSpeech کار می کند تا ترجمه عربی را با زبان هایی که در همه مناطق در دسترس هستند یکپارچه کند. به عنوان مثال، زبان عربی را می توان به چهار زبان منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، از آنجایی که زبان از یک منطقه پیروی نمی کند، این کار را می توان به بهترین شکل به عنوان یک زبان در یک شهر انجام داد. برای مثال، یک گوینده مصری را میتوان با لهجه اسکندریایی توسط همشهریان خود از اسوان (1000 مایل دورتر روی نقشه) تشخیص داد.
آینده ای با فناوری برای همه ایجاد کنید
در این زمان، فناوری تا حد زیادی به لطف پیشرفت در شبکههای عصبی عمیق، زیرشاخههای یادگیری ماشین در فناوریهای قابل اعتماد، برای الگوریتمهای ناشی از عملکرد مغز انسان، بیولوژیکی و عملکردی، به اندازه نوشتار انسان واقعی شده است. با این حال، تا همین اواخر، مهارت های گفتاری با هم هک می شدند. این دستگاه ها سابقه اتکا به مدل های مختلف برای طراحی آکوستیک، طراحی گفتار و طراحی دستور زبان دارند. همه ماژول هایی که نیاز به مطالعه جداگانه دارند. اخیراً دانشمندان در حال مطالعه مدلهایی بودهاند که ویژگیهای صوتی را مستقیماً به متن تبدیل میکنند، که میتواند در هر مکانی برای پردازش نهایی تطبیق داده شود.
با وجود این پیشرفتها، علی هنوز نمیتواند صدای اکثر سازها را به زبان عربی مادریاش بدهد. او گفت: «سال 2021 است و من هنوز نمیتوانم با بسیاری از ماشینها به زبانم صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما دستگاه تشخیص بسیاری از زبان های عربی هنوز ظاهر نشده است.
تحقق این امر هدف کار علی بود که در اولین تبدیل به دانش عربی و زبان آن محقق شد. کاری که اکنون برای اهداف مختلف انجام شده است. این فناوری که QCRI Advanced Transcription System نام دارد، اکنون توسط شبکه های تلویزیونی الجزیره، DW و BBC برای ضبط محتوا به صورت آنلاین استفاده می شود.
به چند دلیل علی و تیمش در توسعه فناوری گفتار فعلی موفق بودند. به طور کلی، او گفت: “باید منابعی در همه زبان ها وجود داشته باشد. ما باید منابعی را توسعه دهیم تا بتوانیم این مدل را آموزش دهیم.” پیشرفت در علوم کامپیوتر به این معنی است که علوم کامپیوتر به کمک کامپیوتر اکنون در اتاق هنرهای تجسمی ظاهر می شود. که می تواند به سرعت و به راحتی تصاویر دشوار را تجسم کند. همانطور که علی گفت: ما طرح های زیبا، طرح های خوب و موادی داریم که نشان دهنده حقیقت است.
محققان QCRI و Kanari AI اخیراً مدل هایی را توسعه داده اند که می تواند تعاملات انسانی در رسانه ها را به زبان عربی کامل کند. این سیستم در مورد تأثیر زیرنویس کردن اعلانهای روزانه Aljazeera گزارش میدهد. در حالی که خطای خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، مطالعه نشان داد که HER عربی بالاتر است و به دلیل مشکلات صرفی در زبان و عدم استفاده از تکنیک های املایی در عربی می تواند به 10 درصد برسد. به لطف پیشرفت های اخیر در یادگیری عمیق و معماری پایان به انتها، فناوری تشخیص گفتار عربی توانسته است از گویندگان در رسانه ها بهتر عمل کند.
در حالی که به نظر می رسد دانش استاندارد عربی مدرن در مورد گفتار به خوبی کار می کند، دانشمندان QCRI و Kanari AI در آزمایش مرزهای گفتار و دستیابی به نتایج عالی مشارکت داشته اند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، اطاعت چیزی است که ما برای کمک به گروه کر خود نیاز داریم تا ما را درک کنند.
این مقاله توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.