یادگیری ماشینی توانایی عربی زبان را بهبود می بخشد


به لطف پیشرفت در پردازش گفتار و زبان، این امید وجود دارد که روزی بتوانید از دستیار مجازی خود بپرسید که بهترین مواد تشکیل دهنده چیست. اکنون، می‌تواند از ابزار خانگی شما بخواهد موسیقی بسازد یا فرمان صوتی را که از قبل در برخی از کیت‌های تولید وجود دارد، روشن کند.

اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر زبان دیگری از زبان عربی صحبت می کنید، که از منطقه ای به منطقه دیگر تنوع زیادی دارد، جایی که برخی از آنها مخالف هستند، داستان متفاوت است. اگر زبان شما همیشه عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با درجه تنوع الگوی بالایی است، ممکن است فکر کنید چپ.

این تحولات احمدعلی را بر آن داشت تا به دنبال راه حل باشد. او کارشناس گروه فناوری زبان عربی در مؤسسه تحقیقات محاسباتی قطر (QCRI) است – بخشی از دانشگاه حمد بن خلیفه بنیاد قطر و بنیانگذار ArabicSpeech، “جامعه گفت. عربی و فناوری “

دفتر مرکزی بنیاد قطر

علی سال‌ها پیش در IBM مجذوب ایده صحبت کردن درباره ماشین‌ها، ابزارها و وسایل بود. «آیا می‌توانیم دستگاهی بسازیم که قادر به درک زبان‌های مختلف باشد – یک دکتر در مصر برای تغییر دستور، یک مربی سوری برای کمک به کودکان برای استفاده حداکثری از زبانشان، یا یک آشپز مراکشی بهترین دستور پخت کوسکوس را توصیف می‌کند؟» او گفت. با این حال، الگوریتم‌هایی که ماشین‌ها را نیرو می‌دهند، نمی‌توانند تقریباً 30 نوع زبان عربی را غربال کنند، چه رسد به اینکه آنها را قابل درک کند. امروزه اکثر دستگاه های گفتاری فقط به زبان انگلیسی و چند زبان کار می کنند.

این بیماری همه گیر بیشتر بر قابلیت اطمینان فناوری صدا تأثیر گذاشته است، جایی که استفاده از دستگاه های زبان طبیعی به مردم کمک می کند تا دستورالعمل ها را در خانه و از نظر فیزیکی اندازه گیری کنند. با این حال، در حالی که ما از دستورات برای کمک به خرید تجارت الکترونیک و مدیریت خانواده خود استفاده می کنیم، در آینده هنوز برنامه های کاربردی زیادی وجود دارد.

میلیون ها نفر در سراسر جهان از آموزش آنلاین عظیم (MOOC) برای برنامه های باز و غیر مشارکتی آن استفاده می کنند. تشخیص گفتار یکی از ویژگی‌های کلیدی در MOOC است، که در آن دانش‌آموزان می‌توانند در زمینه‌های خاصی در زمینه محتوای کلاس کاوش کنند و در ترجمه زیرنویس‌ها کمک کنند. فناوری گفتار دیجیتالی کردن سخنرانی ها را برای آموزش متون گفتاری در کلاس های کالج امکان پذیر می کند.

احمد علی، دانشگاه حمد بن کهلیفه

بر اساس مقاله اخیر در مجله Speech Technology، پیش بینی می شود که بینش صدا و صنعت تا سال 2025 به 26.8 میلیارد دلار برسد که دلیل آن میلیون ها مصرف کننده و شرکت در سراسر جهان است. بلکه برای بهبود خدمات مشتری، هدایت نوآوری های پزشکی، و بهبود دسترسی و شمارش از جمله مهارت های شنوایی، گفتار یا حرکتی.

در یک نظرسنجی در سال 2019، Capgemini پیش‌بینی کرد که تا سال 2022، بیش از دو سوم مصرف‌کنندگان به جای مراجعه به خرده‌فروشان یا حساب‌های بانکی، ارائه‌دهندگان خدمات صوتی را انتخاب خواهند کرد. سرمایه گذاری مشترکی که می تواند تمرکز کند، مسکن، بدن را از زندگی و اقتصاد دور کند که اپیدمی بیش از یک سال و نیم جهان را مجبور کرده است.

با این حال، این دستگاه ها به بسیاری از دنیاها صادر نمی شوند. برای آن 30 زبان به زبان عربی و میلیون ها نفر، وقت هیچ چیز نیست.

عربی برای ماشین

ربات‌های انگلیسی یا فرانسوی زبان کاملاً کامل نیستند. با این حال، آموزش یک ماشین برای درک عربی برای بسیاری دشوار است. در اینجا سه ​​چالش وجود دارد که نشان می دهد:

  1. بدون نشانه. زبان عربی مانند اکثر ضمایر عامیانه است. بیشتر متن های موجود غیرقابل توصیف هستند، به این معنی که صداهایی مانند ‘(‘) یا grave (‘) ندارد که صدای متن را نشان دهد. بنابراین، تعیین محل رفتن حروف صدادار دشوار است.
  2. بدون لایه سرمایه کمبود رکورد برای زبان های مختلف عربی وجود دارد. آنها با هم چارچوب قانونی ندارند که با زبان شناسی از جمله الگوها یا املا، خط فاصله، نقطه گذاری و اهمیت سروکار داشته باشد. این منابع برای آموزش مدل های کامپیوتری ضروری هستند، و این واقعیت که تعداد بسیار کمی از آنها مانع توسعه زبان عربی شده اند.
  3. پیچیدگی مورفولوژیکی عرب زبانان در بسیاری از تغییرات سیاست شرکت می کنند. به عنوان مثال، در مناطق فرانسه-شمال آفریقا، مراکش، الجزایر و تونس- زبان چینی شامل بسیاری از اصطلاحات وام فرانسوی است. در نتیجه آنقدر گفتار خارج از زبان نامیده می شود که دانش گفتار به دلیل عربی نبودن زبان قابل درک نیست.

علی گفت: «اما صاعقه میدان را به حرکت درآورد. این همکاری بسیاری از دانشمندان است تا سریعتر حرکت کند. آزمایشگاه فناوری زبان عربی علی بر روی ArabicSpeech کار می کند تا ترجمه عربی را با زبان هایی که در همه مناطق در دسترس هستند یکپارچه کند. به عنوان مثال، زبان عربی را می توان به چهار زبان منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، از آنجایی که زبان از یک منطقه پیروی نمی کند، این کار را می توان به بهترین شکل به عنوان یک زبان در یک شهر انجام داد. برای مثال، یک گوینده مصری را می‌توان با لهجه اسکندریایی توسط همشهریان خود از اسوان (1000 مایل دورتر روی نقشه) تشخیص داد.

آینده ای با فناوری برای همه ایجاد کنید

در این زمان، فناوری تا حد زیادی به لطف پیشرفت در شبکه‌های عصبی عمیق، زیرشاخه‌های یادگیری ماشین در فناوری‌های قابل اعتماد، برای الگوریتم‌های ناشی از عملکرد مغز انسان، بیولوژیکی و عملکردی، به اندازه نوشتار انسان واقعی شده است. با این حال، تا همین اواخر، مهارت های گفتاری با هم هک می شدند. این دستگاه ها سابقه اتکا به مدل های مختلف برای طراحی آکوستیک، طراحی گفتار و طراحی دستور زبان دارند. همه ماژول هایی که نیاز به مطالعه جداگانه دارند. اخیراً دانشمندان در حال مطالعه مدل‌هایی بوده‌اند که ویژگی‌های صوتی را مستقیماً به متن تبدیل می‌کنند، که می‌تواند در هر مکانی برای پردازش نهایی تطبیق داده شود.

با وجود این پیشرفت‌ها، علی هنوز نمی‌تواند صدای اکثر سازها را به زبان عربی مادری‌اش بدهد. او گفت: «سال 2021 است و من هنوز نمی‌توانم با بسیاری از ماشین‌ها به زبانم صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما دستگاه تشخیص بسیاری از زبان های عربی هنوز ظاهر نشده است.

تحقق این امر هدف کار علی بود که در اولین تبدیل به دانش عربی و زبان آن محقق شد. کاری که اکنون برای اهداف مختلف انجام شده است. این فناوری که QCRI Advanced Transcription System نام دارد، اکنون توسط شبکه های تلویزیونی الجزیره، DW و BBC برای ضبط محتوا به صورت آنلاین استفاده می شود.

به چند دلیل علی و تیمش در توسعه فناوری گفتار فعلی موفق بودند. به طور کلی، او گفت: “باید منابعی در همه زبان ها وجود داشته باشد. ما باید منابعی را توسعه دهیم تا بتوانیم این مدل را آموزش دهیم.” پیشرفت در علوم کامپیوتر به این معنی است که علوم کامپیوتر به کمک کامپیوتر اکنون در اتاق هنرهای تجسمی ظاهر می شود. که می تواند به سرعت و به راحتی تصاویر دشوار را تجسم کند. همانطور که علی گفت: ما طرح های زیبا، طرح های خوب و موادی داریم که نشان دهنده حقیقت است.

محققان QCRI و Kanari AI اخیراً مدل هایی را توسعه داده اند که می تواند تعاملات انسانی در رسانه ها را به زبان عربی کامل کند. این سیستم در مورد تأثیر زیرنویس کردن اعلان‌های روزانه Aljazeera گزارش می‌دهد. در حالی که خطای خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، مطالعه نشان داد که HER عربی بالاتر است و به دلیل مشکلات صرفی در زبان و عدم استفاده از تکنیک های املایی در عربی می تواند به 10 درصد برسد. به لطف پیشرفت های اخیر در یادگیری عمیق و معماری پایان به انتها، فناوری تشخیص گفتار عربی توانسته است از گویندگان در رسانه ها بهتر عمل کند.

در حالی که به نظر می رسد دانش استاندارد عربی مدرن در مورد گفتار به خوبی کار می کند، دانشمندان QCRI و Kanari AI در آزمایش مرزهای گفتار و دستیابی به نتایج عالی مشارکت داشته اند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، اطاعت چیزی است که ما برای کمک به گروه کر خود نیاز داریم تا ما را درک کنند.

این مقاله توسط موسسه تحقیقات محاسبات قطر، دانشگاه حمد بن خلیفه، یکی از اعضای بنیاد قطر نوشته شده است. این توسط تحریریه MIT Technology Review نوشته نشده است.

پاربرگ سایت


تمامی اخبار به صورت تصادفی و رندومایز شده پس از بازنویسی رباتیک در این سایت منتشر شده و هیچ مسئولتی در قبال صحت آنها نداریم