الثلاثاء، 27 أغسطس 2019

جوجل وأداة جديدة لمن يمتلك صعوبات في الكلام باستخدام الذكاء الاصطناعي

يعاني ما يقارب الـ 18.5 مليون شخص حول العالم من اضطراب مربتط بالنطق
والكلام واللغة بشكل عام، وذلك بحسب احصائية أجرتها المنظمة الوطنية
الأمريكية للصمم واضطرابات التواصل الأخرى National Institute on
Deafness and Other Communication Disorders في عام 2010. بالطبع التقنية
تساهم التقنية في القطاع الطبي كغيره، وهذا يقودنا إلى عنوان مقالنا.
سنتعرف على بعضيعاني ما يقارب الـ 18.5 مليون شخص حول العالم من اضطراب
مربتط بالنطق والكلام واللغة بشكل عام، وذلك بحسب احصائية أجرتها المنظمة
الوطنية الأمريكية للصمم واضطرابات التواصل الأخرى National Institute on
Deafness and Other Communication Disorders في عام 2010. بالطبع التقنية
تساهم التقنية في القطاع الطبي كغيره، وهذا يقودنا إلى عنوان مقالنا.
سنتعرف على بعض الأدوات المطورة وباستخدام الذكاء الاصطناعي وقراءة أمواج
الدماغ ، والذي يعتبر من أهم المجالات التي تحسن قدرات التعلم وتطور
القدرات بشكل ذاتي، وذلك يتحقق باستخدام خوارزميات ذكية تطور نفسها من
خلال قراءة البيانات التي تعرض عليها، حيث تمثل آلية العمل لديها
بالتفكير العميق ثم التعلم، وبالنهاية يتم تطبيقها على العمليات للمساعدة
في أخذ القرارات وفي التنبؤ بالمستقبل. تلك القدرات سوف تضاف إلى تلك
الأدوات التي يعمل عليها العلماء في جوجل، حيث يدرسون طرقا تساعد في
تقليل الأخطاء التي تحصل أثناء الكلام  من استبدال كلمات وحذفها ومن ثم
إدراجها في نماذج الكلام. اقرأ المزيد: هل تبحث عن برنامج ترجمه .. جميعُ
اللغات أصبحت بين يديك مع هذه المجموعة من برامج الترجمة

Google Parrotron

هي عبارة عن مبادرة بحثية مستمرة والتي تهدف إلى حل مشاكل وتحسين النطق
عند أولئك الأشخاص الذين يعانون من صعوبة في الكلام، حيث تمكنهم من
التحدث بشكل أفضل وجعل الكلام مفهوما أكثر، حيث يسهل على المستخدمين
الذين يعانون من مشكلة في الكلام "كلام غير مفهوم جيدا" للتحدث مع
الآخرين، فيتم تحويل صيغ الكلام من طرف لآخر مع إعادة صياغة الكلام
المقصود (المحكى).

آلية العمل

تستخدم هذه الأداة نظام الذكاء الاصطناعي حيث يتم تدريبه على تحويل كلام
الشخص غير المفهوم  إلى كلام آخر مصاغ بشكل جيد، وتؤخذ بعين الاعتبار
الإشارات الناتجة عن الكلام بدلا من الإشارات المرئية مثل حركات الشفة،
ويتم تدريبه على مرحلتين باستخدام مجموعة متوازية أو متشابهة (مجموعة من
النصوص المكتوبة) من ثنائيات دخل\خرج.

مراحل التدريب

في المرحلة الأولى تم الاعتماد على مجموعة كبيرة من البيانات على شكل
ثنائيات كل منها يتضمن كلامًا طبيعيًا وما يقابله من كلام مأخوذ من نظام
Google's Parallel WaveNet (نظام تحويل نص الى كلام)، وهذه المجموعات
تحتوي على الكثير من اللهجات و اللغات و الظروف الصوتية. هذا ما جعل
الأمر قابلًا للنمذجة على مدى واسع من اللغات واللهجات، وبالرغم من
الضجيج المتواجد في نفس اللغة (وهذا مكّن من تشكيل الكلام النموذجي
بالرغم من تعدد اللغات واللهجات ووجود الضجيج). والمرحلة الثانية تتضمن
مجموعة من البيانات المنفصلة تم الحصول عليها من المصادر التي تشبه
Euphonia (أدواة توليد اصوات مستخدمة حاليا)، وذلك لتكييف الشبكة على
أنماط صوتية عدة مثل الكلام من خلال مكبر الصوت وغيرها، وهذا التدريب أدى
إلى تحسين جودة النظام مما جعله يتنبأ بالصوتيات المقصودة مع إنشاء تمثيل
مرئي بترددات الإشارات الصوتية مع مرور الوقت.

النتائج

وتحقق الباحثون من نهجهم من خلال مجموعة من المتكلمين مصابين بالتصلب
الجانبي الضموري، بالإضافة الى ديمتري كانيفسكي عالم أبحاث أصم في
الرياضيات في جوجل، والذي سجل مجموعة كبيرة من النصوص لـ 15 ساعة من
الكلام وكانت النتيجة انخفاض معدل الخطأ لخرج باراترون الى 32% بعد ما
كان 89% قبل استخدام بارترون. اقرأ المزيد: ماذا يحدث في عالم الويب
العميق؟ قصص حقيقية وحقائق مرعبة!

تقنية قراءة أمواج الدماغ

هذه التقنيات موجهة للذين يعانون من عدم القدرة على النطق نهائيا حيث
تهدف هذه التقنية لمساعدة هؤلاء الأشخاص على مخاطبة الآخرين من خلال
قراءة إشارات الدماغ وتحويلها الى كلام، في محاولة لتوفير أصوات واضحة
لهم. في السابق استخدم العلماء تقنيات الذكاء الصنعي لتكوين كلمات فردية
2 أو 3 والتي لها مقطع لفظي واحد من إشارات أو نشاط الدماغ، وآن الانتقال
من مقطع مفرد (كلمة – عدة كلمات) إلى جمل مصاغة بشكل جيد تحديا تقنيا وهي
التي تجعل العمل الحالي مثيرا للإعجاب .

الطريقة التقليدية لتوليد الكلمات والجديدة منها

الكثير من الأشخاص الذين فقدوا القدرة على التكلم تم توفير جهاز خاص بهم،
تتطلب منهم فقط تحريك رؤوسهم للتحكم بالمؤشر من أجل اختيار أحرف الكلمات
المراد قولها، أي إنشاء الكلمات من خلال اختيار الأحرف. إن الأشخاص الذين
استخدموا الجهاز السابق قد انتجوا عشر كلمات في الدقيقة، وهذا المعدل
قليل جدًا ويدل ذلك على كفاءة الجهاز القليلة (بطيء جدا)، إذ يجب أن يكون
معدل الكلمات في الدقيقة 150 كلمة. ولذلك قرر ادوارد تشاتغ Edward Chang
(جراح أعصاب في جامعة كاليفورنيا) وفريقه إلى تصميم نظام توليد اصوات
جديد، الذي تم تجربته على عدد من الأشخاص، حيث قام الباحثون (تشانغ
وفريقه) بوضع لاصقات كهربائية على رؤوسهم وبعدها طلبوا منهم أن يتكلموا
عدة جمل بصوت عالٍ ليسجلوا نشاط الدماغ. لغرض التحقق طلب الباحثون من شخص
ما بأن يقوم بقراءة نفس الجملة فقط بتحريك شفاه مع قراءة أمواج الدماغ
بشكل مباشر، وبالرغم من أنهم لم يحصلوا على النتيجة المطلوبة فأن الأمر
مازال مشجع.

مستقبل هذه التقنيات

تقول Stephanie Ries ستيفاني ريس عالمة الأعصاب بجامعة سان دييغو ستيت في
كاليفورنيا أن الصوت الناتج عن تطبيق تقنية تسجيل نشاط الدماغ عند حركة
المسالك الصوتية يكون مفهوم أكثر من الصوت الناتج عن قراءة نشاط الدماغ
مباشرة، وحسب رأي Amy Orsborn مهندسة عصبية في جامعة واشنطن في سياتل،
فمن غير الواضح فيما إذا كانت تقنية قراءة نشاط الدماغ مباشرة أي بما
يفكر به الناس ستعمل كما المتوقع، وكيف من الممكن أن تعمل مع الأشخاص
الغير قادرين على تحريك أفواههم حتى. اقرأ المزيد: تعرّف على كيفية
إستعادة رسائل WhatsApp المحذوفة حتى بدون نسخة إحتياطية

ليست هناك تعليقات:

إرسال تعليق