الرئيسية 5 اتصال 5 خاصية التعرف على الصوت:مايكروسوفت تساوي بين الإنسان والآلة

خاصية التعرف على الصوت:مايكروسوفت تساوي بين الإنسان والآلة

بقلم فريد فارح

حققت شركة مايكروسوفت خطوات عملاقة في مجال خاصية التعرف على الصوت (الكلام)، حيث ولأول مرة سيكون بإمكان حاسوب التعرف على الكلمات في محادثة ما، بنفس الطريقة التي يقوم بها محاور بشري.

وشهدت العشر سنوات الأخيرة تقدما كبيرا في مجال تحسين موثوقية أنظمة المعالجة التلقائية للكلام، وكانت شركة مايكروسوفت هي التي تمكنت من تحقيق هذه القفزة في هذا المجال، وأغلب الأعمال حاليا في مرحلة البحث.

وقام فريق باحثين من شركة مايكروسوفت من تطوير تكنولوجيا صوتية تهدف إلى تمكين الآلة من إدراك وتفكيك كلمات محادثة تخاطبية، تماما مثل المحاور البشري.

وبالفعل فقد تمكن هذا الفريق من وضع تقنية جديدة للتعرف على الكلام في المحدثة التخاطبية تتيح الوصل إلى نفس الأداء لمحاور بشري، حيث تم استلهامها من مفهوم الشبكات العصبية، حيث تقوم هذه الطريقة على وضع قائمة لمرادفات الكلمات المختلفة في النطق (صوتيا).

وورد في مقال نسر في 17 أكتوبر الماضي ويمكن تحمليه من موقع   arxiv.org، لفريق من باحثي مايكروسوفت لمخبر البحث في الذكاء الاصطناعي (Cornell University Library)،  تمكن الفريق من وضع نظام للتعرف الصوتي خلال المحادثة يقترب كثيرا من أداء المحاور البشري.

وقام المهندسون الأمريكيون خلال مرحلة التجريب النهائية للنظام، بقياس معدل الخطأ للكلمات  WER (Word Error Rate)، فكان في حدود 5.9 % مقابل 6.3 % قبل شهر.

وحسب مختصين في التعرف الصوتي فإن معدل خطأ بنسبة 5.9 %، هو تقريبا مكافئ ومساوي لمحاورين بشريين بعد أن تم دعوتهم لنسخ نفس المحتوى التخاطبي.

وبالنسبة لعملاق برمجيات الحواسيب فإن الأمر يتعلق بمعدل الخطأ الأضعف الذي لم يصل إليه احد من قبل في المجال الصناعي للتعرف الصوتي، حيث صرح مسؤول علوم الصوت (الكلام) لدى مايكروسوفت “كسيودونغ هوانغ بالقول “لقد بلغنا المساواة بين الرجل والآلة”.

 

عقود من الجهد

نتائج عمليات البحث لمهندسي مايكروسوفت تخطت بكثير تطلعات مؤطريهم، ولأول مرة في تاريخ الإعلام الآلي يمكن لحاسوب أو أي جهاز إعلام آلي آخر، التعرف على الكلمات المشكلة لمحادثة تخاطبية بنفس الطريقة التي يقوم بها المحاور البشري، وتم تحقيق هذا الابتكار التاريخي بعد عقود من الجهود في تطوير أنظمة التعرف الصوتي.

وانطلقت إعمال البحث خلال سنوات السبعينات، عندما تم إنشاء وكالة “DARPA” الأمريكية، وهي هيئة متخصصة في تطوير التكنولوجيات المتعددة التخصصات لصالح الأمن القومي الأمريكي.

وبمرور السنوات انخرطت عديد المؤسسات المختصة في التكنولوجيا وهيئات البحث في مشاريع وكالة “DARPA”.

وسيكون لهذا الانجاز التكنولوجي مفعول واسع على منتجات تكنولوجيات المعلومات، أين سيتم تحسين أداء أنظمة المنطق عن طريق خاصية التعرف الصوتي.

وستكون أجهزة الترفيه على غرار الألعاب ” Xbox” وغيرها أكثر تكيفا مع حاجات المستخدمين، حيث صرح في هذا الإطار نائب الرئيس التنفيذي لمايكروسوفت هاري شوم والمسير لقطب البحث في الذكاء الاصطناعي، بالقول “بالنسبة لنا، أداء مماثل سيمنح ذكاء أكثر لمساعدنا الرقمي الشخصي “كورتانا Cortana”.

للإشارة هذا الابتكار الجديد لن يصل بالحاسوب إلى تعرف صوتي كامل لكل كلمة منفصلة، وهو نفش الشيء بالنسبة للإنسان.

 

المزيد من الذكاء لنظام “كورتانا Cortana”

انجاز باحثي شركة مايكروسوفت يكمن في كون وسيلة التعرف الصوتي تتحكم بشكل جيد في سرعة تفصيل الكلمات الواردة في محتوى المحادثة التخاطبية، وعلى غرار محاور بشري، الآلة يمكن هلا على سبيل المثال أن تسمع « ont » مكان « est » إذا كانت سرعة تفصيل الكلمات عالية.

ويؤكد الباحثون في مقالهم أن السر وراء هذا الانجاز التكنولوجي، هو استعمال التلقائي المتكرر لشبكات عصبية، LSTM (Long Short Term Memory)، وهذا خلال كافة مراحل النظام.

وترتكز هذه الطريقة الجديد من نماذج إشارات الكلام على مبدأ تمثيل الكلمات الخطاب بناقلات متسمرة في الفضاء، تتيح التعرف وتجميع مرادف الكلمات المختلفة في النطق (صوتيا)، وجعلها في نفس مجموعة الناقلات.

وعلى سبيل المثال الكلمة الانجليزية « rapid » et « speedy » يتم تصنيفهم في نفس مجموعة الناقلات، وبذلك فإن  مسار تعميم نماذج التعرف الصوتي للخطاب بواسطة الكلمة سيصبح سهلا أكثر.

ويتيح النموذج الصوتي ” LSTM” للشبكات العصبية استعمال كميات كبيرة من البيانات التي تدعى “مجموعات التدريب” من اجل إكساب النظام المعلوماتي الطريقة المثلي للتعرف على الأشكال انطلاقا من المعلومات الأولية على غرار الصوت والصورة.

ومن اجل رفع التحدي لمساواة الإنسان بالآلة، استعمل الباحثون أيضا علبة الأدوات المعرفية لمايكروسوفت ” CNTK”، المتوفرة على ” GitHub”، حيث تتوفر لدى هذه الوسيلة القدرة على المعالجة السريعة للخوارزميات “اللوغاريتمات” للتعليم المكثف، باستعمال عدة أجهزة حاسوب تشتغل بشريحة واحدة تدعى “وحدة المعالجة النظرية (الرسومات).

 

 

 

 

إعجاب لمتابعة جديد الجزائر اليوم