علوم الحاسبات والمعلومات هندسة التحكم هندسة رياضية

خوارزمية جديدة تجعل الحاسوب قادرًا على قراءة الشفاه

خوارزمية جديدة تجعل الحاسوب قادرًا على قرآءة الشفاه
بواسطة أسامة أحمد

لن ينسى محبو كرة القدم النطحة الشهيرة للاعب الفرنسي زين الدين زيدان أثناء المباراة النهائية لكأس العالم (2006) بين فرنسا وإيطاليا، حيث نال زين الدين زيدان البطاقة الحمراء بسبب اعتدائه على اللاعب الإيطالي (ماركو ماتيرازي- Marco Materazzi) بعد تبادل الحديث اللفظي بينهما، وترك زيدان المباراة بعد طرده مما سهّل على المنتخب الإيطالي الفوز بالمباراة وبكأس العالم أيضًا، فيما بعد عُرف أن ماتيرازي كان قد استفز زيدان بالاعتداء اللفظي على إحدى قريباته.

قالت (هيلين بير- Helen Bear) عالمة الحاسوب في جامعة شرق انجليا في مدينة نورويتش في المملكة المتحدة:

«لو كنا نملك تكنولوجيا تمكننا من قراءة الشفاه (Lips reading) كنا سنتمكن من تفسير رد فعل زيدان، وبعد معرفة تفسير رد فعل زيدان كان سيطرد الحكم كِلا اللاعبين، يطرد ماتيرازي بسبب اعتدائه اللفظي على زيدان ويطرد زيدان بسبب نطحه لماتيرازي، ولربما كانت نتيجة المباراة ستختلف.»

استطاعت هيلين بير وزميلها (ريتشارد هارفي- Richard Harvey) عمل خوارزمية جديدة لقراءة الشفاه، والتي يمكنها تحسين قدرة الحاسوب على التمييز بين الكلمات التي تتشابه في حركة نطقها على الشفاه، كمثال لذلك لدينا الحروف الهجائية (p،b،m) جميعها تخرجها الشفاه بنفس الشكل، وقدّم الباحثون السابق ذكرهم خوارزميتهم الجديدة لقراءة الشفاه في المؤتمر الدولي لمعالجة الإشارات والكلام والصوتيات لجمعية مهندسي الكهرباء والإلكترونيات IEEE (International Conference on Acoustics, speech, and signal processing) في شانغهاي في الصين.

يمكن استخدام تلك الخوارزمية التي يمكنها قراءة الشفاه بكفاءة، في أغراض أخرى غير غرض تحكيم مباريات كرة القدم، يمكن استخدامها في حل ألغاز الجرائم الجنائية، ويمكن استخدامها في تحليل حوادث السيارات وحوادث الطائرات عن طريق اللقطات المسجلة مسبقًا، وذلك طبقًا لكلام هيلين بير، ويمكن استخدام الخوارزمية في مساعدة الصم والبكم، ويمكن استخدامها أيضًا في دبلجة الأفلام السينمائية.

تكمن مهمّة قراءة الشفاه أو التعرف على الكلام بالرؤية (visual speech recognition)، بالتعرف على الحركات والأشكال التي يصدرها الفم ومن ثم تحويلها إلى كلمات، ويُعدُّ الأمر أكثر تحديًا وأكثر تعقيدًا من التعرف على الكلام المسموع (Audio speech recognition) الأكثر شيوعًا حاليًا؛ وذلك بسبب أن الفم يشكّل حوالي من (10- 14) شكل يسمون فيزيمات (Visemes) بينما تمتلك لغة الكلام (50) صوتًا مختلفًا تُسمّى صوتيات (phonemes) لذلك يمكن ربط الفيزيم (viseme) الواحد بأكثر من صوت (phoneme).

هذا وطوّرت هيلين بير وهارفي خوارزمية جديدة من خوارزميات تعلم الآلة (machine learning)، والتي يمكنها بدقة ربط الفيزيم الواحد بصوت محدد، ويتم تدريب الخوارزمية من خلال خطوتين، في الخطوة الأولى يتم تدريب الحاسوب على ربط الفيزيم بكل الصوتيات التي تخصه، وفي الخطوة الثانية يتم مضاعفة الفيزيم إلى عددٍ من النسخ مساوٍ لعدد الصوتيات التي تخصه ثم يتم تدريب كل نسخة فيزيم على تمييز صوت واحد فقط من هذه الصوتيات.

تم استخراج البيانات التي استخدمت في تدريب الخوارزمية من تسجيلات مرئية وصوتية لـ(12) متحدثٍ (7 رجال و5 نساء)، وتحتوي التسجيلات على (200) جملة، واستخدمت هيلين بير خوارزمية شهيرة من خوارزميات الرؤية بالحاسب لاستخراج صور لحركات أفواه المتحدثين، ثم ربطت هذه الصور بالفيزيمات المناسبة لها، وربطت التسجيلات المسموعة بالصوتيات المناسبة لها، ثم استخدمت جميع هذه البيانات في تدريب الخوارزمية.

وتستطيع الخوارزمية التعرف على (25%) من الأصوات بشكل صحيح، ويعتبر ذلك تحسنًا عن الخوارزميات السابقة، حيث جعلت الخوارزمية قراءة حركة الشفاه تتحسن بقيمة (5%) عن الطرق السابقة، وتقول هيلين بير أن ذلك يعتبر تقدمًا ملحوظًا جدًا مقارنةً بالأنظمة التي تم صنعها سابقًا للتعرف على الكلام.

ترجمة: Osama Ahmed

مُراجعة: Matalgah Hamzeh

تصميم: Osama Ahmed

المصدر: http://sc.egyres.com/PyhVS

 

عن الكاتب

أسامة أحمد

خريج علوم حاسب جامعة حلوان، مطور برمجيات وباحث مهتم بالذكاء الاصطناعي وتعليم الالة.