ثورة الدبلجة بالذكاء الاصطناعي: كيف تعمل

في الدبلجة التقليدية، يتطلب المشهد الواحد حجز الاستوديو وتنسيق الصوت والتسجيل والمزج - وهي عملية قد تستغرق أيامًا. وقد قامت المنصات التي تعمل بالذكاء الاصطناعي مثل سبيموف بضغط هذه العملية في دقائق.

الخطوة 1: التعرف التلقائي على الكلام (ASR)

الخطوة الأولى هي تحويل المسار الصوتي للفيديو إلى نص. يمكن لنماذج التعرف التلقائي على الكلام المتقدمة التمييز بين المتحدثين (تسجيل اليوميات)، وتصفية الضوضاء، وإنتاج نص ذو طابع زمني. وهذا يخبر النظام بالوقت المحدد لنطق كل جملة.

الخطوة 2: الترجمة الآلية

تتم ترجمة النص الناتج إلى اللغة الهدف باستخدام نماذج اللغة الكبيرة (LLMs). وبدلاً من استبدال كلمة بكلمة، تأخذ هذه العملية في الاعتبار السياق الثقافي والتعبيرات الاصطلاحية. على سبيل المثال، تصبح عبارة "كسر ساق" المعادل الطبيعي في اللغة الهدف.

الخطوة 3: تركيب الصوت واستنساخه

يتم تمرير النص المترجم من خلال محرك TTS (تحويل النص إلى كلام) الذي يحاكي الخصائص الصوتية للمتحدث الأصلي. تعمل أنظمة استنساخ الصوت الحديثة تلقائيًا على مطابقة الإيقاع وطبقة الصوت والنغمة العاطفية مع الصوت الأصلي.

الخطوة 4: محاذاة الوقت

يستغرق نطق الجملة نفسها فترات زمنية مختلفة بلغات مختلفة. ومن ثم، تتم محاذاة الصوت المركب مع المخطط الزمني للفيديو ومزامنته مع حركات شفاه المتحدث.

مزامنة الشفاه: المستوى التالي

بعيدًا عن المزامنة الأساسية، تعمل تقنية مزامنة الشفاه على إعادة تشكيل حركات شفاه المتحدث في الفيديو لتتناسب مع التسجيل الصوتي الجديد. هذه الخطوة هي الأكثر كثافة من الناحية الحسابية في المسار وتستمر في التحسن بسرعة.

يقوم Spimov بتنفيذ هذه العملية برمتها من خلال استدعاء واحد لواجهة برمجة التطبيقات (API). قم بتحميل الفيديو الخاص بك، واختر لغة، وقم بتنزيل المحتوى متعدد اللغات في دقائق.