كيف نتعلم من قطاعي الموسيقى والألعاب في تحسين جودة الصوت في محادثات الفيديو؟

فريق هارفارد بزنس ريفيو/أونسبلاش/ساينس فوتو لايبراري/غيتي إميدجيز

استمع الى المقالة الآن هذه الخدمة تجريبية

ملخص: لقد مررنا جميعنا بهذا الموقف، إذ يشرع بضعة أشخاص في التحدث في الوقت ذاته، وفجأة تجد نفسك غير قادر على سماع ما يقال. الحقيقة أن جودة الصوت في مكالمات الفيديو سيئة للغاية على وجه العموم، حتى إنها تجعل المستخدمين يشعرون بالارتباك والتعب والإحباط بعد يوم طويل من إجراء المكالمات. لكن ينبغي ألا تسير الأمور على هذا النحو ويجب تحسين جودة الصوت في محادثات الفيديو. فقد توصلت قطاعات أخرى، مثل قطاع ألعاب الفيديو، إلى طرق لإنشاء تجارب صوتية غنية وديناميكية، مصحوبة بضوضاء محيطة ذات وقع طبيعي وغُرَف صوتية معقدة تتيح للمستخدمين معرفة ما إذا كان هناك شيء ما يأتي من جانبهم أو أمامهم أو خلفهم، وبالتالي يستطيع المستخدمون الاستمرار لساعات دون كلل أو ملل، بل ويودون قضاء المزيد من الوقت هناك. فكيف يفعلون هذا؟ من خلال إعطاء الأولوية للصوت متعدد القنوات والمدمج بطرق فنية متقنة. ويجب أن يستلهم مهندسو محادثات الفيديو تجارب هذه القطاعات، وأن يستفيدوا من التكنولوجيا المتاحة، مثل تكنولوجيا “دولبي فويس” (Dolby Voice)، التي يمكن أن تسهم في خلق تفاعل يمنح المستخدمين شعوراً بأنهم يعيشون أجواءً طبيعية، ويقدّم لهم تجربة أكثر ثراءً ويسراً، ويجعلهم يشعرون وكأنهم يلتقون وجهاً لوجه.

تسببت الأوضاع المستجدة للاجتماعات الافتراضية التي ستستمر فيما يبدو إلى ما لا نهاية في فرض تغيرات متلاحقة على الأعراف الاجتماعية، وأدت إلى تحفيز الاهتمام بالتكنولوجيا المستخدمة في التواصل البيني. وعلى الرغم من توافر منصات مؤتمرات الفيديو منذ سنوات، فإنها لم تُصمَّم لتحل محل التفاعل الشخصي. وبعد عام من المعاناة مع إجهاد الاجتماعات الافتراضية، حان الوقت لإعادة النظرة في الميزات والسمات التي تسهم في شعور المستخدمين بالقدرة على التواصل، وسبل تحسينها. وتشكل جودة الصوت أحد الجوانب المهمة في هذا السياق. في الواقع، إذا كان بإمكان كل المشاركين في المحادثة أن يسمعوا ما يقال، فبوسعنا أن نقول إن هذه أهم ميزة للتفاعل الشخصي.

إذ لا تتيح لنا جودة الصوت فهم الكلمات في المحادثة فحسب، بل تتيح لنا أيضاً إمكانية التعرف على الحالة المزاجية المستوحاة من نبرة الصوت والتنغيم الصوتي للبيئة المحيطة. من ناحية أخرى، فإن سوء جودة الصوت يشعرنا بالإحباط. ودائماً ما يشوّش المتحدثون على بعضهم حينما يتكلمون في وقت واحد في محادثات الفيديو التي تجري بين أكثر من شخصين، وهو أمرٌ شائع جداً في غُرَف الدردشة الجماعية واجتماعات الفريق والجلسات التعاونية الافتراضية. وهكذا فإن تصميم منصات محادثات الفيديو الأكثر شيوعاً اليوم لم تُراع القدرة على مجاراة الحوارات السريعة.

لكن لم يطرأ أي تقدم على محادثات الفيديو قياساً إلى عدد الشركات التي تواصل إقرار سياسات العمل من المنزل في أيامنا هذه. ومن ثم إذا أردنا أن نجعل الاجتماعات وكافة أشكال التجمعات الأخرى أكثر إنتاجية (وأكثر متعة)، فمن المهم أن نفهم سبب تدني مستوى التجربة، وأن نعرف أن الحلول المتاحة أمام مطوري منصات الفيديو موجودة بالفعل في عوالم ألعاب الفيديو والموسيقى.

لماذا تتصف جودة الصوت في مؤتمرات الفيديو بهذا السوء؟

تختلف جودة الميكروفونات من شخص لآخر في الأساس، ما يجعل من الصعب ضبط الموجات الصوتية لكافة المتحدثين على موجة صوتية موحَّدة. وقد يؤدي هذا في بعض المنصات إلى التحيز لمتحدث معين، وفيها يهيمن صاحب الصوت الأعلى على المحادثة، فيما يتم إعطاء الأولوية في منصات أخرى للمتحدث النشط فقط. وتؤدي مقاطعة الحوار والتكرار والارتباك الناتج عن ذلك إلى تفاعل الأشخاص في محادثة الفيديو بشكل مختلف عن طرقهم المعتادة في التفاعل. تعتبر هذه مشكلة تقنية بالدرجة الأولى، وتُعزى في الأساس إلى ما يسمى “الطور الموجي” بين الموجات الصوتية الكلية.

وإليك مثالاً عملياً على هذه الظاهرة: إذا كانت هناك موجتان صوتيتان لهما إشارة التردد نفسها، وتمت محاذاتهما تماماً، فهذا يعني أن فرق الطور الموجي بينهما يساوي 0، وهو ما نسميه “توافق الطور”. وعندما تتحد موجتان صوتيتان متوافقتا الطور، مثلما يحدث حينما يقول شخصان الشيء نفسه بالضبط في الوقت نفسه، فإنهما تنتجان صوتاً أعلى بمرتين. وتحدث المشكلة عندما تكون هناك موجتان صوتيتان في نطاق ترددي متشابه ولكنهما “متفاوتتا الطور”. وعندما لا تتطابق الموجات الصوتية، فإنها تبدأ التشويش على بعضها، لدرجة أن الموجتين المتعاكستين تماماً تلغي كلٌ منهما الأخرى كلياً. وهذا هو ما تفعله سماعات إلغاء الضوضاء عن قصد.

ويتسبب تفاوت الطور الموجي في إضعاف القدرة على سماع ما يقوله الآخرون في معظم مكالمات الفيديو. وعندما تتحد الموجات الصوتية في المحادثة، فإن هذا يؤدي إلى إلغاء الأجزاء المختلفة من الموجات وتضخيم نقاط عشوائية من الصوت وحدوث تردد أكثر صخباً بين نقطتي توافق وتفاوت الطور الموجي في دورة الموجات الصوتية.

هناك مشكلة أخرى، وهي أن مؤتمرات الفيديو مصممة للاجتماعات المنعقدة داخل المكاتب المغلقة التي يغلّفها جو من الصمت المطبق (على الرغم من نقاط الضعف التي تعتري معظم الخدمات حتى في البيئات المثالية). فما الذي يحدث عندما نريد احتساء القهوة والتواصل الاجتماعي وحضور دورة لتعلم الرسم، وغيرها من الأشياء الأخرى في بيئة افتراضية، بينما نؤديها عادة خارج إطار العمل؟ تعمل المنصات عادة على تنقية الصوت لتقليل حجم الترددات عندما يكف المشاركون عن الحديث، وهذا يعني بالإضافة إلى مشكلات تفاوت الطور الموجي المذكورة أعلاه أنه لا يمكن دمج الصوت المحيط في محادثات الفيديو اليوم دون تقليل وضوح الحوار (أو إلغائه تماماً). لذا، فإنك تألف في الواقع أصوات حركة المرور في شوارع المدينة أو تستمتع بتشغيل موسيقى الهيب هوب التسعينية المفضلة لديك في الخلفية وأنت في المقهى أو بتشغيل أغنية بوب سريعة الإيقاع في أثناء قيادة السيارة. وهذا مخيب للآمال. إذ إننا نعاني الصمت المدمر للحالة المزاجية في غياب الضجيج المحيط عندما نتوقف عن الكلام.

ولكننا لسنا مضطرين إلى قبول هذا القيد. ففي حين أن تكنولوجيا محادثات الفيديو تفرض علينا بعض التحديات حول إيقاع الحوار الطبيعي والمزاج البيئي، فلطالما كانت الهندسة الصوتية عنصراً محورياً في تحقيق التقدم في قطاعات أخرى، مثل الموسيقى والألعاب لفترة غير قصيرة من الزمن.

ما الذي يمكن أن تتعلمه شركات محادثات الفيديو من المنهجيات المتبعة في قطاعي الموسيقى والألعاب؟

عندما تقتحم بيئة افتراضية، كأن تشارك مثلاً في لعبة “كول أوف ديوتي” (Call of Duty) متعددة اللاعبين، فإنك ترى الأمور من وجهة نظرك الشخصية، حيث يمكنك قضاء ساعات دون عناء. وليس من قبيل المصادفة أن تقل معدلات شعور اللاعبين بالإرهاق مقارنة بمستخدمي منصة “زووم” مثلاً، حيث تقترن التجربة المرئية بالقدرة على الحصول على صوت نقي تماماً فيما يتعلق بالصوت المحيط والمؤثرات الصوتية للحركة وحوارات الزملاء الافتراضيين، وغيرها من المكونات. فحتى إذا حدث انفجار أمامك، فلا يزال بإمكانك سماع صراصير الليل في محيطك وسماع أصوات زملائك في الفريق على مسرح الأحداث، كل ذلك داخل سماعات الرأس. يحدث هذا ببساطة نتيجة رسم الخرائط الصوتية (أو دمجها). فمن خلال العمل على وضع الأشياء على مسافة واتجاه معينين من المستخدم، يتم تجميع الموجات الصوتية مع معالجة الإشارات التي تعمل على التخفيف من تحديات تفاوت الطور الموجي والضوضاء.

ينطبق هذا المثال على الموسيقى أيضاً. فقد لا يدرك الكثيرون أن الموسيقى استلزمت الدمج الصوتي منذ أن بدأنا في إضافة العديد من الأصوات لخلق تجربة فريدة. ولا يقتصر المنتجون في مجال الموسيقى على مزج الأصوات معاً للمغنين الرئيسيين وفرق الغناء المساعِدة، ولكنهم يضيفون أيضاً الآلات الوترية والأبواق والغيتار الكهربي وغيرها من الآلات بسلاسة لإخراج الأغاني في أفضل صورة ممكنة، حيث يحرص مهندسو الصوت على عدم التعارض بين الآلات وتناغم الأصوات في الأغاني، وتنبع العاطفة الأساسية للأغنية من تنظيم المقاطع الصوتية بالشكل الصحيح (من خلال تنقيتها وضغطها، وغيرهما من الخطوات اللازمة).

إذا قارنت بين الصوت في الموسيقى (أو ألعاب الفيديو) ومؤتمرات الفيديو، فسترى مدى الفارق بينهما. حاول الاستماع إلى إحدى أغانيك المفضلة وعيناك مغمضتان، استمع إلى موضع الأصوات في الغُرَف الصوتية مقارنة بالأدوات الأخرى التي تشكّل اللحن. ثم استمع إلى مصدر كل الأصوات حينما تجري محادثة على “جوجل تشات” مع شخصين آخرين على جهاز الكمبيوتر في المرة القادمة. ستلاحظ في محادثات الفيديو أن الغُرفة الصوتية لا تُستخدم بالقدر الكافي.

وبمقدور مطوري محادثات الفيديو استلهام تجربة مهندسي الصوت في قطاع الموسيقى الذين استطاعوا تقديم تجربة صوتية شبه مثالية لعقود من الزمن. حاول أن تتعرف على أنسب السبل للاستفادة من هذه التقنيات في تحسين التجربة الصوتية في الاجتماعات التعاونية الافتراضية. تخيل أنك تسمع شخصاً عن يسارك وآخر عن يمينك، بينما تصدح الموسيقى في البيئة المحيطة خارج الغُرفة الصوتية. وهكذا صار لديك الآن تفاعل طبيعي، وعن طريق إعطاء الغُرفة الصوتية مساحة أكبر لتعزيز تجربة محادثات الفيديو، فإن عقل المستخدم سيعمل في الواقع على تخطيط التفاعلات الصوتية في الحوار بصورة أفضل مع المصدر الموجود على الشاشة. بمقدور هذا النهج توجيه المستخدم بصورة أفضل، ما يؤدي في النهاية إلى تقليل إجهاد الاجتماعات الافتراضية.

بناء تجربة أفضل لمحادثات الفيديو

مع احتلال الصوت مركز الصدارة بوصفه جزءاً أساسياً من تجربة محادثات الفيديو، اتخذت شركات، مثل “بايلوتلي” (Pilotly) [التي أشغل فيها منصب الرئيس التنفيذي] و”بلو جينز” (BlueJeans)، خطوات عملية للتحرك نحو مستقبل التحول الافتراضي. عملت هاتان الشركتان مع عدد من رواد المعالجة الصوتية حتى استطاعتا استخدام خوارزميات محددة في محادثات الفيديو رفعت مستوى الوضوح في الحوار من خلال تقديم مزيج صوتي مناسب.

كانت شركة “بلو جينز” التي استحوذت عليها شركة “فيرايزون” (Verizon) مؤخراً من أوائل مَنْ عملوا مع “دولبي” كشريك لتحسين تجربة المستخدم لديهم. ولإبراز أهمية وضوح الحوار في عرض القيمة المضافة، استعانوا بنظام “دولبي فويس”، وهو نظام يمكنه تطبيع مستويات الصوت وتحسين عرض النطاق الترددي الصوتي المحدد وتقليل الضوضاء وعمل بعض الدمج في السحابة لمنع التشويش عندما يتحدث أكثر من طرف في الاجتماعات.

وبمقدور الشركات الأخرى أن تحذو حذوها. حيث تعمل “دولبي” حالياً على تيسير استخدام التطبيقات لتحسين القدرات الصوتية. يقول بول بوستيد، كبير المهندسين في شركة “دولبيز كوميونيكشنز بزنس غروب” (Dolby’s Communications Business Group)، إن التوسع في استخدام هذه التقنيات يمثل أولوية للشركة. ويردف: “لقد تخصصت في الاتصالات الصوتية والمرئية لأكثر من 20 عاماً كباحث ومهندس تخطيطي. ولم أدخر وسعاً لإضفاء الصبغة الطبيعية قدر الإمكان على التواصل عبر الإنترنت”.

وتركز منصة “ريلشات” (Reelchat) لمحادثات الفيديو بشركة “بايلوتلي” على إنشاء بيئة افتراضية تحاكي تجربة الألعاب. وكان أول تطبيق لمنصة “ريلشات” عبارة عن مجموعات مركزة افتراضية تهتم بإجراء محادثات سريعة وحرة يمكنك فيها سماع أكثر من شخص في وقت واحد، تماماً كما هو الحال في الاجتماعات أو الدردشة الجماعية. هذا هو أحد الأسباب التي جعلتنا نعطي الأولوية لتخطيط الصوت من أجل توفير أكبر قدر ممكن من الراحة والحدس للمشاركين في المحادثة. إذ نؤمن بأن مفتاح عمل التفاعلات البشرية الافتراضية هو توفير بيئة يشعر فيها المستخدم بأن الأصوات طبيعية إلى حدٍّ بعيد.

وستكون مواكبة التقدم في تكنولوجيا محادثات الفيديو وتسريعه أمرين أساسيين من أجل تحسين جودة الصوت في محادثات الفيديو ولنجاح كلٍّ من الشركات والتعليم العالي والتواصل الاجتماعي في ظل استمرار القيود المشدَّدة حول التفاعلات المباشرة وجهاً لوجه خلال جائحة كورونا. وتمثل جودة الصوت مستقبل التفاعل البشري على منصات التواصل الافتراضي، على الرغم من تجاهله لفترات طويلة من الزمن كعامل أساسي في محادثات الفيديو. وقد استوعبت الألعاب والموسيقى هذه الحقيقة منذ زمن، ومن شأن التطورات المستقبلية لمنصات التعاون والاجتماعات أن تحاكي النوع نفسه من دمج الموسيقى في تجارب المستخدم.

تنويه: يمكنكم مشاركة أي مقال من هارفارد بزنس ريفيو من خلال نشر رابط المقال أو الفيديو على أي من شبكات التواصل أو إعادة نشر تغريداتنا، لكن لا يمكن نسخ نص المقال نفسه ونشر النص في مكان آخر نظراً لأنه محمي بحقوق الملكية الدولية. إن نسخ نص المقال بدون إذن مسبق يعرض صاحبه للملاحقة القانونية دولياً.