كن حذراً عند إجراء اختبارات أ/ب وتجنب المزالق

تأكد أن تجاربك تلبي الاحتياجات المتنوعة للزبائن.

ارتفعت خلال السنوات الأخيرة معدلات استخدام اختبارات أ/ب عبر الإنترنت، مدعومة بتقدير متزايد لقيمتها، مع الانخفاض النسبي لتكلفة التقنيات المستخدمة في إجرائها. وتلجأ الشركات الرقمية اليوم، مع تزايد ملحوظ في توجه الشركات التقليدية، إلى إجراء عشرات الآلاف من التجارب عبر الإنترنت سنوياً، لقياس مدى تقدم أو تراجع عنصر الضبط "أ" (يُمثل عادة المنهج الحالي) مقارنة بالعنصر "ب" الذي يُعبر عن التحسين المقترح للمنتج أو الخدمة أو العرض. وتسهم تلك التجارب، من خلال التعرف السريع على استجابة المستخدمين لتلك التعديلات، في مساعدة الشركات للتعرف على أفضل الطرق لتحديث المنتجات الرقمية وإنشاء أخرى جديدة، فهي تتيح لمجموعة صغيرة من الأفراد جرى اختيارهم عشوائياً إمكانية تجربة الابتكارات قبل طرحها للجميع، كما تقلل هذه الاختبارات من خطر الآثار الجانبية السلبية غير المقصودة، كما أنّ قدرتها الفريدة على إجراء قياس تأثير التغيير بشكل موضوعي، تُمكّن الشركات من فصل أي نمو في الإيرادات والمشاركات أو غيرها من المقاييس الأساسية لأداء الأعمال، وتمييزه عن أي تحسن كان سيحدث على أية حال نتيجة للنمو. وتتيح تلك المعلومات الحيوية للشركات رصد الفرص وإجراء تقييم دقيق لعائد الاستثمار.

قد يؤدي التغيير إلى حدوث قفزة كبيرة ضمن نوع واحد من الزبائن، ولكن مقابل إيقاف نشاط نوع آخر تماماً.

ويُعَد اختبار أ/ب حالياً جزءاً لا يتجزأ من دورة تطوير المنتجات بالنسبة للعديد من الشركات. وتُمثل نتائج الاختبار العامل الأساسي الذي تستند إليه كافة القرارات المتعلقة بموعد وإمكانية إطلاق منتجات جديدة أو تغيير المنتجات الحالية، وكيفية ومدى إمكانية دخول قطاعات الأسواق غير المستغلة أو شرائح الزبائن، إضافة إلى كيفية تخصيص رأس المال لمختلف جوانب الأعمال. وليس من قبيل المبالغة أن نقول إن نجاح اختبار أ/ب أمر بالغ الأهمية لمستقبل هذه الشركات. إلا أن الشركات ترتكب في كثير من الأحيان أخطاء جسيمة عند إجراء التجارب. ومن خلال بحثنا في "كلية هارفارد للأعمال" وتجاربنا وخبراتنا كقادة لعلم البيانات في "نتفليكس" و"لينكد إن"، استطعنا تحديد ثلاثة مخاطر أو مزالق كبيرة في المناهج التي تتبعها الشركات. ونستعرض في هذا المقال كيفية تجنب تلك الفخاخ من خلال تطبيق التقنيات التي نجحت عندما أجريناها في "نتفليكس" و"لينكد إن"، والتي من شأنها أن تساعدك على استخدام التجارب على نحو أكثر فاعلية لتحسين أداء شركتك.

الخطر 1

عدم توافر رؤية شاملة تتجاوز المستخدم العادي

من الأخطاء الشائعة في استخدام التجارب والاختبارات التركيز على متوسط تأثير الابتكارات في مقاييس أداء الأعمال. وبذلك، نجد أن الشركات تقيس بشكل أساسي التأثير الواقع على شخص عادي خيالي وتتجاهل الفروق الهائلة في الطريقة الفعلية التي تتصرف شرائح الزبائن وفقاً لها. فقد يؤدي التغيير إلى حدوث قفزة كبيرة ضمن نوع واحد من الزبائن، ولكن مقابل إيقاف نشاط نوع آخر تماماً.

تخيل إطلاق منتج جديد أدى إلى زيادة حجم إنفاق المستخدم العادي بمقدار 1 دولار. من الطبيعي هنا أن نفترض أن كل مستخدم ينفق دولاراً إضافياً. ولكن قد يكون سبب هذه الزيادة أيضاً قيام عدد قليل من المستخدمين بزيادة حجم إنفاقهم، بينما بدأ آخرون في نقل أعمالهم إلى أماكن أخرى. وفي العادة، لا توضح لوحات المتابعة الخاصة باختبارات أ/ب سوى الفارق في المتوسط العالمي، ولا تميّز بين هذين الاحتمالين.

وكلما خضعت مقاييس الأعمال الأساسية لهيمنة عدد قليل من كبار العملاء أو المستخدمين أصبحت المتوسطات بالذات مضللة. وما لم يتوقف صناع القرار عن التفكير في زبائنهم وكأنهم شخص واحد يمثل حالة مثالية، فإنهم يخاطرون بتقديم التحسينات للمستخدمين كثيفي الاستخدام على حساب المستخدمين ذوي الاستخدام القليل. وهذا أمر خطير لأن إيجاد طرق لدفع المستخدمين قليلي الاستخدام إلى زيادة الاستهلاك يُعد في كثير من الأحيان أكبر فرصة للشركة.

وفي بعض الحالات، قد يكون الحل هو إيجاد النسخة المثالية الفريدة (أو ما تسمى في لغة التجريب بـ "العلاج") لجميع المستخدمين. ولكن في حالات أخرى، قد يكون من المنطقي إنشاء نسخ مختلفة مصممة لتتناسب مع تفضيلات قطاعات وشرائح كبيرة من المستخدمين. وبمقدور اختبارات أ/ب مساعدة الشركات في القيام بتلك المهمة. يمكن تقسيم المستخدمين إلى قطاعات باستخدام مجموعات محددة مسبقاً، مثل التقسيم وفقاً للبلد، وقطاع الصناعة، والمشاركات السابقة، أو من خلال تطبيق تقنيات تعلم الآلة لتحديد الفئات التي من شأنها إظهار استجابة مغايرة للابتكارات. وحتى عندما لا تكون كافة الرؤى قابلة للتنفيذ، تتيح نتائج الاختبار للشركات تقييم الفرص المحتملة، واكتشاف طرق للاستفادة منها.

وللتعامل مع تباين الزبائن، يتعين على الشركات القيام بما يلي:

استخدام مقاييس ومنهجيات تعكس قيمة قطاعات الزبائن المختلفة، ترغب "نتفليكس"، مثلاً، في زيادة المزايا التي توفرها لجميع أعضائها دون أن يقتصر الأمر على أولئك الذين يستخدمون خدماتها أكثر من غيرهم. يمكنك تأمل ما قد يحدث عند زيادة وتيرة ظهور البرامج التلفزيونية الأكثر شعبية وشهرة في توصيات جميع المستخدمين. يمكن لهذا الأمر أن يدفع المستخدمين الدائمين أو كثيري التردد على الموقع إلى مشاهدة المزيد من البرامج، وبالتالي يزداد متوسط الوقت الذي يقضيه المستخدمون على "نتفليكس" زيادة كبيرة. ولكنّ هذا التغيير لا يأخذ في الاعتبار حاجات الأعضاء الذين يستخدمون "نتفليكس" لمشاهدة محتوى متخصص، ولذلك قد ينتج عنه تقليل المشاهدة إجمالاً. وهذه مشكلة، فعلى العموم، لا يتلقى أعضاء "نتفليكس" الأقل استخداماً للموقع اهتماماً كبيراً يماثل الاهتمام الموجه للمستخدمين الدائمين للموقع، مما يجعل احتمالية إلغاء اشتراكاتهم أكبر، لذلك تكون زيادة المحتوى المقدم للأعضاء الأقل مشاركة في الموقع وعرض ما يفضلونه، حتى ولو نسبة ضئيلة، أفضل لـ "نتفليكس" من زيادة ساعات مشاهدة المستخدمين كثيفي الاستخدام للبرامج.

وللتعامل مع هذه المشكلات ومعالجتها اتبعت "نتفليكس" نهجين: تمثل الأول في استخدام تصميم متداخل لاختبارات أ/ب، وفي هذه التقنية لجأت "نتفليكس" إلى التنويع في خبرات المستخدمين بانتقالهم بين "أ" و "ب" بالتناوب. حيث يبدأ المستخدم في اليوم الأول بتجربة المنهج الحالي (عنصر الضبط)، بينما يبدأ اليوم التالي بتجربة العلاج، أو العكس. ويتيح ذلك لـ "نتفليكس" تحديد الابتكارات الواعدة وحصر سلوكيات مختلف الأعضاء في الوقت ذاته. أما النهج الثاني فتمثّل في وضع مقياس لموازنة التغييرات بحيث تناسب كلاً من شريحتَي المستخدمين الدائمين وقليلي الاستخدام للموقع، وضمان عدم اقتصار مزايا تغييرات المنتج على قطاع واحد على حساب آخر، وذلك بدلاً من النظر إلى المعدل الإجمالي لعدد دقائق البث التدفقي.

قياس التأثير عبر مستويات مختلفة من الوصول الرقمي، نعني بـ "الوصول الرقمي" معرفة ما إذا كان الزبائن لديهم وصلات إنترنت سريعة وموثوقة، أم أنها بطيئة وغير مستقرة، وهل يمتلكون أحدث الأجهزة الأكثر تطوراً أم أنها أقل قدرة، وما إلى ذلك. يتيح لك تصميم وتحليل اختبارات أ/ب لهذه الفئات المميزة توفيق المستخدمين مع التجارب المثالية الأكثر ملاءمةً لبيئتهم الرقمية.

من المهم جداً أن نفهم نظرة الأعضاء وتصوراتهم لمدى تأثير التغييرات على جودة الخدمات المقدمة إليهم، وذلك فيما يخص المقاييس التقنية (مثل أوقات تحميل التطبيق، والتأخير قبل بدء التشغيل، ومعدلات الأعطال كانهيار المتصفح). وللقيام بذلك، بدأت كل من "نتفليكس" و"لينكد إن" بتتبع النسب المئوية العليا والمتوسطة والدنيا لهذه المقاييس، وكيفية تغير متوسط قيمها. فهل أدت المعالجة إلى تباطؤ سرعة تحميل التطبيق، مقارنة بعنصر الضبط (الوضع الحالي) لكلتا الفئتين من المستخدمين أي النسبة البالغة 5% (ممن يمتلكون أسرع اتصال بالإنترنت) والنسبة الأخرى البالغة 95% (ممن يمتلكون السرعة الأبطأ)؟ أو بالعكس، هل حقق العلاج نفعاً للمستخدمين المنتمين لفئة الاتصال الأسرع البالغة 5%، بينما ألحق الضرر بالفئة الأبطأ البالغة 95%؟ استخدمت "نتفليكس" هذا النهج لاختبار الابتكارات الهادفة إلى تحسين جودة البث عند تشغيل الفيديو على أجهزة وظروف مختلفة للاتصال بشبكة الإنترنت.

خذ في حسابك دوماً سلوك جماعة محددة. تُجري منصة اختبار أ/ب الخاصة بـ "لينكد إن" حساباً تلقائياً لآثار التجارب وفقاً للمجموعات. فهي تحسب، على سبيل المثال، تأثير إضافة الميزات الجديدة في كل بلد، لأن نجاح أحد العناصر في الولايات المتحدة لن ينتج عنه بالضرورة تحقيق نجاح مماثل في الهند. وكذلك تقسيم الأفراد إلى مجموعات وفقاً لمعدلات زيارتهم لوسائل التواصل الاجتماعي، فإن تعزيز التواصل سيكون له أثر مغاير بين حالتي الأفراد الذين لديهم اتصال جيد والذين لديهم اتصال ضعيف بالإنترنت. ففي مبادرة أخيرة أجرتها "لينكد إن"، وجدت، مثلاً، أن الإخطار الفوري للباحثين عن العمل بقوائم الوظائف الجديدة كان له دور في زيادة احتمالية إقبال الأفراد قليلي الاتصال بالإنترنت للتقديم في تلك الوظائف، لأنهم أقل عرضة للسماع عن تلك الفرص الشاغرة من خلال وسائل أخرى مقارنة بغيرهم من الأفراد الذي لديهم تواصل جيد بالإنترنت.

وأخيراً، تقوم "لينكد إن" برصد أثر التغييرات على عدم المساواة عن طريق التحقق من مدى تأثير الابتكار في تزايد أو تناقص حصة الإيرادات، وعدد المشاهدات، وغيرها من المقاييس العليا التي تحققت بمساهمات الزبائن الـ 1% الأكثر استخداماً. وهذا يضمن عدم مبالغة "لينكد إن" في إجراء تحسينات للأعضاء الأكثر تفاعلاً على حساب مَن هم أقل مشاركة.

قطاعات السوق الأساسية: مكّن تحديد الاختلافات الخاصة بكل بلد كلاً من "لينكد إن" و"نتفليكس" من الاستمرار في خدمة مناطقهما الأساسية، مع النمو باتجاه أسواق جديدة دون فرض التجربة ذاتها على الجميع، ففي الهند، مثلاً، تُعد الهواتف المحمولة الوسيلة الأساسية التي يستخدمها الأفراد لتصفح الإنترنت، وبالتالي يكون لأي مبادرة ينتج عنها تباطؤ سرعة تحميل التطبيقات أثر هائل في تراجع استخدام تلك التطبيقات، مقارنة بالوضع في الولايات المتحدة والأسواق الأخرى التي تقل فيها حالات اعتماد المستهلكين على الهواتف المحمولة القديمة أو شبكات الجيل الثالث الأبطأ سرعة. ولهذا طورت "لينكد إن" نسخة من تطبيقها الرئيسي، وأسمته (LinkedIn Lite) لتلبية احتياجات الهند والأسواق المشابهة لها. ولجعل هذا التطبيق يعمل بسرعة أكبر، فإنه يتصف بجودة أقل للصور مع تعديل واجهة المستخدم، مما يقلل من حجم البيانات التي يحتاج التطبيق إلى معالجتها. أما في "نتفليكس" فقد أدت البحوث المتخصصة بالأسواق حول استخدام الأجهزة إلى تجربة لإطلاق خطة عضوية مخصصة للهواتف المحمولة وتطبق في الهند فقط.

الخطر 2

إهمال عامل تواصل الزبائن فيما بينهم

يتضمن اختبار أ/ب القياسي، مقارنة المجموعة "أ" بالمجموعة "ب"، ويفترض الاختبار عدم وجود تفاعل بين مستخدمي المجموعتين. ويُعد هذا الأساس المنطقي مقبولاً في كثير من الأحيان في التجارب العشوائية التقليدية، كالتجارب السريرية لقياس فعالية دواء جديد، إلا أن التفاعلات بين المشاركين في اختبار أ/ب عبر الإنترنت قد تؤثر في النتيجة.

تأمل، على سبيل المثال، إحدى التجارب التي تختبر أحد التغييرات الهادفة لتسهيل بدء محادثة مع الآخرين في شبكة تعارف "لينكد إن" الخاصة بك، مثل إبلاغك فور استخدام أحدهم للموقع، أو حول جهات الاتصال في إحدى الشركات التي تتضمن إحدى الوظائف التي تهمك، وبعدها تتيح لك مراسلتها عبر صفحة الإشعارات. ونظراً لأن المستخدمين الذين ليس لديهم التحديث قد يبدؤون في التلقي والرد على المزيد من الرسائل (التي يرسلها الأشخاص الذين حصلوا على التحديث)، فمن المحتمل أن يكون هناك أثر إيجابي على مجموعة الضبط. وإذا لم يأخذ صناع القرار هذا "الاختلاط" بعين الاعتبار فقد يتسبب ذلك في سوء تقدير شديد، الأمر الذي قد يؤدي إلى اتخاذ قرار خاطئ، إذ يبدو لنا العلاج الرديء جيد والعلاج الجيد رديئاً. وهذه بعض الطرق لتجنب الوقوع في ذلك الخطر:

استخدام اختبار أ/ب الشبكي: طورت "لينكد إن" تقنيات تتيح لها قياس مدى التفاعل بين المجموعات أو تفاديها تماماً. ونجحوا في ذلك من خلال عزل مستخدمي المجموعة "أ" عن مستخدمي المجموعة "ب"، ففي حال وجود أحد مستخدمي المجموعة "أ" لا بد من التأكد من أن كافة المستخدمين الآخرين الذين يمكنهم التأثير على سلوكه هم أيضاً ضمن المجموعة "أ". والأمر ذاته ينطبق على المجموعة "ب"، وتلتقط هذه التقنيات صورة أكثر تفصيلاً لسلوك المستخدم. تأمل، على سبيل المثال: وجود خوارزمية توصية محتوى جديدة تعرض المزيد من المحتوي النصي الطويل، مثل المقالات الإخبارية، بينما تعرض عدداً أقل من الصور. من المعتاد أن تنال الصور الكثير من الإعجابات وبعض التعليقات، أما المقالات الإخبارية فتنال عدداً أقل من الإعجابات، ولكنها تحظى بالمزيد من التعليقات. ومع ذلك، تزداد احتمالية تفاعل وتعليق المستخدمين على المحتوى الذي قامت إحدى جهات الاتصال بالتعليق عليه، أكثر من المحتوى الذي لم يحظَ سوى بإعجاب إحدى جهات الاتصال. وبينما سيوضح اختبار أ/ب القياسي أن الخوارزمية الجديدة تولّد عدداً أقل من الإعجابات، سيلتقط اختبار أ/ب الشبكي كلاً من الإعجابات والتأثير الإيجابي النهائي الذي بدأ بمزيد من التعليقات من مستخدمين محتملين. وعلى نطاق أوسع، ساعد اختبار أ/ب الشبكي مدراء "لينكد إن" على فهم التأثير الكلي لمبادراتهم، ودفعهم إلى إجراء تغييرات هائلة في الاستراتيجية في كثير من الأحيان.

استخدام تجارب متسلسلة زمنياً: هي عبارة عن اختبارات أ/ب تنتقل عشوائياً بين تعريض السوق بالكامل للعلاج "أ" والعلاج "ب"، في حالة الأسواق على الإنترنت التي يتفاعل فيها العديد من المشترين والبائعين (مثل منصات مزادات الإعلانات عبر الإنترنت أو النقل التشاركي) التي تكون أكثر عرضة للاختلاط. وهنا، حتى اختبارات أ/ب البسيطة التي تستهدف بعض المستخدمين فقط، يمكنها تغيير توازن السوق بطرق لا تمثل ما كان سيحدث لو تعرض الجميع للتغيير. ومع ذلك، فإن التجارب المتسلسلة زمنياً يمكنها إجراء قياس دقيق للتأثير الحقيقي على السوق بأكملها.

تخيل، على سبيل المثال، تطوير "لينكد إن" لخوارزمية جديدة وظيفتها عرض فرص عمل مطابقة لمهارات الباحثين عن عمل. ولقياس فعاليتها، يعرض "لينكد إن" في الوقت ذاته جميع منشورات الوظائف والباحثين عن العمل ضمن سوق محددة للخوارزمية الجديدة لمدة 30 دقيقة. وفي غضون الدقائق الثلاثين التالية، ستقرر عشوائياً إما التبديل إلى الخوارزمية القديمة أو الاحتفاظ بالخوارزمية الجديدة. ستستمر هذه العملية لمدة أسبوعين على الأقل لضمان رؤيتها لكافة أنماط البحث عن الوظائف. وتُعد استراتيجية التداخل التي ابتكرتها "نتفليكس" تطبيقاً خاصاً لهذه المنهجية الأكثر شمولاً.

الخطر 3

التركيز بشكل أساسي على المدى القصير

لكي تحقق اختبارات أ/ب نجاحاً، لا بد من إجرائها لفترة زمنية كافية. فاقتصار التركيز على المؤشرات قصيرة المدى قد يؤدي إلى إيقاف الأعمال التجارية لعدة أسباب. أولها، اختلاف المؤشرات الأولية للاختبار عن النتائج التي تظهر بمجرد اعتياد الأعضاء على تجربة جديدة في أغلب الأحيان. وينطبق هذا بصورة خاصة على التغييرات التي تطرأ على واجهات المستخدم، حيث يكون أثر التجديد أو "التشغيل المستمر" أمراً شائعاً. وغالباً ما يُظهر المستخدمون مشاركات عالية في البداية مع المزايا الجديدة لكنها تختفي بمرور الوقت. ثانياً، قد تؤدي الابتكارات إلى تغييرات طويلة الأجل في كيفية تفاعل المستخدمين مع المنتَج، إلا أنها بطيئة في تحققها. فعلى سبيل المثال، قد لا تكون التحسينات الإضافية المستمرة المتعلقة بخوارزميات التوصية أو أداء التطبيق ذات آثار فورية قابلة للقياس، ولكنها قد تزيد رضا الزبائن بدرجة كبيرة، إلا أنها زيادة تبقى ملحوظة ببطء. وفيما يلي كيفية حساب هذه السلوكيات:

الحصول على المدة الكافية لتقييم التجارب. يجب عليك التأكد من قياس أثر الحالة المستقرة لإحدى المزايا الجديدة، بدلاً من أثر التجديد قصير الأجل. ما أطول مدة كافية؟ تختلف المدة لأن المستخدمين يستجيبون بشكل مختلف، مثلاً، لتغيير واجهة المستخدم، مقارنةً بما يستجيبون له من التغييرات في نظام التوصية. لذلك يجب الاستمرار في إجراء اختبارات أ/ب حتى يستقر سلوك المستخدم. وقد راقب كلٌ من "لينكد إن" و"نتفليكس" مدى تطور الارتباط بالمميزات الجديدة بمرور الوقت، ووجدا أن استقرار النتائج يحدث عادة بعد حوالي أسبوع في معظم الاختبارات.

إجراء تجارب "تعليق" لبعض المستخدمين: لا تتعرض هذه المجموعة الصغيرة من المستخدمين للتغييرات لفترة محددة مسبقاً (تتجاوز الشهر عادةً) بينما يكون الآخرون معرضين للتغييرات. ويساعد هذا النهج الشركات على قياس الآثار بطيئة التحقق. وتوصل "لينكد إن" إلى أن تجارب تعليق بعض المستخدمين مفيدة في حال كان الأثر التراكمي للعديد من التغييرات المتزايدة يؤدي في النهاية إلى تحسين أو عندما يمكن أن يستغرق المستخدمون بعض الوقت لاكتشاف ميزة جديدة. تخيل أنك تختبر ميزة تسليط الضوء على الإنجازات المهنية البارزة التي حققتها شبكات التعارف من خلال موجز شبكات وسائل التواصل الاجتماعي (مثل الحصول على وظيفة جديدة)، فهناك احتمالية لتشغيل هذه الميزة بشكل متقطع، ربما مرة واحدة فقط أو مرتين في الأسبوع، اعتماداً على من هو موجود في شبكة تعارف العضو. في مثل هذه الحالات، قد تكون هناك حاجة إلى فترة تجريبية مدتها عدة أسابيع أو أشهر لضمان تعرض أعضاء مجموعة العلاج لتحديثات كافية لاختبار تأثير الميزة على جودة الموجز الذي يظهر لهم، أو لمعرفة رأي المستخدمين ذوي الصلة في المحتوى.

يوفر اختبار أ/ب عبر الإنترنت طريقة فعالة لاكتساب رؤية ثاقبة لتأثير التغييرات المحتملة على قطاعات الزبائن والأسواق المختلفة. أما المنهجيات القياسية، التي تميل إلى التركيز على التأثير قصير الأجل لتجربة جديدة على المستخدم العادي، فقد تدفع الشركات إلى تكوين استنتاجات خاطئة. يمكن للتقنيات التي ذكرناها مساعدة المدراء على تجنب الأخطاء الشائعة وتحديد الفرص قصيرة وطويلة الأجل الأكثر قيمة وأهمية، على مستوى العالم، وكذلك على مستوى قطاعات الزبائن المهمة استراتيجياً