إذا كانت بياناتك سيئة لن تنفعك أدوات التعلم الآلي

تعد البيانات السيئة العدو رقم واحد لانتشار التعلم الآلي واستخدامه المربح. وفي ما بقيت الملاحظة المليئة بالسخرية حول البيانات: "أدخل القمامة، تحصل على القمامة"، تقض مضاجع المحللين وصنّاع القرارات لأجيال متتالية، إلا أنها تطلق إنذاراً خاصاً بالنسبة للتعلم الآلي. فمتطلبات الجودة بالنسبة للتعلم الآلي مرتفعة وقاسية جداً، وهنا تطل البيانات السيئة برأسها القميء مرتين– مرة عندما تستخدم البيانات التاريخية لتعليم النموذج التنبؤي، ومرة أخرى عندما تستخدم البيانات الجديدة كمدخل للنموذج لكي يخرج علينا بتنبؤات وقرارات مستقبلية.

ولتعليم وتدريب النموذج التنبؤي بشكل صحيح، يتعين على البيانات التاريخية أن تحقق معايير جودة واسعة النطاق وعالية المستوى. فمن جهة، يجب أن تكون البيانات صحيحة: أي دقيقة، وموسومة بشكل صحيح، وخالية من التكرار، وما إلى ذلك؛ ومن جهة أخرى يتعين عليك أيضاً أن تستخدم البيانات الصحيحة – أي استخدام كم وافر من البيانات غير المنحازة ذات الصلة بالطيف الكامل للمدخلات التي يهدف المرء إلى تطوير النموذج التنبؤي على أساسها. وغالباً ما تركز جهود ضمان الجودة على أحد هذين المعيارين دون الآخر، غير أنّ تعلم الآلة يتطلب التركيز على كليهما معاً.

ومع ذلك نجد اليوم أنّ غالبية البيانات تخفق في تحقيق معيار "أن تكون البيانات صحيحة". وتتعدد أسباب ذلك الإخفاق بين أن يكون واضعو البيانات غير مدركين لما هو متوقع منها، وبين أن تكون معدات القياس ضعيفة المعايرة، وبين أن تكون العمليات بالغة التعقيد، وبين أن تكون هنالك أخطاء بشرية. وللتعويض عن الخطأ أو تصحيحه، يقوم علماء البيانات بتنظيفها قبل استخدامها في تعليم النموذج التنبؤي. وهو عمل مجهد ويحتاج إلى الكثير من الوقت (يشغل حتى 80% من وقت العلماء)، وهي المشكلة التي يعاني منها أولئك العلماء ويتذمرون حولها أكثر من سواها. وعلى الرغم من ذلك، فإنّ عملية التنظيف تلك لا تكتشف جميع الأخطاء ناهيك عن تصحيحها كلها، ولا توجد طريقة حتى الآن لمعرفة أثر تلك الأخطاء المتبقية على النموذج التنبؤي. والأكثر من ذلك، أنّ البيانات لا تحقق دائماً معيار "أن تكون هي البيانات الصحيحة"، وهو ما تثبته التقارير المنشورة حول عدم حيادية البرامج المستخدمة في مجال "التعرف على الوجوه" وفي مجال "العدالة الجنائية".

ولعل المشاكل المتزايدة التعقيد لا تتطلب فقط المزيد من البيانات، بل المزيد من تنوع البيانات وشمولها، الأمر الذي يجلب معه مشاكل ذات صلة بالجودة. فقد أدت الملاحظات المكتوبة بخط اليد والاختصارات المعمول بها محلياً على سبيل المثال إلى تعقيد جهود شركة آي بي إم الهادفة إلى تطبيق تعلم الآلة (نظام واتسون على سبيل المثال) في مجال علاج مرض السرطان.

وإضافة على ذلك، لا تعد جودة البيانات مشكلة أقل خطورة أثناء تطبيق النموذج التنبؤي. لننظر إلى مؤسسة تسعى إلى تحسين إنتاجيتها بالاستفادة من برنامج تعلم الآلة الذي تطبقه. فمع أنّ فريق علماء البيانات المطور للنموذج التنبؤي ربما يكون قد قام بعمل متقن في تنظيف البيانات التاريخية المستخدمة لتعليم النموذج، إلا أنه قد يعاني الأداء من سوء البيانات الحديثة المدخلة إليه. ومرة أخرى يحتاج الأمر جهود الكثير من المختصين لاكتشاف الأخطاء في تلك البيانات وتصحيحها. وهذا ما يقوض بدوره الآمال المعقودة على تحسين الإنتاجية من خلال استثمار هذا النموذج. وعلاوة على ذلك، ومع اختراق تكنولوجيات تعلم الآلة للمؤسسات، فإنّ نتائج أحد النماذج التنبؤية ستستخدم كمدخلات لنموذج آخر، وهكذا إلى أن تعبر هذه السلسلة الحواجز بين الشركات المختلفة. ويتمثل الخطر هنا في أنّ خطأً صغيراً في أي من الخطوات المتتالية في عملية التنبؤ ستستدعي أخطاء أخرى ستنمو بدورها أكثر فأكثر مع إتمام تنفيذ هذه العملية.

التعامل مع مخاوف البيانات السيئة

ولا يمكن معالجة هذه المخاوف إلا من خلال تطبيق برنامج ضمان جودة قوي ومنفذ بشكل جيد ويتغلغل عميقاً إلى حد يفوق بكثير ما هو مطلوب بالنسبة للأعمال اليومية الروتينية. ويتطلب ذلك من قائد هذه الجهود أن ينفذ الخطوات الخمس التالية جميعها.

أولاً، استوضح أهدافك وقدّر ما إذا كنت تمتلك البيانات الصحيحة التي تدعم تحقيقك لتلك الأهداف

لننظر إلى شركة رهن عقاري ترغب في تطبيق تعلم الآلة للاستفادة منه في عملية منح القروض. فهل من مصلحتها منح القرض المدروس، وإن كان الجواب نعم، ما هي شروط الإقراض؟ ومن بين الأهداف المحتملة لاستخدام تعلم الآلة في هذا المجال:

تخفيض تكلفة عملية اتخاذ القرار الراهنة. وبما أنّ تحسين آلية اتخاذ القرار ليس من ضمن الأهداف، فإنّ جودة البيانات الحالية قد تكون كافية.
التخلص من الانحياز في عملية اتخاذ القرار الراهنة. هنا من المؤكد تقريباً أنّ الانحياز ناجم عن خلل في البيانات الراهنة. ولذلك يتعين عليك الاستفادة من تعلم الآلة بحذر.
تحسين عملية اتخاذ القرار – من خلال تقليل عدد القروض الخاسرة والإكثار من عدد القروض الرابحة التي كانت مرفوضة سابقاً. ومع أنّ الشركة ربما تكون تمتلك الكثير من البيانات حول القروض المرفوضة سابقاً، فإنها لا تعرف ما إذا كانت هذه القروض ستكون رابحة لو قبلت. ولذلك يتعين عليك الاستفادة من تعلم الآلة بحذر شديد جداً.

وعندما لا تكفي البيانات المتوفرة لتحقيق الأهداف المحددة، فإنّ الحل يكون إما بإيجاد بيانات جديدة، وإما بتخفيض الأهداف المحددة، وإما بالاثنين معاً.

ثانياً، احجز قدراً كبيراً من الوقت للقيام بالخطوات الأساسية الضامنة لجودة البيانات في خطة مشروعك

ويعني هذا بالنسبة لتعليم النموذج التنبؤي أن تحجز أربعة أشهر لتنظيف البيانات مقابل كل شهر واحد لبناء النموذج، وذلك لأنه يتوجب عليك قياس سوية جودة البيانات التاريخية، وتقييم مصادرها، والتخلص من تكرار ذات البيانات، وتنظيف بيانات تعليم النموذج، على النحو الذي كنت ستقوم به لإنجاز أي تحليل مهم تكلف به. أما بالنسبة لتطبيق النموذج، فمن الأفضل القضاء على جذور أسباب الخطأ، وبالتالي تخفيض أعمال تنظيف البيانات الجديدة إلى الحدود الدنيا. فمن شأن ذلك أن يكون له الأثر المحمود بالتخلص من مولدات البيانات المخفية، الأمر الذي يوفر الوقت والمال في العمليات أيضاً. ولتبدأ بهذا العمل في أقرب وقت ممكن، وقبل ستة أشهر على الأقل من لحظة إطلاق نموذجك التنبؤي.

ثالثاً، احتفظ بسجل مراجعة، وأنت تحضّر بيانات تعليم النموذج التنبؤي

احتفظ بنسخة عن البيانات الأصلية والبيانات التي استخدمتها في تعليم النموذج، وبالخطوات التي اعتمدتها للانتقال من البيانات الأولى إلى البيانات الثانية. فالقيام بذلك هو من الممارسات الجيدة بكل بساطة (على الرغم من أنّ الكثيرين يغفلونها)، وقد يساعدك في إجراء بعض التحسينات على النموذج عندما تستخدمه لاتخاذ القرارات في المستقبل. فضلاً عن ذلك، من المهم فهم التحيزات والحدود التي يعاني منها نموذجك، وهنا من شأن سجل المراجعة أن يساعدك على تصنيف تلك التحيزات والحدود وتتبع أسبابها.

رابعاً، اجعل المسؤولية حول جودة البيانات بيد شخص (أو فريق) محدد ابتداء من لحظة إطلاق نموذجك التنبؤي

ويتعين على هذا الشخص امتلاك معرفة وثيقة بهذه البيانات، بما في ذلك نقاط قوتها ومواضع ضعفها، وهو مسؤول عن مهمتين أساسيتين: الأولى، وضع معايير جودة البيانات الواردة وفرضها على الأرض في العمل اليومي الروتيني، وإذا لم تكن البيانات جيدة بما يكفي يتعين على الأفراد أن يتولوا الأمر؛ والثانية، قيادة الجهود الرامية إلى اكتشاف جذور الخطأ والتخلص منها. ومن المفروض أن يكون هذا العمل قد بدأ منذ زمن ويجب أن يستمر.

أخيراً، أنشئ مراقبة مستقلة وصارمة لضمان الجودة

وضمان الجودة هي عملية ضمان أن يؤدي برنامج الجودة إلى النتائج المرجوة. والكلمة الأساسية هنا هي "مستقلة"، أي إنّ هذا العمل يجب أن يقوم به الآخرون – قسم ضمان جودة داخلي، أو فريق من خارج القسم، أو جهة ثالثة مؤهلة ومعتمدة.

وحتى بعد القيام بهذه الخطوات الخمس، ستكتشف بالتأكيد أنّ بياناتك لا تزال غير مثالية وتشوبها الأخطاء. وقد تنجح في إدخال بعض عناصر ضمان جودة البيانات إلى نموذجك التنبؤي، كاكتشاف عدم إعطاء أحد المتغيرات الخمسة عشر الأساسية أية قيمة عددية. ولاستكشاف هذه المساحة، من المفيد أن تجمع علماء البيانات مع موظفيك الخبراء وأنت تجهز البيانات وتعلم نموذجك التنبؤي. وتعبر لورا كورنهاوزر، من شركة ستراتيفاي الناشئة التي تركز اهتمامها على إدخال الشفافية والمحاسبة إلى مجال الذكاء الاصطناعي، عن هذه الفكرة بالقول: "اجمع موظفيك الخبراء وعلماء البيانات لديك في أقرب وقت ممكن. إذ يملكون باعاً طويلاً في التعامل مع البيانات السيئة، ومن الضروري الاستفادة من خبرتهم الثمينة تلك لتطوير نموذجك التنبؤي".

هل يبدو ما يجب فعله والانتباه إليه مضنياً جداً عند التعامل مع البيانات السيئة؟ نعم إنه كذلك. غير أنّ مجال تعلم الآلة يكتنز قوة لا تصدّق، وعليك أن تعرف كيف تستغلها. وقد تتسبب البيانات السيئة في إعاقة هذه القوة أو حجبها أو سوء استخدامها، الأمر الذي يبرر كل جهد يُبذل لضمان جودة تلك البيانات.