هل تحتاج شركات التقنية فعلاً إلى هذا الكم من بيانات المستخدمين؟

يُبنى جزء كبير من الاقتصاد الإلكتروني، بدءاً من البحث على الإنترنت وصولاً إلى الإعلام الاجتماعي، على حقيقة أن المستخدمين راغبون في تقديم بياناتهم مقابل منتجاتنا المجانية سهلة الاستخدام. والافتراض الذي يكمن وراء هذه المقايضة هو أن هذه المنتجات لن تكون بالجودة الكافية أو لن تكون مجانية إذا لم يتخلَ المستخدمون عن كل هذه البيانات.

أجرت الباحثتان ليزلي تشيو من "كلية أوكسيدنتال" وكاثرين تاكر من "معهد ماساتشوستس للتكنولوجيا (إم آي تي)" (MIT)، دراسة عمل جديدة نُشرت هذا الأسبوع، وهي تشير إلى احتمال ألا تكون هذه المقايضة ضرورية دائماً. وحاولت المؤلفتان قياس مدى الضرر الذي يقع على جودة نتائج البحث على الإنترنت الذي تتسبب فيه سرّية بيانات البحث وتكتّمها على هوية المستخدم، عن طريق دراسة آثار قوانين الخصوصية في الاتحاد الأوروبي.

تلتقط معظم محركات البحث بيانات المستخدم، بما فيها عنوان بروتوكول الإنترنت (IP addresses) والبيانات الأخرى التي يمكنها التعرف على المستخدم على مدى عدة استخدامات. ثم تسمح هذه البيانات لشركات البحث على الإنترنت بتطوير خوارزمياتها وإضفاء الطابع الشخصي على النتائج بحسب المستخدم. هذه هي الفكرة، على الأقل. ومن أجل تحديد ما إن كان تخزين بيانات المستخدمين الشخصية يفيد في تحسين نتائج البحث على الإنترنت، درست تشيو وتاكر اختلاف نتائج البحث في محركي "بينغ" و"ياهو" قبل التعديلات على قوانين المفوضية الأوروبية التي تخص الاحتفاظ بالبيانات وبعدها. ففي عام 2008، أوصت المفوضية أن تخفض محركات البحث فترة احتفاظها بسجلات المستخدمين. واستجابة لهذه التوصيات، قررت شركة "ياهو" تعزيز سياسة الخصوصية لديها من خلال إخفاء هوية المستخدم من البيانات بعد مرور 90 يوماً على تخزينها. وفي عام 2010، غيرت شركة "مايكروسوفت" سياستها وبدأت في حذف عناوين بروتوكول الإنترنت (IP) المرافقة لعمليات البحث على محرك "بينغ" بعد 6 أشهر من تخزينها، وحذف جميع نقاط البيانات المعنية بالتعرف على المستخدم بعد 18 شهراً. في عام 2011، غيرت شركة "ياهو" سياستها مجدداً، وقررت هذه المرة زيادة مدة تخزين البيانات الشخصية لتصبح 18 شهراً بدلاً من 90 يوماً، وذلك من أجل منح الباحثين فرصة لقياس تأثير تعديلات تخزين البيانات على نتائج البحث. (لم تغير شركة "جوجل" سياساتها في أثناء هذه الفترة، ولذلك لم تشملها الدراسة. وكانت "جوجل" قد مولت بعض دراسات تاكر السابقة).

ثم نظرت الباحثتان في بيانات تاريخ استخدام سكان المملكة المتحدة للإنترنت قبل التغييرات وبعدها. ومن أجل قياس جودة البحث، فحصتا عدد مرات تكرار البحث على الإنترنت، الذي يعتبر إشارة إلى عدم الرضا عن نتائج البحث. وفي الحالات الثلاث جميعها، لم تجد الباحثتان أي أثر إحصائي ملحوظ في جودة نتائج البحث على الإنترنت بعد التغييرات في سياسات الاحتفاظ بالبيانات. بكلمات أخرى، لم يبدُ أن قرار إخفاء هوية أصحاب البيانات يؤثر على تجربة البحث على الإنترنت. كتبت المؤلفتان: "تشير نتائجنا إلى أن تكاليف الخصوصية أقل من المتوقع"، وذلك رغم أنهما أشارتا إلى أن الدراسات السابقة توصلت إلى نتائج مختلفة. كما زعمت الباحثتان أن هناك آثاراً لنتائجهما على مكافحة الاحتكار والمخاوف التي يثيرها ما يسمى احتكار البيانات، إذ تقولان: "تشير دراستنا إلى أن امتلاك بيانات تاريخية لا يمنح الشركات التي تملكها ميزة أكبر مما هو مفترض".

ولكن هذا التفسير لا يخلو من بعض المحاذير. أولاً، تضمنت التغييرات في شركة "ياهو" إخفاء الهوية فقط، وهو ما قد يساعد على حماية خصوصية المستخدم ولكنه ليس من الضروري أن ينتقص من ميزة بيانات الشركات الراسخة. ثانياً، تم تطبيق التغييرات في شركة "مايكروسوفت" على مدى أشهر، إذ تضمنت إخفاء هوية المستخدم ولها تأثير مباشر بدرجة أكبر على ميزة مجموعات البيانات الكبيرة ذات الطابع الشخصي لدى الشركات الراسخة، وربما لم تتمكن الباحثتان من تحديد هذه الميزة في أثناء فترة الدراسة التي امتدت على مدى 6 أشهر. وحتى إذا لم تكن هناك أي فائدة في تخزين كميات كبيرة من البيانات التاريخية على المدى الطويل، فإنه من الممكن أن تستفيد الشركات الراسخة من النواحي الأخرى لجمع البيانات. مثلاً، قد تتمكن شركات التقنية العملاقة من إدخال البيانات الجديدة إلى خوارزمياتها بسرعة، وقد يعني ذلك أن البيانات تشكل قيمة للشركة ولكن الدراسة لم تتمكن من التعرف على هذه القيمة.

مع ذلك، كانت محاولة الباحثتين قياس الميزة التنافسية للبيانات جديرة بالثناء. إذ توصلت أبحاث أجرتها شركة "مايكروسوفت" إلى أنه من الممكن أن تؤدي بيانات المستخدم إلى نتائج أفضل في البحث على الإنترنت. ولكن ما حجم البيانات اللازمة للحصول على نتائج جيدة بما يكفي لجذب المستخدمين؟ الجواب عن هذا السؤال له أهميته فيما يخص البحث على الإنترنت، ولكن أهميته لصناعة الذكاء الاصطناعي الجديدة أكبر بكثير. وإذا كانت كنوز البيانات الضخمة ضرورية للتوصل إلى أي حل معقول من حلول الذكاء الاصطناعي، فمن المرجح أن تقع الصناعة تحت هيمنة عمالقة التقنية الذين يملكون القدرة على جمع هذا الكم الهائل من البيانات وتحليلها. وسيزداد التنافس في القطاع إذا تمكنت الشركات الجديدة من امتلاك بيانات كافية لتدريب أنظمة ذكية.

تشير المؤلفتان إلى أنه رغم وجود أسباب تدفعنا إلى الاعتقاد بأن البيانات تنطوي على ميزة تنافسية مهمة لمحركات البحث على الإنترنت، فإن هناك أسباباً تدفع إلى الشك. كما تنوه الباحثتان إلى إمكانية أن تكون قيمة البيانات التاريخية أقل من قيمة البيانات الجديدة في إضافة المعلومات إلى نتائج البحث على الإنترنت، الذي قد يكون قسم كبير منه غير شائع، مما يجعل جمع البيانات الكافية أمراً مستحيلاً حتى على الشركات الكبيرة.

أدى مستوى الحماس بشأن الذكاء الاصطناعي اليوم إلى زيادة الاندفاع نحو جمع كميات ضخمة من البيانات، وهو ما يستمر في إثارة مخاوف تتعلق بالخصوصية. وحتماً، ستنوه الشركات التي تجمع البيانات إلى استفادة المستخدم من التخلي عنها، ولكن دراسة تشيو وتاكر تثير الشكوك بشأن هذه الادعاءات. صحيح أن الناس يستفيدون من كثير من المنتجات التقنية المجانية والممتازة، ولا بد أنهم سيستفيدون من الحلول القائمة على الذكاء الاصطناعي بطرق لا تحصى، ولكنهم ليسوا مضطرين إلى التخلي عن خصوصيتهم بالكامل في سبيل الحصول على هذه الحلول والمنتجات.