تعد القدرة على فهم البيانات والتواصل بشأنها مهارة متزايدة الأهمية لمواطن القرن الواحد والعشرين، وذلك لثلاثة أسباب. أولاً، يؤثر علم البيانات والذكاء الاصطناعي على العديد من القطاعات على مستوى العالم، بداية من الرعاية الصحية والخدمات الحكومية وانتهاء بالزراعة والتمويل. ثانياً، تَرد الكثير من الأخبار من خلال عدسات البيانات والنماذج التنبؤية. ثالثاً، تُستخدم الكثير من بياناتنا الشخصية لتحديد كيفية تفاعلنا مع العالم. ولهذا إليكم أنواع البيانات وكيفية جمعها.
نظراً لأن الكثير من البيانات أصبح يستخدم في توجيه عملية اتخاذ القرار في العديد من القطاعات، يجب أن تمتلك فهماً أساسياً لنظام اتصال البيانات المتكامل حتى تصبح جزءاً من النقاش. علاوة على ذلك، فمن المرجح أن يقع القطاع الذي تعمل به تحت تأثير تحليلات البيانات. وحتى إذا كنت لا تعمل بشكل مباشر مع البيانات، ستتيح لك هذه الدرجة من المعرفة إمكانية طرح الأسئلة الصحيحة والمشاركة في المناقشات الخاصة بالعمل.
اقرأ أيضاً: خمس خطوات للاستفادة أكثر من بيانات مؤسستك
لنأخذ مثالاً بارزاً واحداً فقط. تخيل لو كان هناك نقاش حول كيفية تفسير النماذج الاحتمالية في الفترة السابقة للانتخابات الرئاسية لعام 2016 في الولايات المتحدة. حيث أشار موقع فايف ثيرتي إيت (FiveThirtyEight)، المهتم بصحافة البيانات، إلى فرص فوز كلينتون بنسبة 71.4% مقابل 28.6% لترامب. وكما أوضح ألين دوني أستاذ علوم الحاسب بكلية أولين الأميركية، أنه كان من الممكن أن يُصدم عدد أقل من الناس من النتيجة لو تم تذكيرهم بأنّ فوز ترامب، وفقاً لموقع فايف ثيرتي إيت، كان أكثر احتمالاً قائماً على الرغم من صعوبة تخيله.
ما الذي نتحدث عنه عندما نتكلم عن البيانات؟
تندرج المفاهيم المتعلقة بالبيانات التي يحتاج الأشخاص غير المختصين إلى فهمها في خمس مجموعات: (أولاً) إنشاء البيانات وجمعها وتخزينها، (ثانياً) كيف تبدو البيانات وكيف تبدو للعلماء ومحللي البيانات، (ثالثاً) الحدس الإحصائي والمآزق الإحصائية الشائعة، (رابعاً) بناء النموذج وتعلّم الآلة والذكاء الاصطناعي، (خامساً) أخلاقيات البيانات الكبيرة والصغيرة.
تتطابق المجموعات الأربع الأولى تقريباً مع الخطوات الرئيسة في تراتبية علم البيانات لتسلسل الاحتياجات، كما أوردته مونيكا روغاتي. وقد أضفت أخلاقيات البيانات كمفهوم خامس رئيس، لأن الأخلاق يجب أن تكون جزءاً من أي مناقشة حول البيانات، وذلك على الرغم من أنها لم تدرج رسمياً في علم البيانات. كما تتأثر حياة العديد من الأشخاص بشكل متزايد بالبيانات التي يقدمونها والخوارزميات التي تستخدم تلك البيانات. وسأركز في هذا المقال على مفهومين، وسأترك الثلاثة الآخرين لمقال مستقبلي.
كيف يتم إنشاء البيانات وجمعها وتخزينها؟
كل مرة تتعامل فيها مع الإنترنت، سواء عبر متصفح الإنترنت أو من خلال أحد تطبيقات الهاتف المحمول، يتم اكتشاف نشاطك وتخزينه في أغلب الأحيان. وللتعرف على بعض ما يمكن لمتصفح الإنترنت الأساسي اكتشافه، تحقق من موقع Clickclickclick.click وهو مشروع يفتح نافذة على نطاق جمع البيانات السلبية عبر الإنترنت. وإذا كنت تتمتع بروح مغامرة أكثر يمكنك تثبيت تطبيق داتا سيلفي (data selfie) الذي "يجمع نفس المعلومات التي تقدمها إلى فيسبوك، ولكنه يحافظ على خصوصيتك".
اقرأ أيضاً: صناعة المياه وتبني البيانات والاستفادة منها
لا ينحصر جمع المعلومات على مجرد تفاعلات عالم الكمبيوتر المحمول والهواتف الذكية والأجهزة اللوحية، ولكنه يمتد إلى إنترنت الأشياء الأوسع نطاقاً (IoT)، وهو يشمل الأشياء التقليدية غير الذكية مثل أجهزة الراديو والمصابيح، والتي يمكن جعلها أكثر ذكاءً بتوصيلها إلى الإنترنت بجانب الأجهزة الأخرى لجمع البيانات مثل أجهزة تتبع اللياقة وأمازون إيكو والسيارات ذاتية القيادة.
تخزّن جميع البيانات التي تم جمعها فيما نشير إليه بالعامية بـ "السحابة". ومن المهم أن نوضح ما المقصود بهذا المصطلح. أولاً، البيانات المحفوظة في المخزن السحابي توجد في مكان مادي، تماماً مثل الكمبيوتر أو محرك أقراص خارجي. ولكن الفارق بالنسبة للمستخدم هو أنّ مخزن البيانات يوجد في مكان آخر، بشكل عام في مزارع الخوادم ومراكز البيانات التي تملكها وتشغلها الشركات متعددة الجنسيات، ويمكنك عادة الوصول إليها عبر الإنترنت. وينقسم مقدمو خدمات التخزين السحابي إلى نوعين: عام وخاص. وتكون الخدمات السحابية العامة، مثل أمازون ومايكروسوفت وجوجل، مسؤولة عن إدارة البيانات وصيانتها، في حين تظل مسؤولية البيانات في الخدمات السحابية الخاصة من اختصاص الشركة المالكة لها. على سبيل المثال، تمتلك فيسبوك سحابتها الخاصة.
من الضروري إدراك أنّ الخدمات السحابية تخزّن البيانات في مكان مادي، وقد تخضع البيانات لقوانين البلد الذي توجد فيه. كما عززت تشريعات حماية البيانات العامة للاتحاد الأوروبي هذا العام خصوصية بيانات المستخدم، وأفادت بالموافقة على البيانات الشخصية. ويعد أمن البيانات من الأسئلة الملحة، حيث نحتاج إلى إجراء المزيد من النقاشات العامة والشاملة حول أمن البيانات في التقنية السحابية.
أشكال البيانات
تأتي البيانات التي يقابلها علماء البيانات في الغالب في واحد من ثلاثة أشكال: (أولاً) البيانات المجدولة، (وهي البيانات الموجودة في جدول مثل جدول البيانات)، أو (ثانياً) البيانات المصورة، أو (ثالثاً) البيانات غير المنظمة مثل نصوص اللغة الطبيعية أو شيفرة "html"، والتي تشكل غالبية بيانات العالم.
البيانات المجدولة
هذا هو النوع الأكثر شيوعاً والذي يستخدمه عالم البيانات، وتشبه جدول البيانات. وقد عرض روبرت تشانغ نموذجاً للبيانات في مقاله "استخدام تعلم الآلة للتنبؤ بقيمة المنازل على موقع إير بي إن بي (Airbnb)"، والتي تظهر في جدول يمثل فيه كل صف عقار خاص، وكل عمود ميزة خاصة في العقار، مثل المدينة المضيفة ومتوسط سعر الليلة والإيرادات السنوية. (لاحظ أنه نادراً ما يُسلم المستخدم البيانات بشكل مباشر على هيئة بيانات مجدولة؛ حيث تعد هندسة البيانات خطوة أساسية لتجهيز البيانات لمثل ذلك التحليل).
اقرأ أيضاً: اجعل من البيانات ركيزة أساسية لفريقك
تُستخدم هذه البيانات لتدريب نماذج التعلم الآلي أو تعليمها كيفية التنبؤ بالقيمة الإجمالية للعقار مدى الحياة، أي مقدار الإيرادات التي يحققها العقار على مدار عمره.
البيانات المصورة
تتكون البيانات المصورة من الصور، وقد تحققت العديد من نجاحات التعلم العميق في مجال تصنيف الصور. كما تعد القدرة على تشخيص المرض من تصوير البيانات، مثل تشخيص الأنسجة السرطانية الناتجة عن التصوير المقطعي بالإصدار البوزيتروني (PET) والتصوير المقطعي المحوسب (CT)، وقدرة السيارات ذاتية القيادة على اكتشاف الأشياء وتصنيف في مجال رؤيتها، حالتان من حالات الاستخدام الكثيرة للبيانات المصورة. ومن أجل العمل على البيانات المصورة، يحوّل عالم البيانات الصورة إلى شبكة أو (مصفوفة) من قيم وأرقام البيكسل الحمراء والخضراء والزرقاء، ويستخدم هذه المصفوفات كمدخلات للنماذج التنبؤية الخاصة به.
البيانات غير المنظمة
هي كما قد يخمن البعض عبارة عن بيانات غير منظمة في أي من النمطين المذكورين أعلاه. ويعد تنظيم هذه البيانات غير المنظمة جزءاً من مهمة عالم البيانات حتى يتسنى له تحليلها. وتقدم اللغة الطبيعية أو النص أوضح مثال على ذلك. أحد الأساليب الشائعة لتحويل البيانات النصية إلى بيانات منظمة هو استعراضها كعدد كلمات، بحيث تُحول "القطة طاردت الفأر" إلى "(القطة،1)، (طاردت، 1)، (الفأر،1). يسمى هذا نموذج حقيبة الكلمات، وهو يتيح لنا مقارنة النصوص وحساب المسافات بينها ودمجها في مجموعات. ويقدم نموذج حقيبة الكلمات أداءً مدهشاً للعديد من التطبيقات العملية، خاصة بالنظر إلى أنه لا يميز بين "بناء جسور وليس حوائط" و "بناء حوائط وليس جسور". يكمن جزء من الموضوع في تحويل البيانات النصية إلى أرقام بحيث يمكننا إدخالها إلى النماذج التنبؤية، والقاعدة متشابهة للغاية بين حقيبة الكلمات والأساليب الأكثر تطوراً. كما تسمح هذه الأساليب بتحليل الميول (هل النص إيجابي أم سلبي أم محايد؟) وتصنيف النص (هل المقال خبري أم ترفيهي أم رياضي؟)، وذلك من بين أشياء أخرى كثيرة. وللحصول على مثال حديث لتصنيف النص، راجع إلى النموذج الأولي نيوزي (Newsie) لشركة كلاوديرا فاست فوروارد لابس (Cloudera Fast Forward Labs).
اقرأ أيضاً: استخدم هذه الطريقة للتأكد من نجاح مشاريعك المعتمدة على البيانات الكبيرة
وفي نهاية الحديث عن أنواع البيانات وكيفية جمعها، هاتان خطوتان فقط من الخطوات الخمس اللازمة للعمل مع البيانات، لكنهما نقطتا انطلاق أساسيتان لمعرفتك بالبيانات. وعندما تتعامل مع البيانات، فكر كيف جُمعت هذه البيانات وما نوعها. وسيساعدك ذلك على فهم معناها، ومدى ثقتك بها، ومقدار العمل الذي يجب القيام به لتحويلها إلى شكل مفيد.
اقرأ أيضاً: الإدارة هي أكثر بكثير من مجرد علم محدودية اتخاذ القرارات بناء على البيانات