بيانات غير منظمة Unstructured Data

بيانات غير منظمة (Unstructured Data): تُسمى أيضاً “بيانات غير مهيكلة”، وهي بيانات غير منظمة ولا مرتبة سواء كانت في شكل جداول أو صور. ويعد تنظيم هذه البيانات غير المنظمة جزءاً من مهمة عالم البيانات حتى يتسنى له تحليلها. وتقدم اللغة الطبيعية أو النص أوضح مثال على ذلك. أحد الأساليب الشائعة لتحويل البيانات النصية إلى بيانات منظمة هو استعراضها كعدد كلمات، بحيث تُحول “القطة طاردت الفأر” إلى “(القطة،1)، (طاردت،1)، (الفأر،1). يسمى هذا نموذج حقيبة الكلمات، وهو يتيح لنا مقارنة النصوص وحساب المسافات بينها ودمجها في مجموعات. ويقدم نموذج حقيبة الكلمات أداء مدهشاً للعديد من التطبيقات العملية، إذ يكمن جزء من العملية في تحويل البيانات النصية إلى أرقام بحيث يمكننا إدخالها إلى النماذج التنبؤية، كما تسمح هذه الأساليب بتحليل الميول (هل النص إيجابي أم سلبي أم محايد؟) وتصنيف النص (هل المقال خبري أم ترفيهي أم رياضي؟)، وذلك من بين أشياء أخرى كثيرة. وللحصول على مثال حديث لتصنيف النص، راجع النموذج الأولي “نيوزي” (Newsie) لشركة “كلاوديرا فاست فوروارد لابس” (Cloudera Fast Forward Labs).