facebook
twitter
whatsapp
email
linkedin
messenger

البيانات غير المنظمة

البيانات غير المنظمة (Unstructured Data): أو "البيانات غير المهيكلة"، وهي عبارة عن بيانات غير منظمة سواء كانت في شكل جدوال أو صور. ويعد تنظيم هذه البيانات غير المنظمة جزءاً من مهمة عالم البيانات حتى يتسنى له تحليلها. وتقدم اللغة الطبيعية أو النص أوضح مثال على ذلك. أحد الأساليب الشائعة لتحويل البيانات النصية إلى بيانات منظمة هو استعراضها كعدد كلمات، بحيث تُحول "القطة طاردت الفأر" إلى "(القطة،1)، (طاردت، 1)، (الفأر،1). يسمى هذا نموذج حقيبة الكلمات، وهو يتيح لنا مقارنة النصوص وحساب المسافات بينها ودمجها في مجموعات. ويقدم نموذج حقيبة الكلمات أداء مدهشاً للعديد من التطبيقات العملية، إذ يكمن جزء من العملية في تحويل البيانات النصية إلى أرقام بحيث يمكننا إدخالها إلى النماذج التنبؤية، كما تسمح هذه الأساليب بتحليل الميول (هل النص إيجابي أم سلبي أم محايد؟) وتصنيف النص (هل المقال خبري أم ترفيهي أم رياضي؟)، وذلك من بين أشياء أخرى كثيرة. وللحصول على مثال حديث لتصنيف النص، راجع النموذج الأولي "نيوزي" (Newsie) لشركة "كلاوديرا فاست فوروارد لابس" (Cloudera Fast Forward Labs).

 

أرسل لنا اقتراحاتك لتطوير محتوى المفاهيم

اقرأ أيضاً في هارفارد بزنس ريفيو

بدعم من تقنيات

error: المحتوى محمي !!