احترس من هلوسات الذكاء الاصطناعي

7 دقيقة
بوت الدردشة
الرسم التوضيحي: فريق عمل هارفارد بزنس ريفيو

ملخص: تضم هلوسات الذكاء الاصطناعي المحتوى غير الدقيق وغير الصحيح الذي يولّده بوت الدردشة الذكي ويستخدمه البشر دون تدقيق. وقد يشكل مخاطر كبيرة على عملك التجاري مثل الإضرار بسمعتك التجارية، وصنع قرارات غير سليمة، وتكبد مسؤولية قانونية وخسائر اقتصادية، وربما تهديد سلامة البشر. لكن من غير المرجح أن نستغني عن بوتات الدردشة في المستقبل المنظور. فكيف يمكنك الحد بفعالية من المخاطر المرتبطة بهذه الأدوات الواعدة الجديدة ومواصلة الاستفادة القصوى منها؟ من واقع دراسة نفذوها، يطرح المؤلفون سؤالين رئيسين: إلى أي درجة تصل أهمية صحة ردود بوت الدردشة في إتمام المهمة بنجاح؟ وما هي درجة صعوبة التحقق من صحة ردود بوت الدردشة؟ بتحليل إجاباتك عن هذين السؤالين، تحدد بفعالية أكبر المخاطر المتعلقة بمهمة معينة، وتتخذ خطوات ناجحة لتخفيف تلك المخاطر.

في أعقاب إطلاق شركة أوبن أيه آي (OpenAI) بوت الدردشة القائم على الذكاء الاصطناعي التوليدي، تشات جي بي تي، في نوفمبر/تشرين الثاني 2022، سارعت شركة جوجل بالرد عن طريق إطلاق بوت دردشة خاص بها، حمل في البداية اسم بارد (Bard)، ثم غيّرت اسمه إلى جيميناي (Gemini). وفي أثناء عرض بارد علناً للمرة الأولى، ولّد بوت الدردشة إجابة خطأ عندما سأله أحد الحضور عن اكتشافات تلسكوب جيمس ويب الفضائي. وبسبب هذه الإجابة غير الصحيحة من بوت الدردشة هبطت قيمة أسهم شركة ألفابت، الشركة الأم لجوجل، بنسبة 9%، ما أدى إلى خسارة 100 مليار دولار من قيمتها السوقية.

تبرهن وقائع حديثة في العديد من المهن على مخاطر استخدام بوت الدردشة. في عام 2023، فرضت المحكمة الفيدرالية في نيويورك غرامة على محاميين لتقديمهما مذكرات قانونية تحتوي على قضايا وشواهد قانونية وهمية ولّدها بوت الدردشة تشات جي بي تي. وتعرضت عدة صحف بارزة للإحراج بعد نشر محتوى ولّده بوت الدردشة. فعلى سبيل المثال، نشرت مجلة سبورتس إليستريتد (Sports Illustrated) عدة مقالات مكتوبة تحت أسماء مستعارة، ومرفقة بصور شخصية ولّدها الذكاء الاصطناعي.

لقد استخدم المحترفون والشركات، في كلتا الحالتين، المحتوى الذي ينتجه بوت الدردشة دون تمحيص كافٍ، وليس هذا سوى غيض من فيض. وأدى التلهف على سرعة إطلاق بوتات الدردشة المدعومة بنماذج اللغة الضخمة إلى ظهور مشاكل واسعة النطاق، حيث تولد تلك الأدوات في الغالب أكاذيب ومعلومات مضللة. فيواجه المدراء والشركات اليوم عدداً متزايداً من المخاطر الجديدة الناجمة عن ارتفاع سقف التوقعات وعدم مراعاة المعايير المهنية عند تدقيق المعلومات.

يدرس هذا المقال طبيعة تلك المخاطر ويقدم إرشادات مستنيرة، مستندة إلى بحثنا من أجل إدارتها.

أدوات جديدة تعني مخاطر جديدة

بينما تثير التطبيقات المحتملة لبوت الدردشة حماسةً وآمالاً حقيقية، هناك ما نسميه "المخاطر المعرفية لهلوسات الذكاء الاصطناعي". نعرّف هلوسات الذكاء الاصطناعي (هراء بوتات الدردشة) أو (Botshit)، بأنها المحتوى الزائف وغير الدقيق والمضلل الذي ينتجه بوت الدردشة ويستخدمه البشر في مهام مختلفة دون تمحيص وتدقيق كافيين.

ويؤدي الفشل في إدارة مخاطر هلوسات الذكاء الاصطناعي بفعالية إلى عواقب وخيمة على الموظفين والمدراء وشركاتهم، منها الإضرار بسمعتك التجارية، وصنع قرارات غير سليمة، وتكبد مسؤولية قانونية وخسائر اقتصادية، وربما تهديد سلامة البشر.

لنأخذ قطاع الرعاية الصحية نموذجاً. لاستخدام بوت دردشة موثوق به في السياقات الطبية الموجهة للمستهلكين، مثل الصيدليات، فوائد واضحة. فيمكن إتاحة بوت الدردشة بلا انقطاع على مدار الساعة ليجيب فوراً وبفعالية عن أسئلة متعلقة بالوصفات الطبية والخدمات الصيدلانية. لكن الاجتماع السنوي للجمعية الأميركية لصيادلة نظام الرعاية الصحية (American Society for Health-Systems Pharmacists) لعام 2023، شهد إفادات من الباحثين بأن نحو ثلاثة أرباع إجابات تشات جي بي تي عن الأسئلة المتعلقة بالأدوية كانت غير دقيقة أو غير وافية. والأسوأ من ذلك، عندما طلب الباحثون من الأداة تقديم مراجع داعمة لإجاباتها، لفّقت الأداة شواهد زائفة، وهو نوع مقلق من الهلوسة. فإذا اعتمد طبيب معالج بلا تدقيق على اقتراحات تشات جي بي تي، دون ممارسة خبراته السريرية، فسوف يهدد أرواح المرضى. وفي حين أظهرت مراجعة منهجية حديثة لأبحاث حول دور تشات جي بي تي في قطاع الرعاية الصحية أن الأداة يمكن أن تكون مفيدة لكل من إجراءات العمل السريرية والمهام الموجهة للمستخدم. فقد حددت المراجعة أوجه القصور التي تتمثل في تقديم تشات جي بي تي معلومات مضللة وخطرة في صيغة مقنعة لمن يستعين بها.

وتحول هذا الخطر المفترض إلى واقع في شركة بابيلون هيلث الناشئة، التي طورت تطبيق جي بي آت هاند (GP at Hand) الذي يعتمد على الذكاء الاصطناعي. قالت الشركة أن التطبيق قادر على تبسيط عملية الفرز في قطاع الرعاية الصحية وتقليل تكلفتها بدرجة كبيرة. يسمح التطبيق للمرضى بتسجيل أعراض المرض، ثم يقدم توصيات بشأن مختص الرعاية الصحية الذي يجب عليهم استشارته، إن لزم الأمر ذلك. وبعد إطلاق التطبيق، اكتشف العديد من الأطباء في المملكة المتحدة أنه يقدم مشورة غير صحيحة. فعلى سبيل المثال، عرضت هيئة الإذاعة البريطانية، في برنامج "نيوزنايت" (Newsnight)، مقابلة أجرتها مع طبيب يشرح كيف أخطأ التطبيق في تحديد طبيعة حالتين مرضيتين واعتبرهما غير طارئتين، في حين كانت الأعراض في كلتا الحالتين تشير إلى نوبة قلبية محتملة. أما المشورة الصحيحة فهي التوجه على الفور إلى قسم الطوارئ. فعندما يتضح أن وعود التطبيق مبالغ فيها بل خطيرة أيضاً، فإنه يفقد جاذبيته، وتضطر الشركة المسؤولة عنه إلى تصفية أعمالها في نهاية المطاف.

إدارة مخاطر هلوسات الذكاء الاصطناعي

على الرغم من المخاوف المنتشرة بشأن استخدام بوت الدردشة، كما هي الحال مع جي بي آت هاند، فمن غير المحتمل أن يتوقف الاعتماد عليه في الشركات والأوساط المهنية. بل على العكس، نرى أن تكنولوجيا الذكاء الاصطناعي التوليدي تفتح الباب أمام فرص جديدة، شريطة فهم المخاطر المعرفية المرتبطة بها والحد من تأثيرها.

وسعياً إلى ذلك، يحدد بحثنا بُعدين رئيسيين للمخاطر المعرفية التي تطرحها بوتات الدردشة: إلى أي درجة تصل أهمية صحة ردود بوت الدردشة في إتمام المهمة بنجاح؟ وما هي درجة صعوبة التحقق من صحة ردود بوت الدردشة؟ تتطلب بعض مهام العمل معلومات على درجة عالية من المصداقية، ما يجعل من الضروري أن تكون ردود بوت الدردشة صحيحة ودقيقة. ومن أمثلة ذلك، المهام التي تتناول رفاهة الأفراد في مجالات السلامة والرعاية الصحية والتعليم. وفي المقابل ثمة مهام لا تتطلب دقة متناهية في ردود بوت الدردشة، مثل توليد أفكار لمنتج أو خدمة جديدة، أو ابتكار قصص لعمل ترفيهي، أو عمل إبداعي على تسمية علامات تجارية لمنتجات وتصميم شعارات تجارية لشركات.

يُمثل التحقق من دقة المحتوى الذي تنشئه بوتات الدردشة الذكية البعد الحيوي الآخر للمخاطر المعرفية، إذ يكون التحقق من صحة ردود أدوات الذكاء الاصطناعي التوليدي في بعض المهام سهلاً نسبياً، فيسهل على المتداولين مثلاً التحقق من القيمة السوقية لشركة مدرجة في بورصة الأوراق المالية في أي وقت؛ لكن هذا التحقق ليس هيناً على الإطلاق في مهام أخرى، إذ قد يحاول مندوب مبيعات التحقق من صحة الإشاعات حول منتج منافس مرتقب، أو قد تسعى شركة إعلانات لتأكيد جدوى فكرة حملة إعلانية جديدة.

بدمج هذين البعدين، نحصل على 4 أنواع مختلفة من المهام التي تدعمها بوتات الدردشة التوليدية، ويحمل كل نوع من هذه المهام مخاطر فريدة تتطلب استراتيجيات إدارة مخصصة.

المهام الموثّقة

يصبح التحقق من صحة ردود بوت الدردشة أمراً بالغ الأهمية في المهام الموثّقة، ولكنه صعب في أغلب الحالات. وتشمل الأمثلة عليها مهام إعداد الميزانية المعقدة، أو مراجعة بروتوكولات السلامة، مثل إجراءات التشخيص السريري التي يتخذها مختص الأشعة عند فحص صور الأشعة، أو إصدار الأحكام القانونية. وأكبر مخاطر استخدام بوت الدردشة في هذه السياقات هو الضبط غير الدقيق؛ أي عندما لا تعكس مخرجات بوت الدردشة الحقائق والمعلومات الأساسية بدقة. هذا ما حدث عندما قدّم المحاميان اللذان ذكرناهما آنفاً، قضية قانونية من توليد تشات جي بي تي، متضمنة مرجعيات وشواهد قانونية مختلقة.

لكنها مخاطر يمكن إدارتها، من خلال فحص نموذج اللغة الضخم لبوت الدردشة ومعايرة مخرجاته بدقة، وهذا ينطوي وفقاً لطبيعة مهمة العمل على تدريب النموذج واختبار صحة أجوبته، وتحديد نقاط ضعفه وإصلاحها. فبمقدور خبير جيد التدريب تنفيذ هذه المعايرة بضبط مخرجات بوت الدردشة من خلال مضاهاتها بحقائق مثبتة، على سبيل المثال. هنا تبرز قيمة بوتات الدردشة المخصصة للمساعدة في مهام محددة، مقارنةً ببوتات الدردشة العامة، مثل تشات جي بي تي. وتقدم تكنولوجيا متطورة مثل توليد النصوص المعزز بالاسترجاع (Retrieval Augmented Generation - RAG) مسارات واعدة لتطوير بوت دردشة أكثر فعالية وتخصصاً. وإضافةً إلى ذلك، يمكن للمستخدم تعزيز أداء بوت الدردشة بتطوير مجموعة من ممارسات هندسة الأوامر النصية. مع استخدام الأوامر النصية ووضعها في التسلسل المناسب بفعالية، يتعاون المستخدم وبوت الدردشة على توليد الأفكار والرؤى وتصحيح أي أخطاء محتملة.

المهام المعززة

ينطوي السياق الثاني على المهام المعززة، ما يعني أن صحة المخرجات أو دقتها ليست بالدرجة نفسها من الأهمية، وقد يكون من الصعب التحقق من صحة مخرجات الذكاء الاصطناعي أو ملاءمتها. ونقصد هنا مهام التفكير الاستكشافي أو الإبداعي، مثل العصف الذهني أو توليد الأفكار، ويحمل أداء هذه الأنواع من المهام مخاطر كبيرة تتمثل في تجاهل المعلومات أو الأفكار المهمة، أو إدراج معلومات غير ملائمة عن طريق الخطأ. فعلى سبيل المثال، بعد إقامة مسابقات لحشد المصادر وتوليد الأفكار بمساعدة بوتات الدردشة، وجد المحكمون من خبراء الابتكار أن الأفكار التي ولّدتها بوتات الدردشة أكثر جدوى وتأثيراً وقابلية للتنفيذ، ولكن لا يمكن مقارنتها من حيث الحداثة وروح الابتكار بتلك التي قدمها البشر. وهو ما يبرز الحاجة الماسة إلى خبراء مهرة من البشر لتعزيز الردود التي تبدو إبداعية الناتجة عن الآلات المدربة على القواعد المنطقية.

المهام المؤتمتة

الطريقة الثالثة هي استخدام الذكاء الاصطناعي التوليدي في سياقات مؤتمتة، حيث تكون الردود الدقيقة عنصراً مهماً والمعلومات سهلة التدقيق نسبياً، ومنها تقييم طلبات القروض أو التحقق من وظائف رموز برمجة الكمبيوتر. والمخاطرة الرئيسية في هذه الحالات هي تحول هذه المهام إلى روتين، وهو ما يحدث نتيجة الإفراط في الاعتماد على مخرجات الذكاء الاصطناعي دون تقييمها والتحقق من صحتها بصورة دورية. فمن أمثلة ذلك قصة أحد المسافرين الذي دخل إلى موقع شركة الطيران الكندية الإلكتروني للاستفسار عن التخفيضات والعروض المقدمة في حالات السفر الطارئة، بعد وفاة جدته، فقدّم بوت الدردشة جواباً خاطئاً مفاده أن الشركة ستعيد له جزءاً من ثمن بطاقته خلافاً لما تنص عليه سياسة الشركة. وانتشر خبر الخطأ الإداري الذي ارتكبه بوت الدردشة في وسائل الإعلام الدولية عندما ربح هذا الراكب دعوى التعويض القضائية التي رفعها ضد شركة الطيران.

يمكن إدارة مخاطر الأتمتة هذه من خلال إلزام مستخدم بشري بالمشاركة في إدارتها من أجل التحقق من تقييمات بوت الدردشة وقراراته بانتظام، وذلك يضمن تمييز المستخدم البشري للأخطاء وعدم إغفاله لها.

المهام المستقلة بذاتها

الطريقة الأخيرة لاستخدام الذكاء الاصطناعي التوليدي في العمل هي السياق المستقل بذاته؛ أي عندما تكون دقة ردود بوت الدردشة أقل أهمية ويمكن التحقق منها بسهولة. وقد تشمل المهام الرد على الاستفسارات الروتينية في الأعمال الإدارية أو خدمة العملاء. في سياق مثله، يطلق الخبراء على الخطر الرئيسي الذي يخلقه الذكاء الاصطناعي اسم "الصندوق الأسود"، حيث يصبح من الصعب أو المستحيل فهم آلية عمل تكنولوجيا نظام الذكاء الاصطناعي. وهو ما حدث مع شركة توصيل الطرود الفرنسية دي بي دي (DPD) عندما استخدمت بوت دردشة للرد على أسئلة العملاء. إذ اكتشفت الشركة أكثر من حالة استخدم فيها بوت الدردشة ألفاظاً بذيئة، وانتقد الشركة أيضاً بأبيات شعر كتبها بأسلوب شعر الهايكو الياباني. وقد يكون من الصعب تحديد مصدر الأخطاء والتعرف على كيفية منعها، بالنظر إلى مدى تعقيد تكنولوجيا بوت الدردشة.

لذلك، يساعد تدريب نموذج اللغة الضخم الخاص ببوت الدردشة وتلقينه، وتقييد خيارات الرد، في إدارة مخاطر هذه السياقات. ولتعزيز موثوقية بوت الدردشة والحد من مخاطر هلوساته المحتملة، يجب تضييق نطاق استخدامها، وأن تكون الحماية المتبعة من إرشادات أو قواعد أو قيود أشد صرامة.

تتمتع بوتات الدردشة والأدوات التي تعتمد على الذكاء الاصطناعي التوليدي بإمكانات هائلة لتبسيط مجموعة واسعة من عمليات العمل ومهماته ورفع كفاءة تنفيذها. لكنها لا تخلو من مخاطر، كما هي الحال مع أي تكنولوجيا جديدة مهمة. وقد أوضحت الأمثلة التي قدمناها أن سوء إدارة المخاطر المعرفية لهلوسات الذكاء الاصطناعي يؤدي إلى عواقب خطيرة وباهظة التكلفة تؤثر سلباً على الموظفين والشركات والقطاعات والمهن. وإدارة تلك المخاطر بحكمة ودقة كفيلة باحتوائها وتحييدها ومواصلة جني الفوائد.

تنويه: يمكنكم مشاركة أي مقال من هارفارد بزنس ريفيو من خلال نشر رابط المقال أو الفيديو على أي من شبكات التواصل أو إعادة نشر تغريداتنا، لكن لا يمكن نسخ نص المقال نفسه ونشر النص في مكان آخر نظراً لأنه محمي بحقوق الملكية الدولية. إن نسخ نص المقال بدون إذن مسبق يعرض صاحبه للملاحقة القانونية دولياً.

جميع الحقوق محفوظة لشركة هارفارد بزنس ببليشنغ، بوسطن، الولايات المتحدة الأميركية 2024 .