عادة ما ترتبط كلمة "تسمم" بالصحة والبيئة، لكنها أصبحت تتردد مؤخرًا في سياق التكنولوجيا الرقمية، للإشارة إلى "تسميم الذكاء الاصطناعي"، وهو تهديد يقوض الثقة في الخوارزميات الذكية.
حذر باحثون من إمكانية تسميم أدوات الذكاء الاصطناعي مثل "تشات جي بي تي" و"جيميناي" والتلاعب بها لإنتاج محتوى مضلل. وأظهرت دراسة مشتركة بين معهد أمن الذكاء الاصطناعي البريطاني ومعهد "آلان تورينغ" وشركة "Anthropic" للذكاء الاصطناعي سهولة التلاعب بهذه الأدوات واستغلال ثغراتها لتدريبها على بيانات كاذبة. والنتيجة هي أن النموذج يبدأ في ارتكاب أخطاء أو تنفيذ أوامر ضارة بشكل ظاهر أو سري.
توصل الباحثون لهذه النتائج بعد تدريب الأدوات على 250 وثيقة ملوثة ببيانات مغلوطة، تم إدخالها عبر ثغرة خلفية. وبعد التجربة، أنتجت الأدوات نصوصًا مبهمة وغير مفهومة. وأثارت هذه النتائج قلق الباحثين، خاصة وأن معظم النماذج تتدرب على نصوص منشورة على الإنترنت مسبقًا، بما في ذلك المواقع الشخصية والمدونات، مما يجعل أي محتوى ينشئه أي شخص جزءًا من البيانات التي تتدرب عليها.
وأشار باحثون في أمن الذكاء الاصطناعي إلى أن هذه الثغرات تحد من إمكانية استخدام الذكاء الاصطناعي في الأمور الحساسة.
ما هو تسميم الذكاء الاصطناعي؟
يشير تسميم الذكاء الاصطناعي إلى عملية تلقين النموذج معلومات خاطئة عمدًا، بهدف إفساد معرفته أو سلوكه، وجعله يقدم إجابات خاطئة أو يرتكب أخطاء معينة، أو يظهر وظائف خبيثة مخفية. تقنيًا، يسمى هذا النوع من التلاعب "تسميم البيانات" إذا حدث أثناء التدريب، و"تسميم النموذج" عندما يجري التغيير على النموذج بعد اكتمال التدريب. غالبًا ما تتداخل الطريقتان لأن البيانات المسممة تؤدي في النهاية إلى تغيير سلوك النموذج بطريقة مشابهة.
يميز الخبراء نوعين رئيسيين من الهجمات:
- هجمات مستهدفة (باب خلفي): تهدف إلى إجبار النموذج على الاستجابة بطريقة محددة عند وجود محفز سري، مثل "حقن" أمر خفي يجعل النموذج يرد بإهانة عند ظهور كلمة نادرة في الاستعلام.
- هجمات غير مباشرة (تسميم المحتوى): لا تعتمد على محفزات خفية بقدر اعتمادها على ملء بيانات التدريب بمعلومات زائفة، نظرًا لاعتماد النماذج على كميات هائلة من المحتوى المتاح على الإنترنت. يستطيع المهاجم إنشاء مواقع ومصادر متعددة تروج لمعلومة خاطئة، مثل "سلطة الخس تعالج مرض السرطان"، وإذا استخدمت هذه المصادر في التدريب، فسيبدأ النموذج بتكرار تلك الأكاذيب بصفتها حقائق.
المخاطر العملية
أثبتت الدراسات الأخيرة أن "تسميم البيانات" يمثل خطرًا واقعيًا وقابلاً للتنفيذ على نطاق واسع، وله عواقب خطرة تتعدى نشر المعلومات المضللة لتشمل المخاطر السيبرانية. الأدلة التجريبية تؤكد أن تسميم البيانات ليس مجرد سيناريو افتراضي.
في تجربة أجريت في كانون الثاني الماضي، أدى استبدال 0.001% فقط من بيانات التدريب بمعلومات طبية مضللة إلى أن النموذج صار يقدم نصائح خاطئة في سياق اختبارات طبية نموذجية. وهذا يبين قدرة الهجمات الصغيرة والمحكمة على إحداث أضرار كبيرة تؤثر على سلامة المخرجات وثقة المستخدمين.