غوغل تحذر: دقة روبوتات الذكاء الاصطناعي لا تتجاوز 70% والأخطاء تهدد قطاعي الصحة والمالية


أكدت شركة غوغل أن دقة روبوتات الدردشة المعتمدة على النماذج اللغوية للذكاء الاصطناعي لا تتجاوز 70% في كثير من الحالات، وذلك استناداً إلى دراسة مكثفة أجرتها الشركة. وقد نشر موقع (Digital Trends) الأمريكي، المتخصص في التكنولوجيا والإلكترونيات الاستهلاكية والابتكارات الرقمية، تقريراً مفصلاً عن نتائج هذه الدراسة التي انطلقت من واشنطن.
أظهرت الدراسة أن النماذج اللغوية تخطئ في الإجابة عن نحو سؤال واحد من كل ثلاثة أسئلة مطروحة، حتى في المواقف التي تبدو فيها الإجابات المقدمة منطقية. وقد جاء نموذج “جيميناي 3 برو” في الصدارة بنسبة دقة تجاوزت 69%، تلاه نموذج “جيميناي 2.5 برو” بنسبة 62%، ثم “تشات جي بي تي 5” بنسبة 61.8%.
في المقابل، سجلت نماذج أخرى نسباً أقل في الأداء، حيث بلغ أداء “كلود أوبس 4.5” 51%، بينما سجل نموذج “غروك” نسبة 53%.
اعتمدت الدراسة في تقييمها على أربعة معايير رئيسية: المعيار البارامتري لقياس الدقة في بنك المعرفة الداخلي؛ ومعيار بحثي لاختبار القدرة على البحث عبر الإنترنت؛ ومعيار متعدد الوسائط لتقييم الإجابة عن المحتوى البصري؛ ومعيار الأساس 2 لاختبار القدرة على تقديم إجابات متسقة مع السياق العام.
كشفت النتائج عن تفاوت واسع بين النماذج حسب نوعية الأسئلة، حيث تفوق “تشات جي بي تي 5” في معايير البحث والأساس. ولوحظ أن نقاط الضعف في المعيار متعدد الوسائط كانت عامة وشملت النماذج كافة. وسجل نموذج “غروك 4 فاست” أدنى النتائج بمتوسط بلغ 36%، وانخفضت هذه النسبة إلى 15% في المعيار البارامتري.
تؤكد غوغل من خلال هذه الدراسة على محدودية دقة روبوتات الدردشة في الاختبارات المتخصصة، محذرةً من أن الأخطاء، حتى بنسبة منخفضة، قد تتسبب بأضرار كبيرة في قطاعات حساسة وحيوية مثل الصحة والمالية.
علوم وتكنلوجيا
علوم وتكنلوجيا
علوم وتكنلوجيا
علوم وتكنلوجيا