توصلت الأبحاث إلى أن نصف النصائح الطبية التي تقدمها الذكاء الاصطناعي بها مشاكل، وGrok هو الأسوأ، وOpenAI لا تزال توسع طموحاتها في المجال الطبي

robot
إنشاء الملخص قيد التقدم

استنادًا إلى الدراسة التي نُشرت مؤخرًا في مجلة BMJ Open، حوالي 50% من إجابات خمسة من أكبر روبوتات الدردشة الذكية في مجال الذكاء الاصطناعي على الأسئلة الطبية تحتوي على مشاكل، منها ما يقرب من 20% تم تصنيفها بأنها “ذات مشكلة عالية”. وأشارت بلومبرج إلى أن هذه الدراسة تكشف عن مخاطر منهجية لاستخدام الذكاء الاصطناعي في المجال الطبي، وهو أمر يبدو أكثر سخرية في ظل توسع كل من OpenAI وAnthropic في مجال الرعاية الصحية بشكل متزامن.
(مقدمة: هل تترك سجلك الطبي للروبوتات الدردشة؟ مقامرة الخصوصية وراء طموح ChatGPT الصحي)
(معلومات إضافية: دراسة من جامعة كاليفورنيا تُظهر ظاهرة “ضباب الدماغ” في الذكاء الاصطناعي: 14% من الموظفين يعانون من جنون الوكيل أو الأتمتة، مع رغبة في الاستقالة بنسبة 40%)

فهرس المقال

تبديل

  • أداء Grok الأسوأ، وChatGPT ليس بأفضل حال
  • كلما زادت ثقة الذكاء الاصطناعي، زادت المخاطر
  • OpenAI وAnthropic: الدراسة تضغط على الفرامل، والأعمال التجارية تسرع
  • ثقة في الذكاء الاصطناعي، لكن بشرط

يستقبل أكثر من 2.3 مليار شخص أسبوعيًا أسئلة حول الصحة والرعاية الطبية عبر ChatGPT، لكن إجاباتك قد تكون خاطئة بنسبة تقارب النصف. وفقًا لدراسة نُشرت هذا الأسبوع في المجلة الطبية BMJ Open، قام باحثون من الولايات المتحدة وكندا والمملكة المتحدة بتقييم منهجي لمنصات الذكاء الاصطناعي الكبرى: ChatGPT، Gemini، Meta AI، Grok، وDeepSeek، حيث طرحوا على كل منصة خمسة أسئلة عبر خمسة فئات طبية مختلفة، بإجمالي 10 أسئلة.

النتائج ليست متفائلة: حوالي 50% من الردود اعتُبرت خاطئة، منها ما يقرب من 20% تم تصنيفها بأنها “ذات مشكلة عالية”.

أداؤه أسوأ، وChatGPT ليس بأفضل حال

ذكرت بلومبرج أن أداء كل منصة يختلف بشكل كبير، لكن لا يوجد منصة اجتازت الاختبار بشكل كامل. من حيث معدل استجابة المنصات، تصدرت Grok القائمة بنسبة 58%، مما يجعلها الأسوأ أداءً؛ تلتها ChatGPT بنسبة 52%؛ وMeta AI بنسبة 50%.

لاحظ الباحثون أنه في الأسئلة المغلقة والمتعلقة باللقاحات والسرطان، كانت أداء روبوتات الدردشة أفضل نسبياً؛ لكن في الأسئلة المفتوحة وفي مجالات الخلايا الجذعية والتغذية، انخفض الأداء بشكل واضح. بالإضافة إلى ذلك، كانت هناك حالتان فقط لرفض الإجابة، وكلاهما من Meta AI (وهو أمر يُعد في حد ذاته ميزة نادرة، بمعنى أن معرفة عدم القدرة على الإجابة يُعد نوعًا من التفوق).

الأكثر إثارة للقلق هو أن هذه الأنظمة غالبًا ما تعطي إجابات واثقة، بنبرة مؤكدة، دون تردد. وأكد الباحثون أنه لا يوجد روبوت دردشة واحد يمكنه، تحت أي استفسار، تقديم قائمة كاملة ودقيقة للمراجع العلمية. هذا يعني أنه حتى لو بدا أن الذكاء الاصطناعي “مستند إلى أدلة”، فإن المصادر التي يستشهد بها غالبًا لا يمكن التحقق منها، أو قد تكون غير موجودة أصلاً.

كلما زادت ثقة الذكاء الاصطناعي، زادت المخاطر

كتب الباحثون في الورقة أن هذه الأنظمة يمكن أن تولد “ردودًا تبدو وكأنها موثوقة، لكنها قد تكون ذات عيوب”، مما يبرز أن روبوتات الدردشة الذكية تواجه “قيودًا كبيرة في السلوك” عند التواصل مع الجمهور حول الصحة والرعاية الطبية، بالإضافة إلى ضرورة “إعادة تقييم طرق نشرها”.

وأشارت بلومبرج إلى تحذيرات فريق البحث: أن الانتشار الواسع للروبوتات الدردشة بدون وجود تعليم عام وآليات تنظيمية كافية هو أكبر خطر، لأنه يعزز انتشار المعلومات الطبية الخاطئة وتوسعها.

ومن الجدير بالمقارنة أن دراسة من مجلة JAMA أشارت إلى أن معدل فشل الذكاء الاصطناعي في التشخيص الأولي يتجاوز 80%. كما أصدرت جامعة أكسفورد تحذيرًا في فبراير 2026، تدعو فيه إلى إيلاء اهتمام أكبر للمخاطر المنهجية التي تنطوي عليها أنظمة الذكاء الاصطناعي عند تقديم النصائح الطبية.

OpenAI وAnthropic: الدراسة تضغط على الفرامل، والأعمال تسرع

توقيت إصدار هذه الدراسة درامي جدًا. قبل بضعة أشهر، أطلقت OpenAI بشكل كبير ChatGPT Health في يناير 2026، وهو ميزة تسمح للمستخدمين بالاتصال بالسجلات الصحية الإلكترونية والأجهزة القابلة للارتداء وتطبيقات الصحة، بالإضافة إلى إصدار أدوات مهنية للأطباء. وأعلنت OpenAI أن 40 مليون شخص يستخدمون ChatGPT يوميًا للاستعلام عن المعلومات الصحية.

وفي ذات الوقت تقريبًا، أعلنت Anthropic عن إطلاق Claude for Healthcare، مع اعتمادها على شهادة الامتثال لـ HIPAA، للدخول رسميًا إلى سوق الرعاية الصحية.

هذه المنصات لا تملك تراخيص طبية، ولا تملك القدرة على الحكم السريري، ومع ذلك تتوسع بسرعة مذهلة في المجال الطبي. التوتر بين نتائج الدراسة وتوجهات التوسع التجاري يكشف عن فراغ تنظيمي: لا توجد حدود واضحة بين الترويج لأدوات الذكاء الاصطناعي الطبية والأمان الحقيقي في المجال الصحي.

ثقة في الذكاء الاصطناعي، لكن بشرط

هذه ليست المرة الأولى التي يُذكر فيها تطبيقات الذكاء الاصطناعي في المجال الطبي، لكن كل دراسة تكرر نفس الرسالة: أن روبوتات الدردشة الذكية، بطبيعتها، هي نماذج لغوية، وتتميز بـ “القدرة على قول ما يبدو صحيحًا”، وليس “ضمان صحة المعلومات”. المشكلة أن المستخدمين الذين يلجأون إليها بسبب قلق صحي حقيقي قد يتأثرون بشكل كبير عندما تبدو الإجابات واثقة، حتى لو كانت خاطئة.

مع استمرار شركات مثل OpenAI وAnthropic في التوغل في السيناريوهات الطبية، فإن وتيرة التنظيم والتوعية العامة لا تزال أبطأ من سرعة التوسع التكنولوجي. قبل أن تُبنى حواجز واضحة، قد تذكرنا هذه الدراسة بأن الذكاء الاصطناعي يمكن أن يكون مدخلًا للمعلومات الصحية، لكنه لا ينبغي أن يكون النهاية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت