
كشفت دراسة جديدة أجرتها كلية الطب في إيكان بجبل سيناء بمدينة نيويورك عن قصور خطير في أداء أداة ChatGPT Health، النسخة الطبية المتخصصة من روبوت الدردشة ChatGPT التي أطلقتها OpenAI في يناير 2026، ويستخدمها نحو 40 مليون شخص يومياً للحصول على نصائح صحية، رغم الترويج المتزايد لاستخدامات الذكاء الاصطناعي في الرعاية الصحية.
نُشرت الدراسة في مجلة Nature Medicine، وهي أول تقييم مستقل لسلامة الأداة منذ إطلاقها، وركزت على قدرتها على تقييم الحاجة إلى الرعاية الطارئة.
كيف أُجريت الدراسة؟
أعد الباحثون 60 سيناريو سريرياً واقعياً يغطي 21 تخصصاً طبياً، من الحالات الخفيفة إلى الطوارئ الحقيقية، وقام ثلاثة أطباء مستقلين بتحديد مستوى الإلحاح المناسب بناءً على إرشادات 56 جمعية طبية، وأجروا 960 تفاعلاً مع الأداة، مع مراعاة عوامل مثل الجنس والعرق والعوائق الاجتماعية والتأثيرات العائلية.
النتائج الرئيسية
أدت الأداة بشكل جيد في الحالات الطارئة «الواضحة تماماً» مثل السكتة الدماغية أو الحساسية الشديدة، لكنها قللت من تقييم الخطورة في أكثر من نصف الحالات الطارئة الحقيقية (52%)، موصية بالانتظار أو زيارة طبيب خلال 24 – 48 ساعة بدلاً من التوجه الفوري إلى الطوارئ. مثال: حالة ربو مع علامات مبكرة لفشل تنفسي، أقرت الأداة بالخطورة لكنها نصحت بالانتظار.
كما زادت من تقييم الخطورة في نحو ثلثي الحالات الخفيفة التي يجب إدارتها منزلياً، ما قد يؤدي إلى إرهاق أقسام الطوارئ، وأظهرت أيضاً تناقضاً مقلقاً في التنبيهات المتعلقة بالانتحار؛ في بعض السيناريوهات، ظهرت لافتة التدخل في أزمة الانتحار (توجيه إلى خط 988)، لكنها اختفت في سياقات مشابهة جداً عند إضافة نتائج مختبرات طبيعية، رغم نفس الأعراض والكلمات.
وتأثرت التوصيات بشكل كبير بالتأثير الاجتماعي؛ عندما يقلل أحد أفراد العائلة من الخطورة (مثل «لا شيء خطير»)، أصبحت الأداة أكثر عرضة 12 مرة لتقليل تقييم الخطورة.
من جانبه، قال المؤلف الرئيسي للدراسة الدكتور أشوين راماسوامي: «الأداة تؤدي جيداً في الحالات المتوسطة، لكنها تفشل في أطراف الطيف حيث يهم الأمر أكثر».
أما كبير مسؤولي الذكاء الاصطناعي في نظام جبل سيناء الصحي الدكتور جيريش نادكارني، فقد وصف فشل حماية الانتحار بأنه «الأكثر إثارة للقلق»، مشيراً إلى أن ميزة أمان تعمل بنسبة 100% في سياق وتفشل تماماً في سياق مشابه «مشكلة أساسية في السلامة».
وأكد خبراء الطوارئ والذكاء الاصطناعي مارك سيغل وهارفي كاسترو أهمية الدراسة، مشددين على أن الذكاء الاصطناعي لا يمكنه تعويض الحكم السريري البشري في الحالات الدقيقة، ودعوا إلى تقييم مستمر وإشراف مستقل.
حدود الدراسة
وأقر الباحثون بأن الدراسة اعتمدت على سيناريوهات كتبها أطباء، وليس على محادثات حقيقية لمرضى، كما أُجريت في نقطة زمنية واحدة، بينما يتم تحديث هذه الأنظمة باستمرار، ما قد يغير أداءها لاحقاً.
نصيحة واضحة: لا تنتظر الذكاء الاصطناعي
وأكد الباحثون أنه في حال الشعور بأعراض خطيرة مثل: ألم شديد في الصدر، صعوبة في التنفس، تفاعل تحسسي حاد، أفكار إيذاء النفس، يجب التوجه فوراً إلى قسم الطوارئ أو الاتصال بخدمات الطوارئ أو بخط 988، وعدم انتظار توصية من أداة ذكاء اصطناعي.
بين الأمل والحذر
اتفق الباحثون على أن الدراسة لا تهدف إلى رفض الذكاء الاصطناعي في الرعاية الصحية، بل إلى تحسينه عبر اختبارات مستقلة ووضع ضوابط أمان أقوى.
A new study conducted by the Icahn School of Medicine at Mount Sinai in New York City has revealed a serious deficiency in the performance of the ChatGPT Health tool, the specialized medical version of the ChatGPT chatbot launched by OpenAI in January 2026, which is used by about 40 million people daily for health advice, despite the increasing promotion of AI applications in healthcare.
The study was published in the journal Nature Medicine, marking the first independent assessment of the tool’s safety since its launch, focusing on its ability to evaluate the need for emergency care.
How was the study conducted?
The researchers prepared 60 realistic clinical scenarios covering 21 medical specialties, ranging from mild cases to true emergencies. Three independent physicians determined the appropriate level of urgency based on guidelines from 56 medical associations and conducted 960 interactions with the tool, considering factors such as gender, race, social barriers, and family influences.
Main findings
The tool performed well in “clearly” emergency cases such as strokes or severe allergies, but it underestimated the severity in more than half of the true emergency cases (52%), recommending waiting or visiting a doctor within 24 – 48 hours instead of going directly to the emergency room. For example, in the case of asthma with early signs of respiratory failure, the tool acknowledged the severity but advised waiting.
It also increased the severity assessment in about two-thirds of mild cases that should be managed at home, which could lead to overwhelming emergency departments. Additionally, it showed a concerning inconsistency in suicide-related alerts; in some scenarios, a suicide crisis intervention alert (directing to line 988) appeared, but it disappeared in very similar contexts when adding normal lab results, despite the same symptoms and wording.
The recommendations were significantly influenced by social factors; when a family member downplayed the severity (such as “nothing serious”), the tool was 12 times more likely to reduce the severity assessment.
For his part, the study’s lead author, Dr. Ashwin Ramaswamy, stated, “The tool performs well in moderate cases, but it fails at the extremes of the spectrum where it matters most.”
Meanwhile, Dr. Girish Nadkarni, Chief AI Officer at Mount Sinai Health System, described the failure to address suicide as “the most concerning,” noting that a safety feature that works 100% in one context fails completely in a similar context is “a fundamental safety issue.”
Emergency and AI experts Mark Siegel and Harvey Castro emphasized the importance of the study, stressing that AI cannot replace human clinical judgment in nuanced cases, and called for continuous evaluation and independent oversight.
Study limitations
The researchers acknowledged that the study relied on scenarios written by physicians, rather than real patient conversations, and was conducted at a single point in time, while these systems are continuously updated, which may change their performance later.
Clear advice: Don’t wait for AI
The researchers confirmed that in cases of serious symptoms such as: severe chest pain, difficulty breathing, severe allergic reactions, or self-harm thoughts, one should immediately go to the emergency department or call emergency services or line 988, and not wait for a recommendation from an AI tool.
Between hope and caution
The researchers agreed that the study does not aim to reject AI in healthcare but to improve it through independent testing and stronger safety controls.
