نماذج الذكاء الاصطناعي تستخدم مواد من أبحاث علمية مسحوبة

الذكاء الاصطناعي يستخدم مواد من الأبحاث العلمية المسحوبة

تعتمد بعض الروبوتات الدردشة التي تعتمد على الذكاء الاصطناعي على أبحاث مسحوبة للإجابة على الأسئلة، وفقًا لدراسات حديثة. تؤكد النتائج، التي أكدها MIT Technology Review، على الشكوك حول مدى موثوقية أدوات الذكاء الاصطناعي في تقييم الأبحاث العلمية ويمكن أن تعقد الجهود التي تبذلها الدول والصناعات التي تسعى للاستثمار في أدوات الذكاء الاصطناعي للعلماء.

تكشف الدراسات أن أدوات البحث والروبوتات الدردشة الذكية معروفة بتزوير الروابط والمراجع. ولكن يمكن أن تكون الإجابات المستندة إلى مواد من أوراق بحثية حقيقية مضللة أيضًا إذا كانت تلك الأوراق قد تم سحبها. يقول Weikuan Gu، باحث طبي في جامعة تينيسي في ممفيس ومؤلف لإحدى الدراسات الأخيرة: “إنها تستخدم ورقة حقيقية، مواد حقيقية، لتخبرك بشيء ما”. ولكنه يقول إنه إذا كان الأشخاص ينظرون فقط إلى محتوى الإجابة ولا ينقرون على الورقة ليرى أنها قد تمت سحبها، فهذه مشكلة حقيقية.

طلبت Gu وفريقه من ChatGPT التابعة لشركة OpenAI، التي تعمل على نموذج GPT-4o، أسئلة استنادًا إلى معلومات من 21 ورقة بحثية مسحوبة عن التصوير الطبي. وجدت إجابات الروبوت الدردشة تشير إلى الأوراق المسحوبة في خمس حالات ونصحت بالحذر في ثلاث حالات فقط. في حين استشهدت بأوراق غير مسحوبة لأسئلة أخرى، إلا أن الكتاب يلاحظون أنه قد لا يكون قد تم التعرف على حالة السحب للمقالات. في دراسة من أغسطس، استخدم مجموعة مختلفة من الباحثين ChatGPT-4o mini لتقييم جودة 217 ورقة بحثية مسحوبة ومنخفضة الجودة من مجالات علمية مختلفة؛ ووجدوا أن أي من ردود الروبوت الدردشة لم تذكر سحب الأوراق أو أية مخاوف أخرى. (لم تُصدر دراسات مماثلة عن GPT-5، الذي صدر هذا أغسطس.)

يستخدم الجمهور الروبوتات الذكية لطلب النصائح الطبية وتشخيص الحالات الصحية. يستخدم الطلاب والعلماء بشكل متزايد أدوات الذكاء الاصطناعي الموجهة نحو العلوم لاستعراض الأدبيات العلمية الحالية وتلخيص الأوراق. من المحتمل أن يزداد هذا النوع من الاستخدام. على سبيل المثال، استثمرت مؤسسة العلوم الوطنية الأمريكية 75 مليون دولار في بناء نماذج ذكاء اصطناعي للبحوث العلمية هذا أغسطس.

يقول Yuanxi Fu، باحثة في علوم المعلومات في جامعة إلينويس في أوربانا-شامبان: “إذا كانت الأداة تواجه الجمهور العام، فإن استخدام سحب الأبحاث كمؤشر للجودة أمر مهم للغاية”. وتقول: “هناك نوع من الاتفاق على أن الأبحاث المسحوبة قد تم حذفها من سجل العلم”، ويجب تحذير الأشخاص خارج مجال العلم بأن هذه الأبحاث قد تم سحبها. لم تقدم OpenAI ردًا على طلب التعليق حول نتائج الورقة.

ليس الأمر مقتصرًا على ChatGPT. في يونيو، اختبرت MIT Technology Review أدوات الذكاء الاصطناعي التي تُعلن عنها خصيصًا للأعمال البحثية، مثل Elicit وAi2 ScholarQA (الآن جزء من أداة Asta التابعة لمعهد الذكاء الاصطناعي لجامعة ألن) وPerplexity وConsensus، باستخدام أسئلة استنادًا إلى 21 ورقة بحثية مسحوبة في دراسة Gu. استشهدت Elicit بخمس من الأوراق المسحوبة في إجاباتها، بينما استشهد Ai2 ScholarQA بـ 17، واستشهد Perplexity بـ 11، واستشهد Consensus بـ 18، دون الإشارة إلى السحب.

اتخذت بعض الشركات خطوات لتصحيح المشكلة. يقول كريستيان سالم، شريك مؤسس لشركة Consensus: “حتى وقت قريب، لم يكن لدينا بيانات جيدة عن السحب في محرك البحث الخاص بنا”. أعلنت الشركة الآن عن استخدام بيانات السحب من مجموعة من المصادر، بما في ذلك الناشرين ومجمعات البيانات، والزحف على الويب بشكل مستقل، وRetraction Watch، الذي يقوم بتنسيق وصيانة قاعدة بيانات السحب يدويًا. في اختبار لنفس الأوراق في أغسطس، استشهدت Consensus بخمس ورقات بحثية مسحوبة فقط.

قالت Elicit لـ MIT Technology Review إنها تقوم بإزالة الأوراق المسحوبة التي تم تعليمها من قبل كتالوج البحوث العلمية OpenAlex من قاعدة بياناتها وأنها “ما زالت تعمل على تجميع مصادر السحب”. قالت Ai2 لنا إن أداتها لا تكتشف أو تزيل الأوراق المسحوبة تلقائيًا حاليًا. قالت Perplexity إنها “لا تدعي أبدًا أنها دقيقة بنسبة 100%”.

ومع ذلك، قد لا يكون الاعتماد على قواعد البيانات المتعلقة بالسحب كافيًا. يحذر إيفان أورانسكي، شريك مؤسس Retraction Watch، من وصفها بأنها قاعدة بيانات شاملة، قائلًا إن إنشائها سيتطلب موارد أكبر مما تمتلكه أي شخص: “السبب في أنه من المكلف من الناحية المواردية هو لأن شخصًا ما يجب أن يفعل ذلك كله يدويًا إذا أردت أن تكون دقيقًا”.

وما يعقد الأمور أكثر هو أن الناشرين لا يتبعون نهجًا موحدًا في إشعارات السحب. تقول كيتلين باكر من جامعة ريجاينا في كندا، وهي خبيرة في أدوات البحث والاكتشاف: “حيث يتم سحب الأشياء، يمكن وضع علامات على هذا النحو بطرق مختلفة جدًا”. “تصحيح”، “تعبير عن القلق”، “تصحيح”، و”مسح” هي بعض العلامات التي قد يضيفها الناشرون إلى الأوراق البحثية، ويمكن إضافة هذه العلامات لأسباب كثيرة، بما في ذلك القلق بشأن المحتوى، والمنهجية، والبيانات أو وجود تعارضات مصالح.

يوزع بعض الباحثين أوراقهم على خوادم النشر المسبق، ومستودعات الأوراق، ومواقع الويب الأخرى، مما يؤدي إلى تشتت النسخ حول الويب. علاوة على ذلك، قد لا تكون البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي حديثة. إذا تم سحب ورقة بحث بعد تاريخ قطع التدريب للنموذج، فقد لا تعكس إجاباتها ما يحدث على الفور، وفقًا لـ Fu. معظم محركات البحث الأكاديمية لا تقوم بفحص في الوقت الحقيقي ضد بيانات السحب، لذا أنت في رحم مدى دقة مجموعتهم، وفقًا لآرون تاي، أمين المكتبة في جامعة إدارة سنغافورة.

يروج أورانسكي وخبراء آخرون لتوفير المزيد من السياق للنماذج لاستخدامه عند إنشاء إجابة. قد يعني ذلك نشر المعلومات الموجودة بالفعل، مثل المراجع المكلفة من قبل المجلات والنقد من موقع الاستعراض PubPeer، جنبًا إلى جنب مع الورقة المنشورة.

ينشر العديد من الناشرين، مثل Nature وBMJ، إشعارات السحب كمقالات منفصلة مرتبطة بالورقة، خارج الحواجز الدفعية. تقول Fu إن الشركات تحتاج إلى استخدام هذه المعلومات بفعالية، فضلاً عن أي مقالات إخبارية في بيانات التدريب للنموذج التي تذكر سحب الورقة.

يجب على مستخدمي ومنشئي أدوات الذكاء الاصطناعي إجراء البحث الدقيق. يقول آرون تاي: “نحن في المراحل البدائية جدًا، ويجب عليك أن تكون متشككًا”.