एय नया शोध पत्र ओपन से, पूछता है कि जीपीटी -5 और चैटगैप जैसे बड़े भाषा मॉडल अभी भी मतिभ्रम की तरह चैटबॉट हैं और क्या इन मतिभ्रम को कम करने के लिए कुछ किया जा सकता है।
में कागज को संक्षेप में एक ब्लॉग पोस्ट करेंखुले तौर पर मतिभ्रम को “प्रशंसादायक लेकिन भाषाओं के मॉडल द्वारा उत्पन्न झूठे बयानों” के रूप में परिभाषित करता है और स्वीकार करता है कि सुधार के बावजूद, मतिभ्रम “सभी बड़े भाषा मॉडल के लिए एक बुनियादी चुनौती है” – एक ऐसा जो कभी भी पूरी तरह से समाप्त नहीं होगा।
इस मामले को स्पष्ट करने के लिए, शोधकर्ताओं का कहना है कि उन्होंने एडम तौमन कलाई के पीएचडी शीर्षक के बारे में “व्यापक रूप से इस्तेमाल किया चट्टबोट” से पूछा। अनुसंधान लेख, उन्हें तीन अलग -अलग उत्तर मिले, वे सभी गलत हैं। (कलाई पेपर के लेखकों में से एक)) उन्होंने अपने जन्मदिन के बारे में पूछा और तीन अलग -अलग तारीखें मिलीं। एक बार फिर, वे सभी गलत थे।
एक चैटबॉट इतना गलत कैसे हो सकता है – और यह अपने गलत काम में इतना आश्वस्त लगता है? शोधकर्ताओं ने सुझाव दिया है कि एक आंशिक रूप से एक दिखावा करने वाली प्रक्रिया जो अगले शब्द को ठीक से भविष्यवाणी करने के लिए शक्ति पर ध्यान केंद्रित करती है, प्रशिक्षण स्टेटमेंट से जुड़े सही या झूठे लेबल के बिना: “मॉडल को केवल धाराप्रवाह भाषा के सकारात्मक उदाहरण को देखना चाहिए और समग्र वितरण का अनुमान लगाने की आवश्यकता है।”
“मंत्र और कोष्ठक निरंतर पैटर्न का पालन करते हैं, इसलिए त्रुटियां वहां के पैमाने के साथ गायब हो जाती हैं,” उन्होंने लिखा। “हालांकि, कम-आवृत्ति की जानकारी को एक पालतू जानवर के जन्मदिन जैसे एक पैटर्न से भविष्यवाणी नहीं की जा सकती है, और इसलिए मतिभ्रम की ओर जाता है।”
पेपर का प्रस्तावित समाधान, हालांकि, प्रारंभिक दिखावा प्रक्रिया पर ध्यान केंद्रित करता है और बड़े भाषा मॉडल का मूल्यांकन कैसे किया जाता है। यह तर्क देता है कि वर्तमान मूल्यांकन मॉडल स्वयं मतिभ्रम का कारण नहीं बनते हैं, लेकिन वे “गलत उत्साह का निर्धारण करते हैं।”
शोधकर्ता इन मूल्यांकनों की तुलना यादृच्छिक मान्यताओं के बहुविकल्पीय परीक्षणों के साथ करते हैं, क्योंकि “आप भाग्यशाली हो सकते हैं और सही हो सकते हैं,” उत्तर खाली छोड़कर “एक शून्य की गारंटी देता है।”
TechCrunch घटना
सान फ्रांसिस्को
|
27-29 अक्टूबर, 2025
“इसी तरह, जब मॉडल को केवल सटीकता के आधार पर वर्गीकृत किया जाता है, तो वे ठीक उन सवालों का प्रतिशत होते हैं जो ठीक हैं, उन्हें यह अनुमान लगाने के लिए प्रोत्साहित किया जाता है कि ‘मुझे नहीं पता,’।” कहते हैं।
प्रस्तावित समाधान तब परीक्षण के समान है (जैसे SAT) जिसमें “गलत उत्तरों के लिए गलत (स्कोरिंग) को हतोत्साहित करने के लिए रिक्त प्रश्नों को छोड़कर आंशिक क्रेडिट शामिल है।” इसी तरह, ओपन कहा जाता है कि अनिश्चितता की उचित अभिव्यक्ति के लिए अपनी अनिश्चितता और आंशिक क्रेडिट को दंडित करने की तुलना में मॉडल मूल्यांकन को आत्मविश्वास से अधिक आश्वस्त होने की आवश्यकता है। “
और शोधकर्ताओं ने तर्क दिया कि यह “पक्ष पर कुछ नए अनिश्चितता-सचेत परीक्षण” पेश करने के लिए पर्याप्त नहीं था। इसके बजाय, “व्यापक रूप से उपयोग किया जाता है, सटीकता -आधारित एवल्स को अपडेट करने की आवश्यकता है ताकि उनके स्कोरिंग को हतोत्साहित किया जाए।”
शोधकर्ताओं का कहना है, “यदि मुख्य स्कोरबोर्ड भाग्यशाली अनुमान को पुरस्कृत करते हैं, तो मॉडल अनुमान लगाना सीखेंगे,” शोधकर्ताओं का कहना है।