Openi शोधकर्ताओं का दावा है कि उन्होंने बड़ी भाषा मॉडल – मतिभ्रम के साथ सबसे बड़ी बाधाओं में से एक को तोड़ दिया है।

दु: स्वप्न वे तब उठते हैं जब एक बड़ा भाषाई मॉडल गलत जानकारी उत्पन्न करता है जो इसे एक तथ्य के रूप में दर्शाता है। वे सबसे लोकप्रिय LLM -ve का प्लेग, एक खुले GPT-5 से लेकर एंथ्रोप के क्लॉड तक।

Openai -is एक बुनियादी खोज, जिसे उन्होंने गुरुवार को प्रकाशित कार्य में प्रकाशित किया, वह यह है कि बड़े भाषाई मॉडल मतिभ्रम करते हैं क्योंकि पुरस्कार के तहत तैयार किए गए तरीके असुरक्षा की मान्यता से अधिक अटकलें लगाते हैं।

दूसरे शब्दों में, LLMS को इसे नकली होने तक कहा जाता है जब तक कि वे ऐसा नहीं करते। कुछ, हालांकि, दूसरों की तुलना में बेहतर हैं। पिछले महीने एक ब्लॉग पोस्ट में, ओपनई ने कहा कि क्लाउड मॉडल अधिक “अपनी अनिश्चितता के बारे में जानते हैं और अक्सर ऐसे बयान देने से बचते हैं जो गलत हैं।” उन्होंने यह भी कहा कि क्लाउड की उच्च इनकार दर उनकी उपयोगिता को सीमित करने का जोखिम उठा रही थी।

शोधकर्ताओं ने काम में लिखा है, “जिस तरह से मूल्यांकन का अधिकांश मूल्यांकन किया जाता है, उसके कारण मानव मॉडल को अच्छी परीक्षाओं के रूप में अनुकूलित किया जाता है और अनुमान लगाया जाता है कि जब अनिश्चित रूप से परीक्षण प्रदर्शन में सुधार होता है,” शोधकर्ताओं ने काम में लिखा है।

बड़े भाषाई मॉडल मूल रूप से हमेशा “टेस्ट बिछाने के तरीके” में होते हैं, सवालों के जवाब देते हैं जैसे कि जीवन में सब कुछ बिनरली-प्रॉपर या गलत, काला या सफेद है।

कई मायनों में, वे जीवन की वास्तविकता के लिए सुसज्जित नहीं हैं, जहां अनिश्चितता सुरक्षा से अधिक सामान्य है, और सच्ची सटीकता नहीं दी जाती है।

शोधकर्ताओं ने लिखा, “लोग एक कठिन दस्तक वाले स्कूल में स्कूल के बाहर अनिश्चितता की अभिव्यक्ति का मूल्य सीखते हैं। दूसरी ओर, भाषाई मॉडल का मूल्यांकन मुख्य रूप से परीक्षण द्वारा किया जाता है जो अनिश्चितता को दंडित करता है,” शोधकर्ताओं ने लिखा।

अच्छी खबर यह है कि एक मरम्मत है, और यह डेटा को मापने के पुनर्निर्देशन के साथ करना है।

“मूल समस्या मूल्यांकन की बहुतायत है जो संरेखित नहीं हैं,” उन्होंने लिखा। “अनिश्चित होने पर प्रतिबंधों को रोकने के लिए कई प्राथमिक मूल्यांकन को समायोजित किया जाना चाहिए।”

काम के बारे में ब्लॉग पर पोस्ट में, Openi विस्तृत, जिसका अर्थ होगा इस प्रकार का समायोजन।

“आम तौर पर उपयोग किया जाता है, सटीकता के आधार पर ईवेवावा को अपडेट किया जाना चाहिए ताकि उनका स्कोरिंग अनुमान लगाकर हतोत्साहित हो जाए। यदि ग्रेड के साथ मुख्य पैनल अभी भी खुश अटकलें पुरस्कृत कर रहे हैं, तो मॉडल अनुमान लगाना सीखते रहेंगे,” ओपनई ने कहा।

OpenII ने तुरंत बिजनेस इनसाइडर टिप्पणी अनुरोध का जवाब नहीं दिया।



स्रोत लिंक