English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

guest
1 / ?
back to lessons

मूल्य स्थान बनाम माप स्थान

दुनिया को दो स्थानों के रूप में मॉडल करें:

मूल्य स्थान V: दुनिया की राज्यों का समूह जो आप वास्तव में परवाह करते हैं। V में बिंदु सच्ची अंतर्निहित मात्रा (छात्र सीखना, सैन्य प्रगति, आर्थिक कल्याण) के विभिन्न स्तरों का प्रतिनिधित्व करते हैं।

माप स्थान M: मूल्य जो मीट्रिक ले सकता है। एक मीट्रिक एक फ़ंक्शन f: V → M है — मूल्य स्थान से माप स्थान तक एक मानचित्रण।

एक मान्य मीट्रिक वह है जहाँ f प्रासंगिक क्षेत्र में एक समदूरिकता के करीब है: M में समान परिवर्तन V में समान परिवर्तन के अनुरूप हैं। M में पास के बिंदु V में पास के बिंदु के अनुरूप हैं।

एक विकृत मीट्रिक वह है जहाँ f अ-समदूरिक है: मीट्रिक V के कुछ क्षेत्रों को संपीड़ित करता है (बड़े परिवर्तनों को अदृश्य बनाते हुए) और अन्य को विस्तृत करता है (छोटे परिवर्तनों को बड़ा बनाते हुए)। IQ अंशांकन एक डिज़ाइन की गई विरूपण है: यह कच्चे स्कोर वितरण को M में गॉसियन में मैप करता है, V में बुद्धिमत्ता के सच्चे वितरण की परवाह किए बिना।

मानचित्रण शब्दों में गुडहार्ट का नियम: जब M एक लक्ष्य बन जाता है, तो एजेंट M पर ग्रेडिएंट आरोहण लागू करते हैं। क्योंकि f एक विरूपण है, M पर ग्रेडिएंट आरोहण V पर ग्रेडिएंट आरोहण के अनुरूप नहीं है। एजेंट M में बिना V में सार्थक रूप से बिना (या पीछे की ओर) चलते हैं।

मीट्रिक विरूपण: मूल्य स्थान बनाम माप स्थान

मीट्रिक की वैधता का परीक्षण

एक कंपनी 1-5 सितारा स्केल पर कर्मचारी प्रदर्शन का मूल्यांकन करती है। स्केल को अंशांकित किया जाता है ताकि 80% कर्मचारियों को 3 या उससे अधिक प्राप्त हों। प्रदर्शन समीक्षा प्रणाली का उपयोग मुआवजे के निर्णयों (जहाँ रैंक-क्रम महत्वपूर्ण है) और सुधार योजनाओं (जहाँ निरपेक्ष स्तर महत्वपूर्ण है) दोनों के लिए किया जाता है।

क्या यह मीट्रिक सच्चे प्रदर्शन की समदूरिक मानचित्रण के करीब है या विकृत मानचित्रण के करीब है? संपीड़न और विस्तार की अवधारणाओं का उपयोग करके समझाइए। फिर: किस उपयोग मामले (मुआवजे या सुधार योजनाओं) के लिए विरूपण अधिक महत्वपूर्ण है, और क्यों?

गलत स्थान में ग्रेडिएंट आरोहण

अनुकूलन समस्या को ज्यामितीय रूप से मॉडल करें। V = मूल्य स्थान (सच्चे छात्र सीखना, सैन्य प्रगति, आदि) और M = मीट्रिक स्थान (परीक्षा के अंक, बॉडी काउंट, आदि)।

सच्चे मूल्य का ग्रेडिएंट: ∇_V(value) V में उस दिशा की ओर इशारा करता है जो आप जिस अंतर्निहित मात्रा की परवाह करते हैं उसे बढ़ाता है।

मीट्रिक का ग्रेडिएंट: ∇_M(metric) M में उस दिशा की ओर इशारा करता है जो मीट्रिक को बढ़ाता है।

क्योंकि f: V → M एक समदूरिकता नहीं है, मूल्य स्थान में मीट्रिक का ग्रेडिएंट (f(∇_M)) ∇_V के साथ संरेखित नहीं है। उनके बीच का कोण, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), गुडहार्ट विफलता की गंभीरता को मापता है।

अगर θ = 0: मीट्रिक ग्रेडिएंट और मूल्य ग्रेडिएंट एक ही दिशा की ओर इशारा करते हैं। मीट्रिक को अनुकूलित करना मूल्य को अनुकूलित करता है। कोई गुडहार्ट भ्रष्टाचार नहीं।

अगर θ = 90°: मीट्रिक ग्रेडिएंट मूल्य के लिए लंबवत है। मीट्रिक को अनुकूलित करना M में बिना V में सार्थक रूप से बिना चलता है।

अगर θ = 180°: मीट्रिक ग्रेडिएंट मूल्य की विपरीत ओर इशारा करता है। मीट्रिक को अनुकूलित करना सक्रिय रूप से मूल्य को कम करता है।

जब मीट्रिक एक लक्ष्य बन जाता है और एजेंट मीट्रिक पर ग्रेडिएंट आरोहण लागू करते हैं, वे f*(∇_M) का पालन करते हैं, ∇_V नहीं। समय के साथ विचलन कोण θ बढ़ता है क्योंकि मीट्रिक को गेम किया जाता है — मानचित्रण f कम समदूरिक हो जाता है क्योंकि एजेंट उन क्षेत्रों को खोजते हैं जहाँ ∇_M और ∇_V सबसे अधिक विचलित होते हैं, क्योंकि वे गेमिंग के लिए सबसे कुशल रास्ते हैं।

विचलन को मापना

एक सरल दो-आयामी मूल्य स्थान पर विचार करें V = (कौशल, अनुपालन) जहाँ कौशल = छात्र की वास्तविक समझ, अनुपालन = छात्र की परीक्षा लेने की प्रक्रियाओं का पालन करने की क्षमता।

एक परीक्षा मीट्रिक M = 0.3 × कौशल + 0.7 × अनुपालन (एक विशिष्ट रैखिक संयोजन, जहाँ अनुपालन का 70% वजन है)।

इस 2D मॉडल में, मीट्रिक का ग्रेडिएंट (कौशल, अनुपालन) स्थान में वेक्टर (0.3, 0.7) है। एक छात्र केवल अनुपालन को बेहतर बनाकर मीट्रिक को अनुकूलित करता है (मूल्य स्थान में (0, 1) दिशा में चल रहा है)। मीट्रिक ग्रेडिएंट और शुद्ध-कौशल दिशा (1, 0) के बीच के कोण की कोसाइन की गणना करें। समझाइए: क्या मीट्रिक ग्रेडिएंट 'कौशल बढ़ाने' (θ छोटा) के साथ अच्छी तरह संरेखित है या खराब तरीके से संरेखित है (θ बड़ा)? यह क्या भविष्यद्वाणी करता है कि जब छात्र इस मीट्रिक के लिए अनुकूलित करते हैं तो क्या होता है?

गुडहार्ट के खिलाफ बचाव के रूप में बहु-उद्देश्य अनुकूलन

हैमिंग की रक्षा: एक साथ कई मीट्रिक का उपयोग करें। ज्यामितीय व्याख्या: एक एकल उद्देश्य फ़ंक्शन f(x) को अनुकूलित करने के बजाय, उद्देश्यों के एक वेक्टर पर अनुकूलित करें F(x) = (f₁(x), f₂(x), ..., fₖ(x))।

एक वेक्टर उद्देश्य के लिए, समाधान अवधारणा पारेटो सीमांत है: समाधानों का सेट जहाँ कोई उद्देश्य दूसरे को कम किए बिना सुधारा नहीं जा सकता। पारेटो सीमांत एकल अनुकूल को प्रतिस्थापित करता है।

यह गुडहार्ट के खिलाफ बचाव क्यों करता है: मीट्रिक को गेम करने के लिए, एक तर्कसंगत एजेंट को मूल्य स्थान में एक दिशा खोजनी चाहिए जो सभी fᵢ को एक साथ बढ़ाता है (या कम से कम जिन मीट्रिक्स पर उनका मूल्यांकन किया जा रहा है)। यदि मीट्रिक्स पर्याप्त रूप से स्वतंत्र हैं — उनके ग्रेडिएंट दिशाएँ पर्याप्त रूप से गैर-समानांतर हैं — कोई ऐसी दिशा नहीं है। एक मीट्रिक को गेम करना दूसरे को कम करता है।

बचाव की डिग्री: यदि k मीट्रिक ग्रेडिएंट k-आयामी स्थान में फैलते हैं (रैखिक रूप से स्वतंत्र हैं), तो मीट्रिक्स के किसी उचित उपसमूह को अनुकूलित करना कम से कम एक बहिष्कृत मीट्रिक को कम करता है। पूर्ण पारेटो बचाव के लिए यह आवश्यक है कि कोई गेमिंग दिशा न हो जो सभी मीट्रिक्स को बेहतर बनाए।

माप अपरिवर्तनीयता: एक मीट्रिक M अप्रासंगिक विशेषता α के संबंध में अपरिवर्तनीय है यदि M(x + δα) = M(x) α में परिवर्तनों के लिए। IQ मीट्रिक परीक्षा-लेने की प्रैक्टिस के संबंध में अपरिवर्तनीय नहीं है: जब छात्र अंतर्निहित निर्माण में वास्तविक लाभ के बिना परीक्षा का अभ्यास करते हैं तो IQ बदल जाता है।

एक पारेटो-रक्षित मीट्रिक सिस्टम डिज़ाइन करें

एक अनुसंधान वैज्ञानिक का मूल्यांकन एक दो-मीट्रिक सिस्टम पर विचार करें: M₁ = प्रति वर्ष प्रकाशन, M₂ = प्रति पेपर उद्धरण दर (प्रति पेपर उद्धरण)।

ज्यामितीय रूप से समझाइए कि ये दोनों मीट्रिक्स एक साथ एक से अधिक मीट्रिक को गेम करना क्यों कठिन हैं। विशेष रूप से: M₁ अकेले को अधिकतम करने की एक रणनीति का वर्णन करें, M₂ अकेले को अधिकतम करने की एक रणनीति का वर्णन करें, और फिर दिखाएँ कि इन रणनीतियों में से प्रत्येक दूसरी मीट्रिक को कम करती है। फिर: क्या कोई अवशिष्ट गेमिंग रणनीति है जो दोनों को एक साथ बिना वास्तविक अनुसंधान मूल्य उत्पन्न किए बढ़ाती है, और यदि हाँ, तो यह क्या है?