un — सिमुलेशन की ज्यामिति II: मॉडल वैधता ज्यामितीय फिटिंग के रूप में

un

guest

1 / ?

back to lessons

मॉडल फिटिंग का वास्तव में क्या अर्थ है

एक सिमुलेशन मॉडल एक गणितीय दावा करता है: वास्तविक प्रणाली के आउटपुट अवलोकन के स्थान में एक विशिष्ट सतह M पर (या निकट) स्थित हैं।

वास्तविक प्रणाली को अवलोकन y₁, y₂, ..., yₙ का उत्पादन करने दें। मॉडल मान ŷ₁, ŷ₂, ..., ŷₙ की भविष्यवाणी करता है।

दूरी के रूप में अवशेष: rᵢ = yᵢ - ŷᵢ। प्रत्येक अवशेष एक अवलोकन और उसकी संबंधित मॉडल भविष्यवाणी के बीच की दूरी को मापता है। n-आयामी अवलोकन स्थान में, अवशेष एक वेक्टर r = y - ŷ बनाते हैं।

न्यूनतम-वर्ग फिटिंग: ||r||² = Σrᵢ² को कम करने के लिए मॉडल पैरामीटर चुनें। ज्यामितीय रूप से, मॉडल सतह M पर बिंदु ŷ खोजें जो यूक्लिडीय दूरी में अवलोकन वेक्टर y के सबसे करीब है।

जब अवशेष गुमराह करते हैं

छोटा ||r||² एक मान्य मॉडल की गारंटी नहीं देता। दो व्यवस्थित विफलता मोड:

1. व्यवस्थित पूर्वाग्रह: अवशेष rᵢ छोटे हैं लेकिन सभी सकारात्मक हैं (या सभी नकारात्मक)। मॉडल लगातार कम या अधिक-भविष्यवाणी करता है। ज्यामितीय रूप से: ŷ सच्चे डेटा मैनिफोल्ड के लिए एक समानांतर ऑफसेट सतह पर स्थित है — दूरी में करीब, संरचना में गलत।

2. गलत मैनिफोल्ड: अवशेष छोटे हैं क्योंकि मॉडल के पास प्रशिक्षण डेटा को बिल्कुल फिट करने के लिए पर्याप्त मुक्त पैरामीटर हैं (ओवरफिटिंग)। मॉडल सतह डेटा बिंदुओं के माध्यम से गुजरती है, लेकिन उनके बीच जंगली तरीके से वक्र करती है। नए डेटा पर भविष्यवाणी खराब है।

अवशेष, पूर्वाग्रह, & मैनिफोल्ड फिटिंग

व्यवस्थित पूर्वाग्रह का पता लगाना

शून्य माध्य अवशेष वाला एक मॉडल अभी भी व्यवस्थित पूर्वाग्रह हो सकता है जो एक इनपुट चर के साथ भिन्न होता है।

उदाहरण: एक मौसम सिमुलेशन जो गर्मियों में तापमान को 2°C से कम आंकता है और सर्दियों में 2°C से अधिक आंकता है, पूरे साल में माध्य अवशेष ≈ 0 है, लेकिन एक स्पष्ट मौसमी पूर्वाग्रह है।

अवशेष निदान: प्रत्येक इनपुट चर के विरुद्ध rᵢ को प्लॉट करें। एक सपाट पैटर्न (कोई प्रवृत्ति नहीं) उस चर से कोई व्यवस्थित पूर्वाग्रह का सुझाव नहीं देता। एक प्रवृत्ति पैटर्न मॉडल में एक छिपा हुआ आयाम प्रकट करता है।

Hamming का सत्यापन प्रश्न — 'क्या एक छोटा लेकिन महत्वपूर्ण प्रभाव गायब हो सकता है?' — ज्यामितीय रूप से अनुवाद करता है: क्या अवशेष वेक्टर के पास एक ऐसी दिशा में एक घटक है जो मॉडल के पैरामीटर स्थान द्वारा फैली नहीं है?

एक प्रतिगमन मॉडल y = ax + b को 4 डेटा बिंदुओं के लिए फिट किया जाता है: (1, 3), (2, 5), (3, 8), (4, 9)। फिट की गई लाइन a = 2, b = 1 है, जो ŷ = (3, 5, 7, 9) की भविष्यवाणी देती है। अवशेष की गणना करें। फिर: क्या अवशेष व्यवस्थित हैं (क्या वे एक पैटर्न दिखाते हैं), या क्या वे यादृच्छिक दिखाई देते हैं? अवशेष पैटर्न के आधार पर आप मॉडल की कौन सी ज्यामितीय संपत्ति को संशोधित करेंगे?

व्यवस्थित ऑफसेट बनाम यादृच्छिक शोर

हॉथोर्न प्रभाव: एक अध्ययन में विषय अपने व्यवहार को बदलते हैं क्योंकि वे जानते हैं कि उन्हें देखा जा रहा है, प्रायोगिक उपचार के कारण नहीं।

ज्यामितीय व्याख्या

सच्चे डेटा मैनिफोल्ड M को चर (x₁, x₂, ..., xₖ, observation_context) द्वारा फैले हुए स्थान में रहने दें।

मॉडल observation_context को अनदेखा करता है। यह अकेले (x₁, ..., xₖ) में अवलोकन के लिए एक सतह फिट करता है।

जब observation_context = 'being studied,' तब वास्तविक डेटा बिंदु observation_context अक्ष के साथ स्थानांतरित हो जाते हैं। मॉडल की सतह — (x₁, ..., xₖ) स्थान में निर्धारित — अब विस्थापित डेटा फिट करती है। अवशेष छोटे दिखाई देते हैं (सतह अभी भी अध्ययन संदर्भ में अच्छी तरह से फिट बैठती है), लेकिन अनदेखे संदर्भ में भविष्यवाणी व्यवस्थित रूप से गलत है।

ज्यामिति: मॉडल सतह अध्ययन-संदर्भ डेटा मैनिफोल्ड के करीब है, लेकिन वास्तविकता मैनिफोल्ड से दूर है। उनके बीच की दूरी: observation_context अक्ष के साथ हॉथोर्न ऑफसेट।

Hamming की double-blind आवश्यकता: observation_context को उपचार के साथ सहसंबद्ध होने से रोकें। यह वास्तविकता मैनिफोल्ड और अध्ययन-संदर्भ मैनिफोल्ड को मेल खाते हुए रखता है — ज्यामितीय ऑफसेट को समाप्त करता है।

अन्य छिपे हुए आयाम प्रभाव

कोई भी चर जो प्रणाली को प्रभावित करता है लेकिन मॉडल से बाहर है, समान ज्यामितीय संरचना बनाता है:

- आर्थिक मॉडल से छोड़े गए मौसमी प्रभाव

- विनिर्माण सिमुलेशन से बाहर रखे गए ऑपरेटर व्यवहार

- प्रदर्शन मॉडल से अनुपस्थित सॉफ़्टवेयर संस्करण स्थिति

मॉडल एक निम्न-आयामी सतह को डेटा में फिट करता है जो एक उच्च-आयामी मैनिफोल्ड पर रहता है। अवशेष मॉडल में उन दिशाओं में छोटे होंगे जो वह मापता है, अमापे दिशाओं में बड़े होंगे।

सत्यापन ज्यामितीय संरेखण के रूप में

Hamming की सत्यापन जांचसूची, ज्यामिति के रूप में पुनर्निर्मित:

क्या पृष्ठभूमि सिद्धांत मान्य कानूनों का समर्थन करता है? क्या मॉडल के पैरामीटर स्थान के आयाम सच्चे डेटा मैनिफोल्ड को फैलाते हैं? यदि मुख्य चर गायब हैं (बाहर किए गए आयाम), तो मॉडल सतह वास्तविकता के साथ संरेखित नहीं हो सकती।

क्या आंतरिक जांचें उपलब्ध हैं? संरक्षण कानून ज्यामितीय बाधाएं हैं: डेटा को द्रव्यमान संरक्षण, ऊर्जा संरक्षण, आदि द्वारा परिभाषित एक विशिष्ट उप-मैनिफोल्ड पर स्थित होना चाहिए। यदि सिमुलेशन इनका उल्लंघन करता है, तो इसका प्रक्षेपवक्र मान्य उप-मैनिफोल्ड को छोड़ गया है।

ज्ञात पिछले अनुभव के विरुद्ध क्रॉस-जांच: मॉडल सतह को ऐतिहासिक सत्यापन बिंदुओं से गुजरना चाहिए — केवल प्रशिक्षण डेटा फिट नहीं करना चाहिए, बल्कि नमूने से बाहर अवलोकन को सामान्य बनाना चाहिए।

क्या सिमुलेशन स्थिर है? एक स्थिर सिमुलेशन छोटे व्यक्तिगत विचलन के बावजूद सच्चे समाधान मैनिफोल्ड के पास रहता है। एक अस्थिर सिमुलेशन मैनिफोल्ड के पड़ोस को छोड़ देता है और इसे एक मान्य मॉडल नहीं कहा जा सकता।

Hamming ने नोट किया कि व्यावसायिक सिमुलेशन और युद्ध खेल में, प्रतिभागी जो जानते हैं कि वे एक सिमुलेशन में हैं, अपने व्यवहार को बदलते हैं — सिमुलेशन को वास्तविक व्यवहार का एक अविश्वसनीय मॉडल बना देते हैं। ज्यामितीय संपत्ति की पहचान करें जो इस मामले में सिमुलेशन को विफल करती है (केवल 'हॉथोर्न प्रभाव' नहीं — ज्यामितीय संरचना का वर्णन करें)। फिर एक सत्यापन परीक्षण प्रस्तावित करें जो डबल-ब्लाइंड स्थितियों की आवश्यकता के बिना सिमुलेशन-वास्तविकता अंतराल का पता लगाएगा।

जब भविष्यवाणी प्रक्षेपण बन जाती है

Hamming ने उन डोमेन के लिए परिस्थिति विधि का समर्थन किया जहां भविष्यवाणी असंभव है: 'सिस्टम X करेगा' का दावा करने के बजाय, विभिन्न धारणा सेट के तहत संभावित प्रक्षेपवक्र का एक सेट प्रस्तुत करें।

ज्यामितीय व्याख्या

मॉडल सतह M(θ) पैरामीटर θ (कानूनों, स्थिरांकों, सीमा शर्तों के बारे में धारणाएं) पर निर्भर करती है। विभिन्न धारणा सेट θ₁, θ₂, ..., θₖ विभिन्न सतहें M(θ₁), ..., M(θₖ) को परिभाषित करते हैं।

परिस्थिति लिफाफा इन सतहों का संघ है: आउटपुट स्थान का क्षेत्र जो कोई भी परिस्थिति मॉडल उत्पादित कर सकता है।

एक एकल भविष्यवाणी दावा करती है: सच्चा परिणाम सर्वोत्तम अनुमान θ के लिए M(θ) के पास स्थित है। परिस्थिति विधि दावा करती है: सच्चा परिणाम लिफाफे के अंदर कहीं स्थित है।

जब लिफाफा उपयोगी होता है

यदि लिफाफा संकीर्ण है — सभी परिस्थितियां विभिन्न धारणाओं के बावजूद आउटपुट पर सहमत हैं — भविष्यवाणी में आत्मविश्वास अधिक है। यदि लिफाफा चौड़ा है — विभिन्न धारणाएं बहुत अलग आउटपुट का उत्पादन करती हैं — मॉडल धारणाओं के प्रति अत्यधिक संवेदनशील है। वह संवेदनशीलता आउटपुट है, विफलता मोड नहीं।

Hamming का अपनी स्वयं की भविष्यवाणियों के बारे में दावा: वह परिस्थितियां दे रहा था, बिंदु भविष्यवाणी नहीं। भविष्य जो उसने वर्णित किया था वह 'जो संभव है होगा, मेरी राय में,' एक सटीक पूर्वानुमान नहीं था।

वास्तविकता के साथ ओवरलैप

एक परिस्थिति मॉडल को मान्य किया जाता है जब वास्तविकता लिफाफे के अंदर पड़ती है। यह बिंदु भविष्यवाणी से एक कमजोर परीक्षण है लेकिन मॉडल जो दावा कर सकता है उसके बारे में अधिक ईमानदार है।

इसे एक साथ रखना: मान्य मॉडल & उनकी ज्यामिति

मान्य सिमुलेशन की ज्यामिति तीन संरेखणों पर आती है:

1. पैरामीटर स्थान सच्चे मैनिफोल्ड को कवर करता है: मॉडल के आयामों में सभी चर शामिल हैं जो सिस्टम को चलाते हैं। छिपे हुए-आयाम अंतराल व्यवस्थित ऑफसेट का उत्पादन करते हैं।

2. स्थिरता प्रक्षेपवक्र को सच्चे मैनिफोल्ड के पास रखती है: एक अभिसारी दिशा क्षेत्र का मतलब त्रुटियां सिकुड़ती हैं। एक भिन्न क्षेत्र का मतलब है कि सिमुलेशन मान्य क्षेत्र को छोड़ देता है।

3. अवशेष छोटे हैं AND असंरचित हैं: यादृच्छिक, असंबद्ध अवशेष सुझाते हैं कि मॉडल सच्चे मैनिफोल्ड को कैप्चर करता है। संरचित अवशेष (प्रवृत्तियां, पैटर्न) एक छिपे हुए आयाम का संकेत देते हैं।

Hamming का 'सिमुलेशन पर कोई भी विश्वास क्यों करेगा?' ज्यामितीय रूप से अनुवाद करता है: मॉडल सतह वास्तविकता मैनिफोल्ड के कितने करीब है, कितने आयामों में, कितनी स्थिरता के साथ, कितने नमूने से बाहर बिंदुओं पर सत्यापित है?

आप एक मॉडल बनाने के लिए काम कर रहे हैं यह भविष्यवाणी करने के लिए कि क्या एक पुल निर्माण परियोजना समय पर समाप्त होगी। आपका मॉडल उपयोग करता है: नियोजित अवधि (सप्ताह), टीम आकार (व्यक्ति), और बजट अनुपात (वास्तविक/नियोजित)। एक सहकर्मी तर्क देता है कि आप महत्वपूर्ण चर याद कर रहे हैं। इस पाठ से ज्यामितीय ढांचे का उपयोग करते हुए, लापता चर के दो प्रकार का वर्णन करें: एक जो भविष्यवाणी में व्यवस्थित पूर्वाग्रह बनाएगा, और एक जो पूर्वाग्रह के बिना भविष्यवाणी विचरण को बढ़ाएगा। इन दोनों प्रभावों के बीच ज्यामितीय अंतर की व्याख्या करें।