नमूनाकरण और नमूना वितरण

2021-06-26 · 4 min read · Data Science Sampling नमूना Sampling Distribution नमूना वितरण यादृच्छिक नमूना ·

नमूना

एक नमूना जनसंख्या का एक सबसेट है। अधिकांश समय जनसंख्या डेटा एकत्र करना बहुत महंगा या असंभव होता है। अनुमान के आंकड़ों का पूरा विचार (जो बाद में मशीन लर्निंग और एआई के लिए ‘विकसित’ हुआ) नमूनों के मापदंडों का अध्ययन करके जनसंख्या मापदंडों के आकलन के इर्द-गिर्द घूमता है। नमूने और नमूना वितरण चार पहियों में से अंतिम दो हैं जिन पर अनुमानित आंकड़े (और मशीन लर्निंग और एआई) चलते हैं। अन्य दो हैं वर्णनात्मक आँकड़े और प्रायिकता जिसे हम पहले ही कवर कर चुके हैं।

विश्लेषण के मजबूत होने के लिए एक नमूना अपनी जनसंख्या का वर्णक होना चाहिए। नमूनाकरण को दो प्रकारों में विभाजित किया जा सकता है; यादृच्छिक और गैर-यादृच्छिक। गैर यादृच्छिक नमूनाकरण का अर्थ है कि नमूने यादृच्छिक रूप से नहीं चुने गए थे। यादृच्छिक रूप से नहीं चुने गए नमूने अनुमानित सांख्यिकीय विश्लेषण के लिए उपयुक्त नहीं हैं और हम उन पर ध्यान केंद्रित नहीं करेंगे। यादृच्छिक रूप से चयनित नमूने सांख्यिकीय विश्लेषण के लिए उपयुक्त हैं। चयन विशुद्ध रूप से यादृच्छिक है। मान लीजिए आप भारतीय जनसंख्या से संबंधित कुछ मापदंडों को समझना चाहते हैं। आप विश्लेषण चलाने के लिए बेतरतीब ढंग से कुछ भारतीय नागरिकों का चयन कर सकते हैं। यह लॉटरी या ‘टोपी से नंबर लेने’ की तरह है। इसे ‘सरल यादृच्छिक नमूनाकरण’ कहा जाता है। नमूना लेने का एक अन्य तरीका नमूना फ्रेम को ब्लॉकों में विभाजित करना हो सकता है। अंतिम उदाहरण का उपयोग करते हुए, आप पहले यादृच्छिक रूप से x लोगों की संख्या का चयन कर सकते हैं। फिर आप उन्हें कुछ समूहों में विभाजित कर सकते हैं। फिर केवल पहले समूह से यादृच्छिक रूप से एक व्यक्ति का चयन करें। यदि वह व्यक्ति नमूने में nवां है, तो आप प्रत्येक समूह से nवां का चयन करते रहें। इसे ‘व्यवस्थित यादृच्छिक नमूनाकरण’ कहा जाता है।

‘स्तरीकृत यादृच्छिक नमूनाकरण’ का उपयोग तब किया जाता है जब जनसंख्या को विचाराधीन पैरामीटर के संबंध में गैर-सजातीय या विषम माना जाता है। समूह बनाए जाते हैं जहां प्रत्येक समूह को विषम माना जाता है। उदाहरण के लिए, यदि हम फ़ुटबॉल खिलाड़ियों द्वारा प्रति मैच बनाए गए गोल का विश्लेषण करना चाहते हैं, तो हम उन्हें उस स्तर से विभाजित करना पसंद कर सकते हैं जिसमें वे खेलते हैं या जिस स्थिति में वे खेलते हैं। गोलकीपर और स्ट्राइकर द्वारा बनाए गए लक्ष्यों की तुलना का कोई मतलब नहीं हो सकता है।

‘क्लस्टर रैंडम सैंपलिंग’ का उपयोग तब किया जाता है जब लक्ष्य समूह प्राकृतिक समूह बनाते हैं। उदाहरण के लिए, यदि आप अमेरिका में ऑटोमोबाइल निर्माताओं में लिंग विविधता का विश्लेषण करना चाहते हैं, तो आप पहले कुछ कंपनियों को बेतरतीब ढंग से चुन सकते हैं। और फिर उन कंपनियों में मापदंडों को मापें।

**गैर-संभाव्यता नमूनाकरण केवल खोजपूर्ण विश्लेषण के लिए उपयुक्त हैं। संभाव्यता नमूनाकरण खोजपूर्ण और अनुमानात्मक दोनों आँकड़ों के लिए उपयुक्त है।

नमूने का वितरण

जब हम जनसंख्या के समान पैरामीटर का अनुमान लगाने के उद्देश्य से एक नमूने के पैरामीटर को मापते हैं, तो स्वाभाविक रूप से एक प्रश्न उठता है सटीकता का प्रश्न। उदाहरण के लिए, मान लें कि हमें एक स्कूल में सभी छात्रों का औसत वजन मापना था और इसकी गणना के लिए हमने एक नमूना लिया। यदि नमूना औसत वजन x है, तो सवाल यह है कि यह जनसंख्या (सभी छात्रों) के औसत वजन को कितनी सटीक रूप से दर्शाता है। या, हम इसे लेकर कितने आश्वस्त हैं।या, यह जनसंख्या के मापदंड से कितने दूर है। नमूना वितरण वह है जो हमें इन सवालों के जवाब देने में मदद करता है। यह नमूना सांख्यिकी और जनसंख्या सांख्यिकी के बीच संबंध को दर्शाता है।

सामान्य वितरण के लिए केंद्रीय प्रवृत्ति उपायों (एकल माध्य, एकल अनुपात, साधनों के बीच अंतर और अनुपात के बीच अंतर) के लिए निम्नलिखित स्थापित और माना जाता है।

सभी नमूना पैरामीटर 68.3% समय एक मानक त्रुटि (नमूने का मानक विचलन) के बीच होगा
95.5% समय यह दो मानक त्रुटियों के बीच होगा और
99.7% बार यह तीन मानक त्रुटियों के बीच होगा

सटीक संभाव्यता की गणना z-stat का उपयोग करके की जाती है, जो जनसंख्या के सभी संभावित साधनों (एक ही जनसंख्या के विभिन्न नमूनों से) के वितरण में नमूना पैरामीटर की स्थिति को निर्दिष्ट करता है।

प्रत्येक केंद्रीय प्रवृत्ति के लिए अलग-अलग स्थापित सूत्रों का उपयोग करके z-stat की गणना की जाती है। आधुनिक सॉफ्टवेयर जैसे आर, पायथन एक्सेल आदि में z-stat की गणना करने के लिए अंतर्निहित फंक्शन हैं। z-stat और इसके कुछ अन्य संस्करण परिकल्पना परीक्षण और आगे के आधार हैं।

मैं आपको निम्न वीडियो को देखने की दृढ़ता से अनुशंसा करता हूं कि यह समझने के लिए कि z-stat क्या या कौन सी स्थिति दिखाता है।

यह देखने के लिए कि R में नमूनाकरण कैसे किया जाता है, कृपया इस वीडियो को देखें।

नमूनाकरण और नमूना वितरण

नमूना

नमूने का वितरण

Translations: