खेल सिद्धांत: खेल को एक मैट्रिक्स द्वारा दिया जाए। हमारी सेवा का उपयोग करके मिश्रित रणनीतियों में गेम थ्योरी समस्या को हल करने का एक उदाहरण

16.07.2019 तकनीक

गणितीय खेल सिद्धांत, जो 20वीं सदी के चालीसवें दशक में उभरा, अर्थशास्त्र में सबसे अधिक उपयोग किया जाता है। लेकिन हम समाज में लोगों के व्यवहार को मॉडल करने के लिए खेलों की अवधारणा का उपयोग कैसे कर सकते हैं? अर्थशास्त्री अध्ययन क्यों करते हैं, फुटबॉल खिलाड़ी किस कोने में अधिक बार पेनल्टी शूट करते हैं, और "रॉक, पेपर, सीज़र्स" में कैसे जीतें, एचएसई सूक्ष्म आर्थिक विश्लेषण विभाग के वरिष्ठ व्याख्याता डेनिल फेडोरोविख ने अपने व्याख्यान में बताया।

जॉन नैश और एक बार में एक गोरा

खेल कोई भी ऐसी स्थिति है जिसमें एक एजेंट का लाभ न केवल उसके अपने कार्यों पर निर्भर करता है, बल्कि अन्य प्रतिभागियों के व्यवहार पर भी निर्भर करता है। यदि आप घर पर सॉलिटेयर खेलते हैं, तो एक अर्थशास्त्री और गेम थ्योरी के दृष्टिकोण से, यह कोई गेम नहीं है। इसका तात्पर्य हितों के टकराव की अनिवार्य उपस्थिति से है।

जॉन नैश के बारे में फिल्म "ए ब्यूटीफुल माइंड" में, नोबेल पुरस्कार विजेताअर्थशास्त्र में, एक बार में एक सुनहरे बालों वाली लड़की के साथ एक दृश्य है। यह उस विचार को दर्शाता है जिसके लिए वैज्ञानिक को पुरस्कार मिला - यह नैश संतुलन का विचार है, जिसे उन्होंने स्वयं नियंत्रण गतिशीलता कहा था।

एक खेल- ऐसी कोई भी स्थिति जिसमें एजेंटों का भुगतान एक-दूसरे पर निर्भर हो।

रणनीति सभी संभावित स्थितियों में खिलाड़ी के कार्यों का विवरण है।

परिणाम चयनित रणनीतियों का एक संयोजन है।

तो, सैद्धांतिक दृष्टिकोण से, इस स्थिति में खिलाड़ी केवल पुरुष हैं, यानी, जो निर्णय लेते हैं। उनकी प्राथमिकताएँ सरल हैं: एक गोरा एक श्यामला से बेहतर है, और एक श्यामला कुछ न होने से बेहतर है। आप दो तरह से कार्य कर सकते हैं: किसी गोरी के पास जाएँ या "अपनी" श्यामला के पास जाएँ। खेल में एक ही चाल होती है, निर्णय एक साथ लिए जाते हैं (अर्थात, आप यह नहीं देख सकते कि दूसरे कहाँ गए और फिर आप स्वयं आगे बढ़ जाते हैं)। यदि कोई लड़की किसी पुरुष को अस्वीकार कर देती है, तो खेल समाप्त हो जाता है: उसके पास लौटना या दूसरे को चुनना असंभव है।

इस खेल स्थिति का संभावित परिणाम क्या है? यानी इसका स्थिर विन्यास क्या है जिससे हर कोई समझ जाएगा कि उन्होंने सबसे अच्छा विकल्प चुना है? सबसे पहले, जैसा कि नैश ने सही ढंग से बताया है, अगर हर कोई गोरे के पास जाता है, तो इसका अंत अच्छा नहीं होगा। इसलिए, वैज्ञानिक आगे सुझाव देते हैं कि हर किसी को ब्रुनेट्स के पास जाने की जरूरत है। लेकिन फिर, अगर यह पता हो कि हर कोई ब्रुनेट्स के पास जाएगा, तो उसे गोरी के पास जाना चाहिए, क्योंकि वह बेहतर है।

यह सच्चा संतुलन है - एक परिणाम जिसमें एक सुनहरे बालों के पास जाता है, और बाकी भूरे बालों के पास जाते हैं। यह अनुचित लग सकता है. लेकिन संतुलन की स्थिति में, कोई भी अपनी पसंद पर पछतावा नहीं कर सकता: जो लोग ब्रुनेट्स के पास जाते हैं वे समझते हैं कि उन्हें गोरी से वैसे भी कुछ नहीं मिलेगा। इस प्रकार, नैश संतुलन एक विन्यास है जिसमें कोई भी व्यक्तिगत रूप से सभी द्वारा चुनी गई रणनीति को बदलना नहीं चाहता है। अर्थात्, खेल के अंत में प्रतिबिंबित करते हुए, प्रत्येक प्रतिभागी समझता है कि भले ही उसे पता होता कि दूसरे लोग कैसा कर रहे हैं, उसने भी वैसा ही किया होता। इसे कॉल करने का दूसरा तरीका एक परिणाम है, जहां प्रत्येक भागीदार दूसरों के कार्यों का बेहतर ढंग से जवाब देता है।

"रॉक कागज कैंची"

आइए संतुलन के लिए अन्य खेलों पर नजर डालें। उदाहरण के लिए, रॉक, पेपर, सीज़र्स में नैश संतुलन नहीं है: इसके सभी संभावित परिणामों में, ऐसा कोई विकल्प नहीं है जिसमें दोनों प्रतिभागी अपनी पसंद से खुश हों। हालाँकि, एक विश्व चैम्पियनशिप और विश्व रॉक पेपर सीज़र्स सोसाइटी है, जो खेल के आँकड़े एकत्र करती है। जाहिर है, यदि आप इस खेल में लोगों के सामान्य व्यवहार के बारे में कुछ जानते हैं तो आप जीतने की संभावनाओं में सुधार कर सकते हैं।

किसी खेल में शुद्ध रणनीति वह है जिसमें एक व्यक्ति हमेशा एक ही तरह से खेलता है, समान चालें चुनता है।

वर्ल्ड आरपीएस सोसाइटी के अनुसार, पत्थर सबसे अधिक बार चुनी जाने वाली चाल (37.8%) है। 32.6% लोगों ने कागज को प्राथमिकता दी, 29.6% लोगों ने कैंची को प्राथमिकता दी। अब आप जानते हैं कि आपको पेपर चुनने की आवश्यकता है। हालाँकि, यदि आप किसी ऐसे व्यक्ति के साथ खेलते हैं जो यह भी जानता है, तो आपको अब पेपर चुनने की ज़रूरत नहीं है, क्योंकि आपसे भी यही अपेक्षा की जाती है। एक प्रसिद्ध मामला है: 2005 में, दो नीलामी घरों सोथबी और क्रिस्टी ने फैसला किया कि किसे बहुत बड़ा लॉट मिलेगा - पिकासो और वान गाग का एक संग्रह जिसकी शुरुआती कीमत 20 मिलियन डॉलर थी। मालिक ने सुझाव दिया कि वे रॉक, पेपर, सीज़र्स खेलें और घरों के प्रतिनिधियों ने उन्हें अपने विकल्प ईमेल किए। सोथबीज़ ने, जैसा कि उन्होंने बाद में कहा, बिना ज्यादा सोचे-समझे अखबार को चुन लिया। क्रिस्टीज़ में जीता. निर्णय लेते समय, वे एक विशेषज्ञ की ओर मुड़े - जो शीर्ष प्रबंधकों में से एक की 11 वर्षीय बेटी थी। उसने कहा: “पत्थर सबसे मजबूत लगता है, यही वजह है कि ज्यादातर लोग इसे चुनते हैं। लेकिन अगर हम पूरी तरह से बेवकूफ शुरुआत करने वाले के साथ नहीं खेल रहे हैं, तो वह पत्थर नहीं फेंकेगा, वह हमसे ऐसा करने की उम्मीद करेगा, और वह खुद कागज फेंक देगा। लेकिन हम एक कदम आगे सोचेंगे और कैंची फेंक देंगे।”

इस प्रकार, आप आगे के बारे में सोच सकते हैं, लेकिन यह जरूरी नहीं कि आपको जीत की ओर ले जाए, क्योंकि हो सकता है कि आपको अपने प्रतिद्वंद्वी की क्षमता के बारे में पता न हो। इसलिए, कभी-कभी, शुद्ध रणनीतियों के बजाय, मिश्रित रणनीतियों को चुनना अधिक सही होता है, अर्थात यादृच्छिक रूप से निर्णय लेना। तो, "रॉक, पेपर, सीज़र्स" में संतुलन, जो हमने पहले नहीं पाया है, ठीक उसी में है मिश्रित रणनीतियाँ: तीन चाल विकल्पों में से प्रत्येक को एक-तिहाई संभावना के साथ चुनें। यदि आप अधिक बार एक पत्थर चुनते हैं, तो आपका प्रतिद्वंद्वी अपनी पसंद को समायोजित करेगा। यह जानकर आप अपना समायोजन कर लेंगे और संतुलन नहीं बन पाएगा। लेकिन यदि हर कोई समान संभावना के साथ पत्थर, कैंची या कागज को ही चुने तो आपमें से कोई भी व्यवहार बदलना शुरू नहीं करेगा। ऐसा इसलिए है क्योंकि मिश्रित रणनीतियों में पिछले कार्यों के आधार पर आपके अगले कदम की भविष्यवाणी करना असंभव है।

मिश्रित रणनीति और खेल

मिश्रित रणनीतियों के और भी कई गंभीर उदाहरण हैं। उदाहरण के लिए, टेनिस में कहाँ सेवा करनी है या फ़ुटबॉल में पेनल्टी लेनी/लेना है। यदि आप अपने प्रतिद्वंद्वी के बारे में कुछ नहीं जानते हैं या हर समय अलग-अलग विरोधियों के खिलाफ खेलते हैं, तो सबसे अच्छी रणनीति यह है कि चीजों को कम या ज्यादा बेतरतीब ढंग से करें। लंदन स्कूल ऑफ इकोनॉमिक्स के प्रोफेसर इग्नासियो पलासिओस-हुएर्टा ने 2003 में अमेरिकन इकोनॉमिक रिव्यू में एक पेपर प्रकाशित किया था, जिसका सार मिश्रित रणनीतियों में नैश संतुलन का पता लगाना था। पलासिओस-हुएर्टा ने फुटबॉल को अपने शोध के विषय के रूप में चुना और इसलिए 1,400 से अधिक पेनल्टी किक पर ध्यान दिया। बेशक, खेल में सब कुछ "रॉक, पेपर, कैंची" की तुलना में अधिक चालाकी से व्यवस्थित किया जाता है: इसमें एथलीट के मजबूत पैर को ध्यान में रखा जाता है, पूरी ताकत से मारते समय विभिन्न कोणों पर मारना, इत्यादि। यहां नैश संतुलन में विकल्पों की गणना शामिल है, उदाहरण के लिए, अपनी कमजोरियों और ताकतों को जानते हुए, अधिक संभावना के साथ जीतने के लिए लक्ष्य के कोनों को निर्धारित करना जिस पर शूट करना है। प्रत्येक फ़ुटबॉल खिलाड़ी के आँकड़े और मिश्रित रणनीतियों में उनमें पाए गए संतुलन से पता चलता है कि फ़ुटबॉल खिलाड़ी लगभग वैसा ही कार्य करते हैं जैसा अर्थशास्त्री भविष्यवाणी करते हैं। यह कहने लायक नहीं है कि जो लोग दंड लेते हैं, उन्होंने गेम थ्योरी पर पाठ्यपुस्तकें पढ़ी हैं और कुछ बहुत जटिल गणित किया है। सबसे अधिक संभावना है कि वहाँ है विभिन्न तरीकेसर्वोत्तम व्यवहार करना सीखें: आप एक शानदार फुटबॉल खिलाड़ी हो सकते हैं और महसूस कर सकते हैं कि क्या करना है, या आप एक अर्थशास्त्री हो सकते हैं और मिश्रित रणनीतियों में संतुलन की तलाश कर सकते हैं।

2008 में, प्रोफेसर इग्नासियो पलासियोस-हुएर्टा की मुलाकात चेल्सी के कोच अब्राहम ग्रांट से हुई, जो उस समय मॉस्को में चैंपियंस लीग फाइनल में खेल रहे थे। वैज्ञानिक ने पेनल्टी शूटआउट की सिफ़ारिशों के साथ कोच को एक नोट लिखा, जो विरोधी गोलकीपर, मैनचेस्टर यूनाइटेड के एडविन वान डेर सार के व्यवहार से संबंधित था। उदाहरण के लिए, आंकड़ों के अनुसार, उन्होंने लगभग हमेशा औसत स्तर पर शॉट बचाए और अक्सर पेनल्टी लेने के लिए खुद को प्राकृतिक दिशा में फेंक दिया। जैसा कि हमने ऊपर निर्धारित किया है, अपने प्रतिद्वंद्वी के बारे में ज्ञान को ध्यान में रखते हुए अपने व्यवहार को यादृच्छिक बनाना अभी भी अधिक सही है। जब पेनल्टी स्कोर पहले से ही 6:5 था, तो चेल्सी के स्ट्राइकर निकोलस एनेल्का को स्कोर करना चाहिए था। शॉट से पहले दाहिने कोने की ओर इशारा करते हुए, वैन डेर सार एनेल्का से पूछते दिखे कि क्या वह वहां शूट करने जा रहे हैं।

मुद्दा यह है कि चेल्सी के सभी पिछले शॉट स्ट्राइकर के दाहिने कोने पर लक्षित थे। हम ठीक से नहीं जानते कि क्यों, शायद एक अर्थशास्त्री की सलाह के कारण, ऐसी दिशा में आगे बढ़ना जो उनके लिए अप्राकृतिक है, क्योंकि आंकड़ों के अनुसार, वैन डेर सार इसके लिए कम तैयार हैं। चेल्सी के अधिकांश खिलाड़ी दाएँ हाथ के थे: जब उन्होंने अप्राकृतिक दाएँ कोने पर प्रहार किया, तो टेरी को छोड़कर सभी ने स्कोर किया। जाहिर है, रणनीति एनेल्का की वहां शूटिंग करने की थी। लेकिन वैन डेर सार को यह समझ में आ गया। उन्होंने शानदार अभिनय किया: उन्होंने बाएं कोने की ओर इशारा किया और कहा, "क्या आप वहां शूटिंग करने जा रहे हैं?", जिससे शायद एनेल्का भयभीत हो गई, क्योंकि उन्होंने उसका अनुमान लगा लिया था। आखिरी क्षण में, उन्होंने अलग तरह से कार्य करने का फैसला किया, अपनी प्राकृतिक दिशा में हिट किया, जिसकी वैन डेर सार को जरूरत थी, जिन्होंने यह शॉट लिया और मैनचेस्टर की जीत सुनिश्चित की। यह स्थिति यादृच्छिक चयन सिखाती है, क्योंकि अन्यथा आपका निर्णय गणनात्मक हो सकता है और आप हार जायेंगे।

"कैदी की दुविधा"

संभवतः सबसे प्रसिद्ध गेम जो गेम थ्योरी पर विश्वविद्यालय पाठ्यक्रम शुरू करता है वह प्रिज़नर्स डिलेमा है। किंवदंती के अनुसार, एक गंभीर अपराध के लिए दो संदिग्धों को पकड़ा गया और अलग-अलग कोशिकाओं में बंद कर दिया गया। इस बात के सबूत हैं कि वे हथियार रखते थे, और इससे उन्हें थोड़े समय के लिए कैद किया जा सकता था। हालाँकि, इस बात का कोई सबूत नहीं है कि उन्होंने यह भयानक अपराध किया है। अन्वेषक प्रत्येक व्यक्ति को खेल की स्थितियों के बारे में बताता है। यदि दोनों अपराधी कबूल करते हैं, तो दोनों को तीन साल के लिए जेल जाना होगा। यदि कोई कबूल करता है और साथी चुप रहता है, तो कबूल करने वाले को तुरंत रिहा कर दिया जाएगा, और दूसरे को पांच साल की कैद होगी। यदि, इसके विपरीत, पहला व्यक्ति कबूल नहीं करता है, और दूसरा उसे दोषी ठहराता है, तो पहले व्यक्ति को पांच साल के लिए जेल जाना होगा, और दूसरे को तुरंत रिहा कर दिया जाएगा। यदि कोई कबूल नहीं करता है, तो दोनों को हथियार रखने के आरोप में एक साल जेल की सजा काटनी होगी।

यहां नैश संतुलन पहले संयोजन में निहित है, जब दोनों संदिग्ध चुप नहीं रहते और दोनों तीन साल के लिए जेल जाते हैं। सभी का तर्क इस प्रकार है: "अगर मैं बोलूंगा, तो तीन साल के लिए जेल जाऊंगा, अगर मैं चुप रहूंगा, तो पांच साल के लिए जेल जाऊंगा।" अगर दूसरा चुप रहता है, तो मेरे लिए भी यह कहना बेहतर है: एक साल के लिए जेल जाने से बेहतर है कि मैं जेल न जाऊं। यह प्रमुख रणनीति है: बोलना फायदेमंद है, इससे कोई फर्क नहीं पड़ता कि दूसरा क्या कर रहा है। हालाँकि, इसमें एक समस्या है - एक बेहतर विकल्प है, क्योंकि तीन साल की कैद एक साल की कैद से भी बदतर है (यदि आप कहानी को केवल प्रतिभागियों के दृष्टिकोण से मानते हैं और इस पर ध्यान नहीं देते हैं) नैतिक मुद्दे)। लेकिन एक साल तक चुप रहना असंभव है, क्योंकि, जैसा कि हमने ऊपर समझा, दोनों अपराधियों के लिए चुप रहना लाभहीन है।

पेरेटो सुधार

बाज़ार के अदृश्य हाथ के बारे में एक प्रसिद्ध रूपक है, जो एडम स्मिथ का है। उन्होंने कहा कि अगर एक कसाई अपने लिए पैसा कमाने की कोशिश करता है, तो यह सभी के लिए बेहतर होगा: वह स्वादिष्ट मांस बनाएगा, जिसे बेकर बन्स की बिक्री से पैसे से खरीदेगा, जिसे बदले में उसे भी बनाना होगा स्वादिष्ट ताकि वे बिकें। लेकिन यह पता चला है कि यह अदृश्य हाथ हमेशा काम नहीं करता है, और ऐसी कई स्थितियाँ होती हैं जब हर कोई अपने लिए कार्य करता है, और हर किसी को बुरा लगता है।

इसलिए, कभी-कभी अर्थशास्त्री और खेल सिद्धांतकार प्रत्येक खिलाड़ी के इष्टतम व्यवहार के बारे में नहीं सोचते हैं, यानी नैश संतुलन के बारे में नहीं, बल्कि उस परिणाम के बारे में सोचते हैं जिसमें पूरा समाज बेहतर होगा (दुविधा में, समाज में दो अपराधी होते हैं) . इस दृष्टिकोण से, कोई परिणाम तभी कुशल होता है जब उसमें कोई पेरेटो सुधार न हो, अर्थात, दूसरों को बदतर बनाए बिना किसी को बेहतर बनाना असंभव है। यदि लोग केवल वस्तुओं और सेवाओं का आदान-प्रदान करते हैं, तो यह एक पेरेटो सुधार है: वे इसे स्वेच्छा से करते हैं, और यह संभावना नहीं है कि किसी को इसके बारे में बुरा लगेगा। लेकिन कभी-कभी, यदि आप लोगों को केवल बातचीत करने देते हैं और हस्तक्षेप भी नहीं करते हैं, तो वे जो लेकर आते हैं वह पेरेटो इष्टतम नहीं होगा। कैदी की दुविधा में यही होता है। इसमें, यदि हम सभी को उस तरीके से कार्य करने देते हैं जो उनके लिए फायदेमंद है, तो यह पता चलता है कि इससे सभी को बुरा लगता है। सबके लिए यह बेहतर होगा कि हर कोई अपने लिए अनुकूलतम से कम काम करे, यानी चुप रहे।

सामान्य लोगों की त्रासदी

कैदी की दुविधा एक खिलौना कहानी है। यह ऐसी स्थिति नहीं है जिसमें आप खुद को पाने की उम्मीद करेंगे, लेकिन इसी तरह के प्रभाव हमारे चारों ओर मौजूद हैं। कई खिलाड़ियों के साथ एक दुविधा पर विचार करें, जिसे कभी-कभी कॉमन्स की त्रासदी भी कहा जाता है। उदाहरण के लिए, सड़कों पर ट्रैफिक जाम है, और मैं तय करता हूं कि काम पर कैसे जाना है: कार से या बस से। बाकी लोग भी ऐसा ही करते हैं. अगर मैं कार से जाऊं और हर कोई ऐसा ही करने का फैसला करे, तो ट्रैफिक जाम होगा, लेकिन हम वहां आराम से पहुंच जाएंगे। अगर मैं बस से जाऊं, तब भी ट्रैफिक जाम होगा, लेकिन यात्रा असुविधाजनक होगी और विशेष रूप से तेज़ नहीं होगी, इसलिए यह परिणाम और भी बुरा होगा। यदि, औसतन, हर कोई बस लेता है, तो यदि मैं भी ऐसा ही करता हूँ, तो मैं बिना ट्रैफिक जाम के बहुत जल्दी वहाँ पहुँच जाऊँगा। लेकिन अगर मैं ऐसी परिस्थितियों में कार से जाऊंगा तो मैं वहां जल्दी भी पहुंच जाऊंगा, लेकिन आराम से भी। इसलिए, ट्रैफ़िक जाम की उपस्थिति मेरे कार्यों पर निर्भर नहीं करती है। यहां नैश संतुलन ऐसी स्थिति में है जहां हर कोई गाड़ी चलाना चुनता है। कोई फर्क नहीं पड़ता कि दूसरे क्या करते हैं, मेरे लिए कार चुनना बेहतर है, क्योंकि यह नहीं पता कि ट्रैफिक जाम होगा या नहीं, लेकिन किसी भी स्थिति में मैं वहां आराम से पहुंच जाऊंगा। यह प्रमुख रणनीति है, इसलिए अंत में हर कोई कार चलाता है, और हमारे पास वही है जो हमारे पास है। राज्य का काम बस से यात्रा कराना है सबसे बढ़िया विकल्पकम से कम कुछ के लिए, यही कारण है कि केंद्र में प्रवेश द्वार, पार्किंग स्थल आदि सशुल्क हैं।

एक और क्लासिक कहानी है मतदाता की तर्कसंगत अज्ञानता। कल्पना कीजिए कि चुनाव के नतीजे पहले से न पता हों। आप सभी उम्मीदवारों के कार्यक्रमों का अध्ययन कर सकते हैं, बहस सुन सकते हैं और फिर सर्वश्रेष्ठ को वोट कर सकते हैं। दूसरी रणनीति यह है कि मतदान केंद्र पर आएं और बेतरतीब ढंग से या टीवी पर जो अधिक बार दिखाया गया हो, उसके लिए वोट करें। यदि मेरा वोट कभी यह निर्धारित नहीं करता कि कौन जीतेगा (और 140 मिलियन लोगों के देश में, एक वोट कभी भी कुछ भी तय नहीं करेगा) तो इष्टतम व्यवहार क्या होगा? बेशक, मैं चाहता हूं कि देश को एक अच्छा राष्ट्रपति मिले, लेकिन मैं जानता हूं कि अब कोई भी उम्मीदवारों के कार्यक्रमों का ध्यानपूर्वक अध्ययन नहीं करेगा। इसलिए, इस पर समय बर्बाद न करना प्रमुख व्यवहार रणनीति है।

जब आपको सफाई दिवस पर आने के लिए बुलाया जाता है, तो यह व्यक्तिगत रूप से किसी पर निर्भर नहीं होगा कि यार्ड साफ होगा या नहीं: अगर मैं अकेले बाहर जाता हूं, तो मैं सब कुछ साफ नहीं कर पाऊंगा, या अगर हर कोई बाहर आता है , तो मैं बाहर नहीं जाऊँगा, क्योंकि मेरे बिना ही सब कुछ हो जायेगा। एक अन्य उदाहरण चीन में माल का परिवहन है, जिसके बारे में मैंने स्टीफन लैंड्सबर्ग की अद्भुत पुस्तक, द इकोनॉमिस्ट ऑन द काउच में सीखा। 100-150 साल पहले चीन में माल परिवहन का एक सामान्य तरीका था: हर चीज़ को एक बड़े शरीर में मोड़ दिया जाता था, जिसे सात लोग खींचते थे। यदि सामान समय पर पहुंचा तो ग्राहक भुगतान करते थे। कल्पना कीजिए कि आप इन छह में से एक हैं। आप प्रयास कर सकते हैं और जितना संभव हो उतना जोर से खींच सकते हैं, और यदि हर कोई ऐसा करता है, तो लोड समय पर पहुंच जाएगा। यदि एक व्यक्ति ऐसा नहीं करेगा तो सभी लोग भी समय पर पहुंचेंगे। हर कोई सोचता है: "यदि बाकी सभी लोग ठीक से खींच रहे हैं, तो मुझे ऐसा क्यों करना चाहिए, और यदि बाकी सभी लोग उतना जोर से नहीं खींच रहे हैं जितना वे कर सकते हैं, तो मैं कुछ भी नहीं बदल पाऊंगा।" नतीजतन, डिलीवरी के समय के साथ सब कुछ बहुत खराब था, और लोडरों ने खुद ही एक रास्ता खोज लिया: उन्होंने सातवें को काम पर रखना शुरू कर दिया और आलसी लोगों को कोड़े से मारने के लिए उसे पैसे दिए। ऐसे व्यक्ति की उपस्थिति ने ही हर किसी को यथासंभव कड़ी मेहनत करने के लिए मजबूर कर दिया, क्योंकि अन्यथा हर कोई एक खराब संतुलन में आ जाता, जिससे कोई भी लाभप्रद रूप से बच नहीं सकता था।

यही उदाहरण प्रकृति में भी देखा जा सकता है। बगीचे में उगने वाला एक पेड़ जंगल में उगने वाले पेड़ से अलग होता है। पहले मामले में, यह पूरे ट्रंक को घेरता है, दूसरे में, यह केवल शीर्ष पर स्थित होता है। जंगल में यह नैश संतुलन है। यदि सभी पेड़ सहमत हों और समान रूप से बढ़ें, तो वे फोटॉनों की संख्या समान रूप से वितरित करेंगे, और सभी बेहतर होंगे। लेकिन ऐसा करना किसी एक व्यक्ति के लिए लाभदायक नहीं है। इसलिए, प्रत्येक पेड़ अपने आस-पास के पेड़ों की तुलना में थोड़ा ऊंचा बढ़ना चाहता है।

प्रतिबद्धता युक्ति

कई स्थितियों में, खेल में भाग लेने वालों में से किसी एक को ऐसे उपकरण की आवश्यकता हो सकती है जो दूसरों को यह विश्वास दिलाए कि वह धोखा नहीं दे रहा है। इसे प्रतिबद्धता उपकरण कहा जाता है. उदाहरण के लिए, कुछ देशों में कानून अपराधियों की प्रेरणा को कम करने के लिए अपहरणकर्ताओं को फिरौती के भुगतान पर रोक लगाता है। हालाँकि, यह कानून अक्सर काम नहीं करता है। यदि आपका रिश्तेदार पकड़ लिया गया है और आपके पास कानून को दरकिनार करके उसे बचाने का अवसर है, तो आप ऐसा करेंगे। आइए ऐसी स्थिति की कल्पना करें जहां कानून को दरकिनार किया जा सकता है, लेकिन रिश्तेदार गरीब हैं और उनके पास फिरौती देने के लिए कुछ भी नहीं है। इस स्थिति में अपराधी के पास दो विकल्प होते हैं: पीड़ित को छोड़ देना या मार देना। उसे हत्या करना पसंद नहीं है, लेकिन उसे अब जेल भी पसंद नहीं है। बदले में, रिहा किया गया पीड़ित या तो अपहरणकर्ता को दंडित करने के लिए गवाही दे सकता है, या चुप रह सकता है। अधिकांश सर्वोत्तम परिणामएक अपराधी के लिए: उस पीड़ित को छोड़ दें जो उसे परेशान न करे। पीड़िता रिहा होकर गवाही देना चाहती है.

यहां संतुलन यह है कि आतंकवादी पकड़ा नहीं जाना चाहता, जिसका अर्थ है कि पीड़ित मर जाता है। लेकिन यह पेरेटो संतुलन नहीं है, क्योंकि एक विकल्प है जिसमें हर कोई बेहतर स्थिति में है - स्वतंत्रता में पीड़ित चुप रहता है। लेकिन इसके लिए यह सुनिश्चित करना जरूरी है कि चुप रहना ही उसके लिए फायदेमंद है। कहीं मैंने एक विकल्प पढ़ा है जहां वह एक आतंकवादी से कामुक फोटो शूट की व्यवस्था करने के लिए कह सकती है। अगर अपराधी को जेल हो गई तो उसके साथी तस्वीरें इंटरनेट पर पोस्ट कर देंगे। अब, यदि अपहरणकर्ता मुक्त रहता है, तो यह बुरा है, लेकिन सार्वजनिक डोमेन में तस्वीरें और भी बदतर हैं, इसलिए संतुलन है। पीड़ित के लिए यह जिंदा रहने का एक तरीका है।

अन्य खेल उदाहरण:

बर्ट्रेंड मॉडल

चूँकि हम अर्थशास्त्र के बारे में बात कर रहे हैं, आइए एक आर्थिक उदाहरण देखें। बर्ट्रेंड मॉडल में, दो स्टोर एक ही उत्पाद बेचते हैं, इसे निर्माता से एक ही कीमत पर खरीदते हैं। यदि दुकानों में कीमतें समान हैं, तो उनका मुनाफा लगभग समान है, क्योंकि तब खरीदार यादृच्छिक रूप से एक स्टोर चुनते हैं। यहां एकमात्र नैश संतुलन उत्पाद को लागत पर बेचना है। लेकिन स्टोर पैसा कमाना चाहते हैं। इसलिए, यदि कोई कीमत 10 रूबल निर्धारित करता है, तो दूसरा इसे एक पैसा कम कर देगा, जिससे उसका राजस्व दोगुना हो जाएगा, क्योंकि सभी खरीदार उसके पास जाएंगे। इसलिए, बाजार सहभागियों के लिए कीमतें कम करना फायदेमंद है, जिससे आपस में लाभ का वितरण होता है।

एक संकरी सड़क पर गाड़ी चलाना

आइए दो संभावित संतुलनों के बीच चयन के उदाहरण देखें। कल्पना कीजिए कि पेट्या और माशा एक संकरी सड़क पर एक-दूसरे की ओर गाड़ी चला रहे हैं। सड़क इतनी संकरी है कि उन दोनों को सड़क के किनारे हटना होगा। यदि वे अपने बाएँ या दाएँ मुड़ने का निर्णय लेते हैं, तो वे बस अलग हो जाएंगे। यदि एक दाएँ मुड़ता है और दूसरा बाएँ मुड़ता है, या इसके विपरीत, तो दुर्घटना घटित होगी। कैसे चुनें कि कहां जाना है? ऐसे खेलों में संतुलन खोजने में मदद के लिए, उदाहरण के लिए, यातायात नियम हैं। रूस में हर किसी को दाईं ओर मुड़ना पड़ता है।

चिकन गेम में, जब दो लोग एक-दूसरे की ओर तेज गति से गाड़ी चलाते हैं, तो दो संतुलन भी बनते हैं। यदि दोनों सड़क के किनारे हट जाते हैं, तो चिकन आउट नामक स्थिति उत्पन्न हो जाती है; यदि दोनों सड़क के किनारे नहीं हटते हैं, तो एक भयानक दुर्घटना में उनकी मृत्यु हो जाती है। अगर मुझे पता है कि मेरा प्रतिद्वंद्वी सीधे जा रहा है, तो जीवित रहने के लिए आगे बढ़ना मेरे लिए फायदेमंद है। अगर मुझे पता है कि मेरा प्रतिद्वंद्वी चला जाएगा, तो सीधे जाना मेरे लिए लाभदायक है ताकि मुझे बाद में 100 डॉलर मिल सकें। यह अनुमान लगाना कठिन है कि वास्तव में क्या होगा, हालाँकि, प्रत्येक खिलाड़ी का जीतने का अपना तरीका होता है। कल्पना कीजिए कि मैंने स्टीयरिंग व्हील को ठीक कर दिया ताकि उसे घुमाया न जा सके, और इसे अपने प्रतिद्वंद्वी को दिखाया। यह जानते हुए कि मेरे पास कोई विकल्प नहीं है, प्रतिद्वंद्वी उछलकर दूर भाग जाएगा।

क्वर्टी प्रभाव

कभी-कभी एक संतुलन से दूसरे संतुलन में जाना बहुत मुश्किल हो सकता है, भले ही इसका मतलब सभी के लिए लाभ हो। QWERTY लेआउट को टाइपिंग गति को धीमा करने के लिए डिज़ाइन किया गया था। क्योंकि यदि हर कोई बहुत तेजी से टाइप करेगा, तो कागज से टकराने वाले टाइपराइटर हेड एक-दूसरे से चिपक जाएंगे। इसलिए, क्रिस्टोफर स्कोल्स ने उन पत्रों को यथासंभव दूर से रखा जो अक्सर एक-दूसरे से सटे होते थे। यदि आप अपने कंप्यूटर पर कीबोर्ड सेटिंग्स पर जाते हैं, तो आप वहां ड्वोरक लेआउट का चयन कर सकते हैं और बहुत तेजी से टाइप कर सकते हैं, क्योंकि अब एनालॉग टाइपिंग मशीनों में कोई समस्या नहीं है। ड्वोरक को उम्मीद थी कि दुनिया उसके कीबोर्ड पर स्विच कर देगी, लेकिन हम अभी भी QWERTY के साथ जी रहे हैं। बेशक, अगर हम ड्वोरक लेआउट पर स्विच करते हैं, तो आने वाली पीढ़ियां हमारी आभारी होंगी। हम सभी प्रयास करेंगे और पुनः सीखेंगे, और परिणाम एक संतुलन होगा जिसमें हर कोई तेजी से टाइप करेगा। अब हम भी संतुलन में हैं- ख़राब तरीके से. लेकिन अकेले ही दोबारा प्रशिक्षण लेना किसी के लिए फायदेमंद नहीं है, क्योंकि निजी कंप्यूटर के अलावा किसी अन्य कंप्यूटर पर काम करना असुविधाजनक होगा।

गेम थ्योरी संघर्ष की स्थिति में इष्टतम व्यवहार का एक गणितीय सिद्धांत है। इसके अध्ययन का विषय संघर्ष का औपचारिक मॉडल या तथाकथित "गेम" है। गेम थ्योरी का मुख्य कार्य प्रतिभागियों की इष्टतम व्यवहार रणनीतियों को निर्धारित करना है। खेल सिद्धांत के अनुप्रयोग का क्षेत्र मुख्य रूप से लक्ष्यों में अंतर और संघर्ष में प्रतिभागियों के बीच निर्णय की एक निश्चित स्वतंत्रता की उपस्थिति से उत्पन्न प्रबंधन के जटिल व्यवहार संबंधी पहलुओं पर केंद्रित है।

एक संघर्ष की स्थिति या "संघर्ष" को एक प्रणाली के तत्वों के बीच कई लक्ष्यों की उपस्थिति और इन लक्ष्यों को प्राप्त करने की दिशा में हितों और कार्रवाई के तरीकों या रणनीतियों में संबंधित अंतर के रूप में परिभाषित किया गया है। संघर्षों को विरोधी में विभाजित किया जाता है, जब दो व्यक्ति विरोधी हितों का पीछा करते हैं, और गैर-विरोधी में, जब हित अलग-अलग होते हुए भी विपरीत नहीं होते हैं। बाद के मामले में, संघर्ष दो व्यक्तियों के बीच संघर्ष के रूप में नहीं, बल्कि सिस्टम में लक्ष्यों की असंगति या संसाधनों के उपयोग की भिन्न (विपरीत) प्रकृति के रूप में, अनिश्चित कारकों की भागीदारी के साथ व्यक्त किए जाते हैं। प्रकृति” खेल में, प्रतिस्पर्धा वाली स्थितियों आदि में।

संचालन अनुसंधान समस्याओं में, जैसा कि ऊपर बताया गया है, हम हमेशा इष्टतम समाधान की तलाश में रहते हैं। एक निश्चित लक्ष्य को प्राप्त करने के उद्देश्य से कार्यों के एक सेट के रूप में हमारा "ऑपरेशन" वास्तविक परिस्थितियों के संबंध में कुछ सर्वोत्तम अर्थों में सैद्धांतिक अनुकूलन विधियों के आधार पर किया जाता है और इन स्थितियों के साथ "संघर्ष" के रूप में माना जा सकता है, जो कार्य करते हैं एक शत्रु"। इस सेटिंग में, हम अपनी सफलता भी "दुश्मन" की क्षति की कीमत पर प्राप्त करते हैं।

हालाँकि, ऑपरेशन अनुसंधान केवल उन मामलों में ऐसी समस्याओं को हल करने का कार्य करता है, जहां ऑपरेशन के दौरान "दुश्मन" की कार्रवाई का तरीका नहीं बदलता है और कुछ हद तक हमें ज्ञात होता है। रणनीति का चुनाव आम तौर पर गारंटीकृत परिणाम के सिद्धांत पर आधारित होता है: दुश्मन चाहे जो भी निर्णय ले, हमें कुछ लाभ की गारंटी होनी चाहिए। हालाँकि, ऐसी संघर्ष की स्थिति शोध का विषय नहीं है और इसे एक पृष्ठभूमि के रूप में माना जाता है जिसके विरुद्ध पार्टियों की कार्रवाई होती है। ऑपरेशन अनुसंधान केवल एक पक्ष की स्थिति लेता है।

गणितीय खेल सिद्धांत भी रणनीति की पसंद का अध्ययन करता है, भले ही हम एक वास्तविक प्रतिद्वंद्वी के बारे में बात कर रहे हों या दूसरा पक्ष प्रकृति द्वारा दर्शाया गया हो, लेकिन यहां दोनों पक्ष समान भागीदार के रूप में कार्य करते हैं। गेम थ्योरी उनके टकराव की गतिशीलता में दोनों पक्षों के व्यवहार के उद्देश्यों को ध्यान में रखते हुए, संघर्ष के आंतरिक सार का अध्ययन करती है।

खेल सिद्धांत में माने जाने वाले औपचारिक खेल बहुत विविध हैं। संचालन अनुसंधान के समान, इष्टतम रणनीतियाँ खोजने के लिए विभिन्न तरीके विकसित किए गए हैं। हालाँकि, इस मामले में, विधि और वास्तविक स्थिति के बीच संबंध बहुत करीब है, अनिवार्य रूप से निर्धारण। खेल की अमूर्त योजना, एक ओर, स्थिति के मॉडल के समान है, दूसरी ओर, यह एक या किसी अन्य औपचारिक पद्धति के अनुप्रयोग के लिए सामग्री है।

प्रत्येक खेल तीन मुख्य मुद्दों को संबोधित करता है:

    इस खेल में प्रत्येक खिलाड़ी का इष्टतम व्यवहार क्या है?

    क्या इष्टतमता की यह समझ साकार हो सकती है? क्या कोई उपयुक्त रणनीतियाँ हैं?

    अगर इष्टतम रणनीतियाँमौजूद हैं, उन्हें कैसे खोजें?

तीनों प्रश्नों के सकारात्मक समाधान के परिणामस्वरूप, समस्या को हल करने और संबंधित मॉडल के निर्माण का मार्ग निर्धारित होता है।

गेम थ्योरी एक बहुत ही युवा अनुशासन है और सैद्धांतिक रूप से विकसित तरीकों और मॉडलों का भंडार संचालन अनुसंधान को बौना बना देता है। यह गेम थ्योरी समस्याओं की महत्वपूर्ण जटिलता में भी परिलक्षित होता है। मॉडलों के संपूर्ण ज्ञात परिसर पर विस्तार से विचार करने का अवसर प्राप्त किए बिना, हम उनमें से केवल कुछ सरलतम मॉडलों का ही उल्लेख करेंगे।

1) शून्य-राशि खेल। खिलाड़ियों की कोई भी रणनीति तब परिणाम की ओर ले जाती है जब एक पक्ष का लाभ दूसरे पक्ष के नुकसान के बराबर होता है। भुगतान मैट्रिक्स में सभी सकारात्मक तत्व हैं, और रणनीतियों के सभी संभावित संयोजनों के लिए, प्रत्येक पक्ष को इष्टतम विकल्प की सिफारिश की जा सकती है। इस प्रकार का खेल विरोधी है.

2) गैर-शून्य योग खेल। सामान्य फ़ॉर्मखेल. यदि पार्टियों के बीच कोई संबंध नहीं है और पार्टियां गठबंधन नहीं बना सकती हैं, तो खेल विरोधी है, अन्यथा यह गैर-विरोधी हितों वाला गठबंधन खेल है। ऐसे खेलों का विश्लेषण अधिकांश मामलों में कठिन होता है, विशेषकर के लिए जटिल प्रणालियाँऔर रणनीतियाँ चुनने की सिफ़ारिशें कई कारकों पर निर्भर करती हैं।

एसीएस स्थितियों में एक महत्वपूर्ण प्रकार गठबंधन या सहकारी खेल हैं। इस तरह के खेल में प्रतिभागियों को कुछ संविदात्मक दायित्वों को पूरा करने की आवश्यकता होती है (जीत का हिस्सा भागीदारों को हस्तांतरित करना, जानकारी का आदान-प्रदान करना, आदि)। इससे उस स्थिति में ऐसे गठबंधन की स्थिरता पर सवाल उठता है जब लाभप्रद स्थिति में एक पक्ष समझौते का उल्लंघन करने की कोशिश करता है। इससे संभावित अलगाववादियों को दंडित करने के लिए एक तीसरी नियंत्रण संस्था शुरू करने का विकल्प सामने आता है। इसके लिए ऐसी लागतों की आवश्यकता होती है जो गठबंधन के लाभ को कम कर दें। जाहिर है, खेल बहुत अधिक जटिल हो जाएगा, लेकिन ऐसे कार्यों का व्यावहारिक मूल्य संदेह से परे है।

व्याख्यान 11: खेल सिद्धांत और निर्णय लेना

गेम थ्योरी का विषय और कार्य

सिस्टम विश्लेषण की क्लासिक समस्याएं जोखिम और अनिश्चितता की स्थितियों में खेल-आधारित निर्णय लेने की समस्याएं हैं।

ऑपरेशन के लक्ष्य, ऑपरेशन को अंजाम देने की शर्तें और विरोधियों या अन्य व्यक्तियों के सचेत कार्य, जिन पर ऑपरेशन की सफलता निर्भर करती है, दोनों अनिश्चित हो सकते हैं।

जोखिम और अनिश्चितता की स्थिति में निर्णयों को उचित ठहराने के लिए विशेष गणितीय तरीके विकसित किए गए हैं। कुछ सरलतम मामलों में, ये विधियाँ वास्तव में इष्टतम समाधान ढूंढना और चुनना संभव बनाती हैं। अधिक जटिल मामलों में, ये विधियाँ सहायक सामग्री प्रदान करती हैं जो आपको जटिल स्थिति को बेहतर ढंग से समझने और प्रत्येक का मूल्यांकन करने की अनुमति देती हैं संभव समाधानविभिन्न दृष्टिकोणों से, और इसके संभावित परिणामों को ध्यान में रखते हुए निर्णय लें। इस मामले में निर्णय लेने की महत्वपूर्ण शर्तों में से एक जोखिम को कम करना है।

संचालन अनुसंधान (पारिस्थितिकी के क्षेत्र में, जीवन सुरक्षा सुनिश्चित करना आदि) में कई व्यावहारिक समस्याओं को हल करते समय, उन स्थितियों का विश्लेषण करना आवश्यक है जिनमें दो (या अधिक) युद्धरत पक्ष टकराते हैं, पीछा करते हुए विभिन्न प्रयोजन, और प्रत्येक पक्ष की किसी भी कार्रवाई का परिणाम इस बात पर निर्भर करता है कि दुश्मन कौन सी कार्रवाई का रास्ता चुनता है। हम ऐसी स्थितियों को इस प्रकार वर्गीकृत कर सकते हैं संघर्ष की स्थितियाँ.

गेम थ्योरी संघर्ष स्थितियों का एक गणितीय सिद्धांत है, जिसकी सहायता से संघर्ष प्रतिभागियों की कार्रवाई के तर्कसंगत पाठ्यक्रम के लिए सिफारिशें विकसित करना संभव है। द्वितीयक कारकों को ध्यान में रखे बिना स्थिति का गणितीय विश्लेषण संभव बनाने के लिए, स्थिति का एक सरलीकृत, योजनाबद्ध मॉडल बनाया जाता है, जिसे कहा जाता है खेल. खेल अच्छी तरह से परिभाषित नियमों के अनुसार खेला जाता है, जिसे खिलाड़ियों के कार्यों के लिए संभावित विकल्पों को विनियमित करने वाली स्थितियों की एक प्रणाली के रूप में समझा जाता है; प्रत्येक पक्ष के पास दूसरे के व्यवहार के बारे में कितनी जानकारी है; खेल का परिणाम जिसमें चालों का प्रत्येक सेट आगे बढ़ता है।

खेल के परिणाम (जीत या हार) की हमेशा मात्रात्मक अभिव्यक्ति नहीं होती है, लेकिन आमतौर पर, कम से कम सशर्त रूप से, इसे संख्यात्मक मान के साथ व्यक्त करना संभव है।

एक चाल खेल के नियमों और उसके कार्यान्वयन द्वारा प्रदान की गई क्रियाओं में से एक का चुनाव है। चालें व्यक्तिगत और यादृच्छिक में विभाजित हैं। इसे व्यक्तिगत कदम बताया गया है सचेत विकल्पमें से एक का खिलाड़ी संभावित विकल्पकार्रवाई और उसका कार्यान्वयन. एक यादृच्छिक चाल कई संभावनाओं में से एक विकल्प है, जो खिलाड़ी के निर्णय से नहीं, बल्कि कुछ यादृच्छिक चयन तंत्र (एक सिक्का उछालना, एक फेंटे हुए डेक से एक कार्ड चुनना, आदि) द्वारा किया जाता है। प्रत्येक यादृच्छिक चाल के लिए, खेल के नियम संभावित परिणामों की संभाव्यता वितरण निर्धारित करते हैं। खेल में केवल उनकी व्यक्तिगत चालें, या केवल यादृच्छिक चालें, या दोनों का संयोजन शामिल हो सकता है। गेम थ्योरी की अगली मुख्य अवधारणा रणनीति की अवधारणा है। एक रणनीति खिलाड़ी द्वारा प्राथमिकता से अपनाई गई निर्णयों की एक प्रणाली है ("यदि-तब" प्रकार की), जिसका वह खेल खेलते समय पालन करता है, जिसे एक एल्गोरिदम के रूप में प्रस्तुत किया जा सकता है और स्वचालित रूप से निष्पादित किया जा सकता है।

गेम थ्योरी का लक्ष्य संघर्ष की स्थिति में खिलाड़ियों के उचित व्यवहार के लिए सिफारिशें विकसित करना है, यानी उनमें से प्रत्येक के लिए "इष्टतम रणनीति" निर्धारित करना है। एक रणनीति जो एक संकेतक के लिए इष्टतम है, जरूरी नहीं कि वह दूसरों के लिए भी इष्टतम हो। इन सीमाओं के बारे में जागरूक होने और इसलिए गेम विधियों द्वारा प्राप्त सिफारिशों का आंख मूंदकर पालन न करने पर, कोई व्यक्ति अभी भी गेम थ्योरी के गणितीय तंत्र का उपयोग विकसित करने के लिए बुद्धिमानी से कर सकता है, यदि बिल्कुल इष्टतम नहीं है, तो कम से कम एक "स्वीकार्य" रणनीति।

खेलवर्गीकृत किया जा सकता है: खिलाड़ियों की संख्या, रणनीतियों की संख्या, खिलाड़ियों के बीच बातचीत की प्रकृति, जीतने की प्रकृति, चालों की संख्या, सूचना की स्थिति आदि के आधार पर। .

खिलाड़ियों की संख्या पर निर्भर करता हैदो और n खिलाड़ियों के खेल हैं। उनमें से पहले का सबसे अधिक अध्ययन किया गया है। मूलभूत कठिनाइयों और समाधान प्राप्त करने की तकनीकी संभावनाओं के कारण तीन या अधिक खिलाड़ियों के खेलों का कम अध्ययन किया गया है।

संभावित रणनीतियों की संख्या के आधार पर, खेलों को "में विभाजित किया गया है" अंतिम" और " अनंत».

एक खेल को परिमित कहा जाता है यदि प्रत्येक खिलाड़ी के पास केवल सीमित संख्या में रणनीतियाँ हों, और अनंत तब कहा जाता है यदि कम से कम एक खिलाड़ी के पास रणनीतियों की अनंत संख्या हो।

बातचीत की प्रकृति सेखेलों को गैर-गठबंधन खेलों में विभाजित किया गया है: खिलाड़ियों को समझौते में प्रवेश करने या गठबंधन बनाने का अधिकार नहीं है; गठबंधन (सहकारी) - गठबंधन में शामिल हो सकते हैं।

में सहकारी खेलअहा गठबंधन पूर्व निर्धारित हैं।

जीत की प्रकृति सेखेलों को विभाजित किया गया है: शून्य-राशि वाले खेल (सभी खिलाड़ियों की कुल पूंजी नहीं बदलती है, लेकिन खिलाड़ियों के बीच पुनर्वितरित होती है; सभी खिलाड़ियों की जीत का योग शून्य है) और गैर-शून्य-राशि वाले खेल।

अदायगी कार्यों के प्रकार सेखेलों को विभाजित किया गया है: मैट्रिक्स, बिमैट्रिक्स, निरंतर, उत्तल, आदि।

आव्यूहखेल दो खिलाड़ियों का एक सीमित शून्य-राशि वाला खेल है, जिसमें खिलाड़ी 1 का भुगतान एक मैट्रिक्स के रूप में दिया जाता है (मैट्रिक्स की पंक्ति खिलाड़ी 1 की लागू रणनीति की संख्या से मेल खाती है, कॉलम - द खिलाड़ी की लागू रणनीति की संख्या; मैट्रिक्स की पंक्ति और स्तंभ के चौराहे पर लागू रणनीतियों के अनुरूप खिलाड़ी 1 का भुगतान होता है)।

मैट्रिक्स गेम के लिए, यह साबित हो चुका है कि उनमें से किसी के पास एक समाधान है और इसे गेम को एक रैखिक प्रोग्रामिंग समस्या में बदलकर आसानी से पाया जा सकता है।

बिमैट्रिक्सखेल गैर-शून्य राशि वाले दो खिलाड़ियों का एक सीमित खेल है, जिसमें प्रत्येक खिलाड़ी का भुगतान संबंधित खिलाड़ी के लिए अलग-अलग मैट्रिक्स द्वारा निर्दिष्ट किया जाता है (प्रत्येक मैट्रिक्स में, पंक्ति खिलाड़ी 1 की रणनीति से मेल खाती है, कॉलम को खिलाड़ी 2 की रणनीति, पहले मैट्रिक्स में पंक्ति और स्तंभ के प्रतिच्छेदन पर खिलाड़ी 1 का भुगतान है, दूसरे मैट्रिक्स में - खिलाड़ी की जीत)

निरंतरएक खेल वह माना जाता है जिसमें प्रत्येक खिलाड़ी का भुगतान कार्य निरंतर होता है। यह सिद्ध हो चुका है कि इस वर्ग के खेलों में समाधान हैं, लेकिन उन्हें खोजने के लिए कोई व्यावहारिक रूप से स्वीकार्य तरीका विकसित नहीं किया गया है।

यदि अदायगी फलन उत्तल है, तो ऐसे खेल को कहा जाता है उत्तल. उनके लिए स्वीकार्य समाधान विधियां विकसित की गई हैं, जिसमें एक खिलाड़ी के लिए शुद्ध इष्टतम रणनीति (एक निश्चित संख्या) ढूंढना और दूसरे खिलाड़ी की शुद्ध इष्टतम रणनीतियों का उपयोग करने की संभावनाएं शामिल हैं। यह समस्या अपेक्षाकृत आसानी से हल हो जाती है।

एक मैट्रिक्स गेम को पेऑफ मैट्रिक्स के रूप में लिखना

चलो गौर करते हैं अंतिम खेल, जिसमें पहले खिलाड़ी A के पास m रणनीतियाँ हैं, और दूसरे के पास खिलाड़ी बी-एनरणनीतियाँ। इस गेम को m×n गेम कहा जाता है। आइए हम रणनीतियों को निरूपित करें ए 1 , ए 2 , ..., ए एम ; और बी 1, बी 2, ..., बी एन। आइए मान लें कि प्रत्येक पक्ष ने एक निश्चित रणनीति चुनी है: ए आई या बी जे। यदि खेल में केवल व्यक्तिगत चालें शामिल हैं, तो रणनीतियों का चुनाव विशिष्ट रूप से खेल के परिणाम को निर्धारित करता है - किसी एक पक्ष की जीत। यदि खेल में व्यक्तिगत के अलावा, यादृच्छिक चालें शामिल हैं, तो रणनीतियों ए आई और बी की एक जोड़ी के लिए भुगतान सभी यादृच्छिक चालों के परिणामों के आधार पर एक यादृच्छिक चर है। इस मामले में, अपेक्षित लाभ का प्राकृतिक अनुमान यादृच्छिक लाभ की गणितीय अपेक्षा है, जिसे आईजे द्वारा भी दर्शाया जाता है।

आइए मान लें कि हम रणनीतियों की प्रत्येक जोड़ी के लिए एक आईजे के मूल्यों को जानते हैं। इन मानों को एक आयताकार तालिका (मैट्रिक्स) के रूप में लिखा जा सकता है, जिनमें से पंक्तियाँ रणनीतियों ए आई के अनुरूप हैं, और कॉलम रणनीतियों बी जे के अनुरूप हैं।

फिर, सामान्य तौर पर, मैट्रिक्स गेम को निम्नलिखित भुगतान मैट्रिक्स के रूप में लिखा जा सकता है:

बी 1 बी 2 ... बटालियन
ए 1 एक 11 एक 12 ... एक 1एन
ए 2 एक 21 एक 22 ... एक 2एन
... ... ... ... ...
पूर्वाह्न एक एम1 एक एम2 ... एक एम.एन

तालिका - मैट्रिक्स गेम के भुगतान मैट्रिक्स का सामान्य दृश्य

जहां A i खिलाड़ी 1 की रणनीतियों के नाम हैं, B j खिलाड़ी 2 की रणनीतियों के नाम हैं, a ij खिलाड़ी 1 के भुगतान मूल्य हैं जब वह i-th रणनीति चुनता है, और खिलाड़ी 2 - जे-वें रणनीति. चूँकि यह गेम एक शून्य-राशि वाला खेल है, खिलाड़ी 2 के लिए भुगतान मूल्य खिलाड़ी 1 के लिए भुगतान मूल्य के विपरीत संकेत है।

खेल की निचली और ऊपरी कीमत की अवधारणा। शुद्ध रणनीतियों में खेल का समाधान

प्रत्येक खिलाड़ी विरोधी खिलाड़ी के व्यवहार को ध्यान में रखते हुए अपनी जीत को अधिकतम करने का प्रयास करता है। इसलिए, खिलाड़ी 1 के लिए प्रत्येक रणनीति में न्यूनतम भुगतान मूल्य निर्धारित करना आवश्यक है, और फिर इन मूल्यों में से अधिकतम ज्ञात करें, अर्थात मूल्य निर्धारित करें

वी एन = अधिकतम आई न्यूनतम जे ए आईजे

या भुगतान मैट्रिक्स की प्रत्येक पंक्ति के लिए न्यूनतम मान ज्ञात करें, और फिर इन मानों की अधिकतम सीमा निर्धारित करें। मान V n कहा जाता है अधिकतममैट्रिक्स या खेल की कम कीमत. खिलाड़ी की रणनीति जो मैक्सिमम वी एन से मेल खाती है उसे मैक्सिमम रणनीति कहा जाता है।

जाहिर है, अगर हम मैक्सिमम रणनीति का पालन करते हैं, तो दुश्मन के व्यवहार की परवाह किए बिना हमें वीएन से कम जीत की गारंटी नहीं है। इसलिए, वीएन का मूल्य गारंटीकृत न्यूनतम है जिसे हम अपनी सबसे सतर्क रणनीति का पालन करके स्वयं प्रदान कर सकते हैं।

मैट्रिक्स गेम की परिभाषा के अनुसार, खिलाड़ी 1 के लाभ का मूल्य, खिलाड़ी के नुकसान की मात्रा के बराबर है, इसलिए, खिलाड़ी 2 के लिए मूल्य निर्धारित करना आवश्यक है

वी इन = न्यूनतम जे अधिकतम आई ए आईजे

या भुगतान मैट्रिक्स के प्रत्येक कॉलम के लिए अधिकतम मान ढूंढें, और फिर इन मानों का न्यूनतम निर्धारण करें। में मान V कहा जाता है अल्पमहिष्ठमैट्रिक्स, खेल की शीर्ष कीमतया न्यूनतम जीत। प्रतिद्वंद्वी की जीतने की रणनीति को उसकी मिनिमैक्स रणनीति कहा जाता है। अपनी सबसे सतर्क मिनिमैक्स रणनीति का पालन करके, प्रतिद्वंद्वी को गारंटी दी जाती है कि किसी भी स्थिति में वह वी सेंचुरी से अधिक नहीं खोएगा।

यदि वी एन और वी इन के मान मेल नहीं खाते हैं, तो लंबे समय तक खेल के नियमों (गुणांक ए आईजे) को बनाए रखते हुए, प्रत्येक खिलाड़ी द्वारा रणनीतियों की पसंद अस्थिर हो जाती है। यह तभी स्थिरता प्राप्त करता है जब V n = V c = V होता है। इस मामले में, वे कहते हैं कि खेल में है शुद्ध रणनीतियों में समाधान, और वे रणनीतियाँ जिनमें V प्राप्त किया जाता है इष्टतम शुद्ध रणनीतियाँ. मात्रा V कहलाती है खेल की शुद्ध कीमत पर .

उदाहरण के लिए, एक मैट्रिक्स में:

बी 1 बी 2 बी 3 बी 4 मिन जे
ए 1 17 16 15 14 14
ए 2 11 18 12 13 11
ए 3 18 11 13 12 11
अधिकतम मैं 18 18 15 14

तालिका - भुगतान मैट्रिक्स जिसमें शुद्ध रणनीतियों में समाधान है

शुद्ध रणनीतियों में ही समाधान है. इस मामले में, खिलाड़ी 1 के लिए इष्टतम शुद्ध रणनीति रणनीति ए 1 होगी, और खिलाड़ी 2 के लिए - रणनीति बी 4।

मैट्रिक्स में, शुद्ध रणनीतियों में कोई समाधान नहीं है, क्योंकि गेम की कम कीमत रणनीति ए 1 में हासिल की जाती है और इसका मूल्य 12 है, जबकि गेम की ऊपरी कीमत रणनीति बी 4 में हासिल की जाती है और इसका मूल्य 13 है।

बी 1 बी 2 बी 3 बी 4 मिन जे
ए 1 17 16 15 12 12
ए 2 11 18 12 13 11
ए 3 18 11 13 12 11
अधिकतम मैं 18 18 15 13

तालिका - भुगतान मैट्रिक्स जिसमें शुद्ध रणनीतियों में कोई समाधान नहीं है

अदायगी मैट्रिक्स के क्रम को कम करना

प्रभुत्व और डुप्लिकेट रणनीतियों को समाप्त करके भुगतान मैट्रिक्स (पंक्तियों और स्तंभों की संख्या) के क्रम को कम किया जा सकता है।

रणनीति K* कहलाती है प्रभुत्वरणनीति K**, यदि विरोधी खिलाड़ी के व्यवहार के किसी भी प्रकार के लिए संबंध संतुष्ट है

एके*< A k** ,

जब खिलाड़ी क्रमशः K* और K** रणनीतियों को चुनता है तो A k* और A k** भुगतान मूल्य होते हैं।

अगर रिश्ता संतुष्ट है

रणनीति K* को रणनीति K** के संबंध में डुप्लिकेट कहा जाता है।

उदाहरण के लिए, प्रभुत्व वाली और डुप्लिकेट रणनीतियों वाले मैट्रिक्स में, रणनीति ए 1 को रणनीति ए 2 पर हावी किया जाता है, रणनीति बी 6 को रणनीति बी 3, बी 4 और बी 5 पर हावी किया जाता है, और रणनीति बी 5 को रणनीति बी 4 द्वारा दोहराया जाता है।

बी 1 बी 2 बी 3 बी 4 बी 5 बी 6
ए 1 1 2 3 4 4 7
ए 2 7 6 5 4 4 8
ए 3 1 8 2 3 3 6
ए 4 8 1 3 2 2 5

तालिका - प्रभुत्व और डुप्लिकेट रणनीतियों के साथ भुगतान मैट्रिक्स

इन रणनीतियों को खिलाड़ियों द्वारा नहीं चुना जाएगा, क्योंकि वे स्पष्ट रूप से हार रहे हैं और भुगतान मैट्रिक्स से इन रणनीतियों को हटाने से इस मैट्रिक्स द्वारा वर्णित खेल की निचली और ऊपरी कीमतों के निर्धारण पर कोई प्रभाव नहीं पड़ेगा।

भुगतान मैट्रिक्स के आयाम को कम करने के बाद प्राप्त गैर-प्रभुत्व वाली रणनीतियों के सेट को पेरेटो सेट भी कहा जाता है।

खेलों के उदाहरण

1. खेल "चिकन"

चिकन के खेल में खिलाड़ी आपस में बातचीत में शामिल होते हैं जिसके परिणामस्वरूप प्रत्येक खिलाड़ी को तब तक गंभीर नुकसान होता है जब तक कि एक खिलाड़ी खेल नहीं छोड़ देता। इस गेम के उपयोग का एक उदाहरण वाहनों की परस्पर क्रिया है, उदाहरण के लिए, ऐसी स्थिति जहां दो कारें एक-दूसरे की ओर जा रही हैं, और जो पहले मुड़ती है उसे "कमजोर" या "चिकन" माना जाता है। खेल का उद्देश्य तनाव पैदा करना है जो खिलाड़ी को बाहर कर देगा। यह स्थिति अक्सर किशोरों या आक्रामक युवाओं में पाई जाती है, हालांकि कभी-कभी इसमें जोखिम कम होता है। इस गेम का एक अन्य अनुप्रयोग एक ऐसी स्थिति है जिसमें दो राजनीतिक दलऐसे संपर्क में आते हैं जिसमें उन्हें कुछ हासिल नहीं होता और केवल अहंकार ही उन्हें विरोध बनाए रखने के लिए मजबूर करता है। अंतिम बिंदु तक पहुंचने तक पार्टियां रियायतें देने से झिझकती हैं। परिणामी मनोवैज्ञानिक तनाव किसी एक खिलाड़ी को गलत व्यवहार रणनीति की ओर ले जा सकता है: यदि कोई भी खिलाड़ी हार नहीं मानता है, तो टकराव और घातक परिणाम अपरिहार्य है।

गेम का भुगतान मैट्रिक्स इस तरह दिखता है:

हार मानना हार मत मानो
हार मानना 0, 0 -1, +1
हार मत मानो +1, -1 -100, -100

2. खेल "पतंग और कबूतर"

खेल "पतंग और कबूतर" एक खेल का जैविक उदाहरण है। इस संस्करण में, असीमित संसाधनों वाले दो खिलाड़ी दो रणनीतियों में से एक को चुनते हैं। पहले ("कबूतर") में खिलाड़ी प्रतिद्वंद्वी को डराकर अपनी ताकत का प्रदर्शन करता है, और दूसरे ("पतंग") में खिलाड़ी प्रतिद्वंद्वी पर शारीरिक हमला करता है। यदि दोनों खिलाड़ी "पतंग" रणनीति चुनते हैं, तो वे लड़ते हैं, एक दूसरे को घायल करते हैं। यदि खिलाड़ियों में से एक "पतंग" रणनीति चुनता है, और दूसरा "कबूतर" चुनता है, तो पहला दूसरे को हरा देता है। यदि दोनों खिलाड़ी "कबूतर" हैं, तो प्रतिद्वंद्वी समझौता कर लेते हैं, और उन्हें ऐसा भुगतान मिलता है जो "कबूतर" को हराने वाले "पतंग" के भुगतान से कम होता है, जैसा कि इस खेल के भुगतान मैट्रिक्स से होता है।

यहां V समझौते की कीमत है, C संघर्ष की कीमत है, और V

पतंग और कबूतर के खेल में तीन नैश संतुलन बिंदु होते हैं:

  1. पहला खिलाड़ी "पतंग" चुनता है, और दूसरा "कबूतर" चुनता है।
  2. पहला खिलाड़ी "कबूतर" चुनता है, और दूसरा "पतंग" चुनता है।
  3. दोनों खिलाड़ी एक मिश्रित रणनीति चुनते हैं जिसमें "पतंग" को प्रायिकता पी के साथ चुना जाता है, और "कबूतर" को प्रायिकता 1-पी के साथ चुना जाता है।

3. कैदी की दुविधा

कैदी की दुविधा गेम थ्योरी में मानी जाने वाली सबसे आम संघर्ष स्थितियों में से एक है।

क्लासिक कैदी की दुविधा इस प्रकार है: दो संदिग्ध, ए और बी, अलग-अलग कोशिकाओं में हैं। अन्वेषक, उनके पास व्यक्तिगत रूप से जाकर, निम्नलिखित सौदे की पेशकश करता है: यदि उनमें से एक दूसरे के खिलाफ गवाही देता है, और दूसरा चुप रहता है, तो पहले कैदी को रिहा कर दिया जाएगा, और दूसरे को 10 साल की सजा दी जाएगी। अगर दोनों चुप रहे तो 6 महीने की सजा होगी. यदि दोनों एक दूसरे के साथ विश्वासघात करेंगे तो प्रत्येक को 2 वर्ष की सजा होगी। प्रत्येक कैदी को निर्णय लेना होगा: अपने साथी को धोखा देना या चुप रहना, बिना यह जाने कि दूसरे ने क्या निर्णय लिया। दुविधा: कैदी क्या निर्णय लेंगे?

गेम भुगतान मैट्रिक्स:

में इस मामले में, परिणाम प्रत्येक कैदी के निर्णय पर आधारित है। खिलाड़ियों की स्थिति इस तथ्य से जटिल है कि वे नहीं जानते कि दूसरे ने क्या निर्णय लिया है, और इस तथ्य से कि वे एक-दूसरे पर भरोसा नहीं करते हैं।

खिलाड़ियों के लिए सबसे अच्छी रणनीति सहयोग होगी, जिसमें दोनों चुप रहें और अधिकतम भुगतान (छोटी अवधि) प्राप्त करें, प्रत्येक दूसरे का समाधान कम जीत-जीत वाला होगा।

आइए हम "कैदी की दुविधा" का विश्लेषण करें, विहित फॉर्म के भुगतान मैट्रिक्स की स्पष्टता के लिए आगे बढ़ें:

सहयोग सहयोग करने से इंकार
सहयोग 3, 3 0, 5
सहयोग करने से इंकार 5, 0 1, 1

इस मैट्रिक्स के अनुसार, सहयोग करने से पारस्परिक इनकार की लागत (एस) प्रत्येक खिलाड़ी के लिए 1 अंक है, सहयोग की लागत (आर) 3 अंक है, और दूसरे को धोखा देने के प्रलोभन की लागत (टी) 5 अंक है। हम निम्नलिखित असमानता लिख ​​सकते हैं: टी > आर > एस। खेल को कई बार दोहराते समय, सहयोग का विकल्प विश्वासघात करने और अधिकतम जीत पाने के प्रलोभन से अधिक होता है: 2 आर > टी + एस।

नैश संतुलन।

नैश संतुलन एक ऐसी स्थिति है जहां किसी भी खिलाड़ी को किसी अन्य खिलाड़ी (किसी अन्य फर्म) की रणनीति को देखते हुए अपनी रणनीति बदलने के लिए प्रोत्साहन नहीं मिलता है, जिससे खिलाड़ियों को समझौता समाधान तक पहुंचने की अनुमति मिलती है।

नैश संतुलन की परिभाषा और उसके अस्तित्व को इस प्रकार परिभाषित किया गया है।

मान लीजिए (S, f) एक खेल है जिसमें S रणनीतियों का सेट है और f भुगतान का सेट है। जब प्रत्येक खिलाड़ी i ∈ (1, ..., n) रणनीति x i &isin S चुनता है, जहां x = (x 1 , ..., x n) होता है, तो खिलाड़ी i को i (x) का भुगतान प्राप्त होता है। जीतना सभी खिलाड़ियों द्वारा चुनी गई रणनीति पर निर्भर करता है। एक रणनीति x* ∈ S एक नैश संतुलन है यदि किसी एक खिलाड़ी द्वारा इससे कोई विचलन नहीं होने पर उसे लाभ मिलता है, अर्थात, सभी i के लिए निम्नलिखित असमानता होती है:

f i (x*) ≥ f i (x i , x* -i)

उदाहरण के लिए, कैदी की दुविधा खेल में एक नैश संतुलन होता है - एक ऐसी स्थिति जिसमें दोनों कैदी एक-दूसरे को धोखा देते हैं।

नैश संतुलन को निर्धारित करने का सबसे आसान तरीका भुगतान मैट्रिक्स का उपयोग करना है, खासकर उन मामलों में जहां खेल में दो खिलाड़ी शामिल होते हैं जिनके शस्त्रागार में दो से अधिक रणनीतियां होती हैं। चूँकि इस मामले में औपचारिक विश्लेषण काफी जटिल होगा, एक स्मरणीय नियम लागू किया जाता है, जो इस प्रकार है: भुगतान मैट्रिक्स का एक सेल नैश संतुलन का प्रतिनिधित्व करता है यदि इसमें पहला नंबर प्रस्तुत सभी मूल्यों के बीच अधिकतम है कॉलम में, और सेल में खड़ा दूसरा नंबर, सभी पंक्तियों में अधिकतम संख्या है।

उदाहरण के लिए, इस नियम को 3x3 मैट्रिक्स पर लागू करें:

बी सी
0, 0 25, 40 5, 10
बी 40, 25 0, 0 5, 15
सी 10, 5 15, 5 10, 10

नैश संतुलन बिंदु: (बी,ए), (ए,बी) और (सी,सी)। दरअसल, सेल (बी,ए) के लिए, 40 के बाद से - अधिकतम मूल्यपहले कॉलम में, 25 दूसरी पंक्ति में अधिकतम मान है। सेल (ए,बी) के लिए, 25 दूसरे कॉलम में अधिकतम मान है, 40 दूसरी पंक्ति में अधिकतम मान है। यही बात सेल (सी,सी) के लिए भी लागू होती है।

आइए प्रदूषण के खेल का एक उदाहरण देखें ( पर्यावरण). यहां हमारे ध्यान का उद्देश्य यही दृश्य होगा दुष्प्रभावप्रदूषण के रूप में उत्पादन यदि कंपनियां कभी किसी से नहीं पूछतीं कि क्या करना है, तो उनमें से कोई भी महंगे प्यूरीफायर लगाने के बजाय प्रदूषण पैदा करना पसंद करेगा। यदि कोई कंपनी हानिकारक उत्सर्जन को कम करने का निर्णय लेती है, तो लागत और, परिणामस्वरूप, उसके उत्पादों की कीमतें बढ़ जाएंगी और मांग गिर जाएगी। यह बहुत संभव है कि यह कंपनी दिवालिया हो जायेगी। प्राकृतिक चयन की क्रूर दुनिया में रहते हुए, कंपनियां नैश संतुलन (सेल डी) में रहना पसंद करेंगी, जिसमें उपचार सुविधाओं और प्रौद्योगिकियों पर पैसा खर्च करने की कोई आवश्यकता नहीं है। कोई भी कंपनी प्रदूषण कम करके मुनाफा नहीं बढ़ा पाएगी।

दृढ़ 1
दृढ़ 2 कम प्रदूषण प्रदूषण का उच्च स्तर
कम प्रदूषण
100,100
में
-30,120
प्रदूषण का उच्च स्तर साथ
120,-30
डी
100,100

तालिका - पर्यावरण प्रदूषण खेल का भुगतान मैट्रिक्स।

एक बार आर्थिक खेल में, प्रत्येक अनियमित, अधिकतम लाभ कमाने वाली स्टील फर्म जल और वायु प्रदूषण पैदा करेगी। यदि कोई फर्म अपने उत्सर्जन को साफ़ करने की कोशिश करती है, तो उसे कीमतें बढ़ाने और नुकसान उठाने के लिए मजबूर होना पड़ेगा। उच्च उत्सर्जन स्थितियों के तहत असहयोगी व्यवहार नैश संतुलन स्थापित करेगा। सरकार यह सुनिश्चित करने के लिए उपाय कर सकती है कि संतुलन सेल ए में चला जाए। इस स्थिति में, प्रदूषण नगण्य होगा, लेकिन मुनाफा वही रहेगा।

प्रदूषण खेल उन मामलों में से एक है जहां "अदृश्य हाथ" का तंत्र काम नहीं करता है। यह एक ऐसी स्थिति है जहां नैश संतुलन अक्षम है। कभी-कभी ऐसे अनियंत्रित खेल खतरनाक हो जाते हैं और सरकार हस्तक्षेप कर सकती है। उत्सर्जन जुर्माने और कोटा की एक प्रणाली स्थापित करके, सरकार कंपनियों को परिणाम ए चुनने के लिए प्रेरित कर सकती है, जो कि अनुरूप है कम स्तरप्रदूषण। कंपनियां बड़े उत्सर्जन के साथ बिल्कुल पहले की तरह ही कमाती हैं, और दुनिया कुछ हद तक साफ हो जाती है।

शुद्ध रणनीतियों में मैट्रिक्स गेम को हल करने का एक उदाहरण

आइए वास्तविक अर्थव्यवस्था में, शुद्ध रणनीतियों में मैट्रिक्स गेम को हल करने के एक उदाहरण पर विचार करें, ऐसी स्थिति में जहां दो उद्यम एक क्षेत्र के उत्पादों के लिए बाजार के लिए लड़ रहे हैं।

काम।

दो उद्यम उत्पाद तैयार करते हैं और उन्हें क्षेत्रीय बाजार में आपूर्ति करते हैं। वे इस क्षेत्र में उत्पादों के एकमात्र आपूर्तिकर्ता हैं, इसलिए वे क्षेत्र में इन उत्पादों के लिए बाजार का पूरी तरह से निर्धारण करते हैं।

प्रत्येक उद्यम के पास तीन में से किसी एक का उपयोग करके उत्पाद तैयार करने की क्षमता है विभिन्न प्रौद्योगिकियाँ. तकनीकी प्रक्रिया की पर्यावरण मित्रता और प्रत्येक तकनीक द्वारा उत्पादित उत्पादों की गुणवत्ता के आधार पर, उद्यम इकाई मूल्य क्रमशः 10, 6 और 2 मौद्रिक इकाइयाँ निर्धारित कर सकते हैं। साथ ही, उद्यमों की उत्पादन की प्रति इकाई अलग-अलग लागत होती है।

तालिका - क्षेत्र (इकाइयों) में उद्यमों में उत्पादित उत्पादों की प्रति इकाई लागत।

क्षेत्रीय उत्पाद बाजार के विपणन अनुसंधान के परिणामस्वरूप, उत्पादों की मांग का कार्य निर्धारित किया गया था:

वाई = 6 - 0.5⋅X,

जहां Y उन उत्पादों की मात्रा है जो क्षेत्र की आबादी (हजार इकाइयां) खरीदेगी, और X उद्यमों के उत्पादों, इकाई इकाइयों की औसत कीमत है।

बिक्री मूल्यों के आधार पर उत्पादों की मांग का डेटा तालिका में दिया गया है:

बिक्री मूल्य 1 इकाई. उत्पाद, उदा.

1 यूनिट का औसत विक्रय मूल्य. उत्पाद, उदा.

उत्पादों की मांग, हजार इकाइयां

उद्यम 1 उद्यम 2
10 10 10 1
10 6 8 2
10 2 6 3
6 10 8 2
6 6 6 3
6 2 4 4
2 10 6 3
2 6 4 4
2 2 2 5

तालिका - क्षेत्र में उत्पादों की मांग, हजार इकाइयां।

जनसंख्या द्वारा खरीदे गए उद्यम 1 के उत्पादों के हिस्से का मूल्य उद्यम 1 और उद्यम के उत्पादों की कीमतों के अनुपात पर निर्भर करता है, विपणन अनुसंधान के परिणामस्वरूप, यह निर्भरता स्थापित की गई और मूल्यों की गणना की गई :

तालिका - उत्पाद की कीमतों के अनुपात के आधार पर जनसंख्या द्वारा खरीदे गए उद्यम 1 उत्पादों का हिस्सा

समस्या के अनुसार, क्षेत्रीय बाज़ार में केवल 2 उद्यम कार्यरत हैं। इसलिए, जनसंख्या द्वारा खरीदे गए दूसरे उद्यम के उत्पादों का हिस्सा, उत्पाद की कीमतों के अनुपात के आधार पर, पहले उद्यम के हिस्से को घटाकर एक के रूप में परिभाषित किया जा सकता है।

इस समस्या में उद्यमों की रणनीतियाँ उत्पादन प्रौद्योगिकियों के संबंध में उनके निर्णय हैं। ये निर्णय उत्पादन की प्रति इकाई लागत और बिक्री मूल्य निर्धारित करते हैं। कार्य में यह निर्धारित करना आवश्यक है:

  1. क्या दोनों उद्यमों के लिए उत्पादन तकनीक चुनते समय इस समस्या में संतुलन की स्थिति है?
  2. क्या ऐसी प्रौद्योगिकियाँ हैं जिन्हें उद्यम स्पष्ट रूप से लाभहीनता के कारण नहीं चुनेंगे?
  3. संतुलन स्थिति में कितना उत्पादन बेचा जाएगा? कौन सी कंपनी फायदे की स्थिति में रहेगी?

समस्या का समाधान

  1. आइए हम समस्या के भुगतान मैट्रिक्स में विजेता गुणांकों का आर्थिक अर्थ निर्धारित करें। प्रत्येक उद्यम उत्पादन से अधिकतम लाभ कमाने का प्रयास करता है। लेकिन इसके अलावा, इस मामले में, उद्यम क्षेत्र में उत्पाद बाजार के लिए लड़ रहे हैं। इस मामले में, एक उद्यम के लाभ का मतलब दूसरे का नुकसान है। ऐसी समस्या को शून्य-राशि मैट्रिक्स गेम में कम किया जा सकता है। इस मामले में, विजेता गुणांक उत्पादन से उद्यम 1 और उद्यम 2 के मुनाफे के बीच का अंतर होगा। यदि यह अंतर सकारात्मक है, तो एंटरप्राइज़ 1 जीतता है, और यदि यह नकारात्मक है, तो एंटरप्राइज़ 2 जीतता है।
  2. आइए भुगतान मैट्रिक्स के विजेता गुणांक की गणना करें। ऐसा करने के लिए, उत्पादन से उद्यम 1 और उद्यम 2 के लाभ मूल्यों को निर्धारित करना आवश्यक है।

इस समस्या में उद्यम का लाभ इस पर निर्भर करता है:

  • उत्पादन की कीमत और लागत पर;
  • क्षेत्र की जनसंख्या द्वारा खरीदे गए उत्पादों की मात्रा पर;
  • उद्यम से जनसंख्या द्वारा खरीदे गए उत्पादों के हिस्से से।

इस प्रकार, भुगतान मैट्रिक्स के गुणांक के अनुरूप उद्यमों के लाभ में अंतर का मान सूत्र का उपयोग करके निर्धारित किया जाना चाहिए:

डी = पी⋅(एस⋅आर1 - एस⋅सी1) - (1 - पी)⋅(एस⋅आर2 - एस⋅सी2),

जहां डी उद्यम 1 और उद्यम उत्पादों के उत्पादन से लाभ में अंतर है

पी क्षेत्र की आबादी द्वारा खरीदे गए उद्यम 1 के उत्पादों का हिस्सा है;

एस क्षेत्र की आबादी द्वारा खरीदे गए उत्पादों की मात्रा है;

आर1 और आर2 - उद्यमों 1 और द्वारा उत्पादन की प्रति इकाई बिक्री मूल्य

सी1 और सी2 - उद्यम 1 और में उत्पादित उत्पादन की एक इकाई की कुल लागत

आइए भुगतान मैट्रिक्स के गुणांकों में से एक की गणना करें।

उदाहरण के लिए, उद्यम 1 प्रौद्योगिकी III के अनुसार उत्पादों का उत्पादन करने का निर्णय लेता है, और उद्यम 2 - प्रौद्योगिकी II के अनुसार। फिर प्रति यूनिट विक्रय मूल्य। एंटरप्राइज़ 1 के लिए उत्पादों की मात्रा 2 इकाइयाँ होंगी। इकाई लागत पर. उत्पाद 1.5 इकाइयाँ एंटरप्राइज़ 2 के लिए, प्रति यूनिट विक्रय मूल्य। उत्पाद 6 इकाइयाँ होंगी। 4.00 की कीमत पर.

उत्पादों की वह मात्रा जो क्षेत्र की जनसंख्या 4 इकाइयों की औसत कीमत पर खरीदेगी, 4 हजार इकाइयों के बराबर है। (तालिका नंबर एक)। उद्यम 1 से जनसंख्या जो उत्पाद खरीदेगी उसका हिस्सा 0.85 होगा, और उद्यम 2 से - 0.15 (तालिका 1.3)। आइए सूत्र का उपयोग करके भुगतान मैट्रिक्स 32 के गुणांक की गणना करें:

a 32 = 0.85⋅(4⋅2 - 4×1.5) - 0.15⋅(4⋅6 - 4⋅4) = 0.5 हजार यूनिट।

जहां i=3 पहले उद्यम की प्रौद्योगिकी संख्या है, और j=2 दूसरे उद्यम की प्रौद्योगिकी संख्या है।

इसी प्रकार, हम भुगतान मैट्रिक्स के सभी गुणांकों की गणना करते हैं। भुगतान मैट्रिक्स में, रणनीतियाँ ए 1 - ए 3 - उद्यम 1 के लिए उत्पादन प्रौद्योगिकियों के बारे में निर्णयों का प्रतिनिधित्व करती हैं, रणनीतियाँ बी 1 - बी 3 - उद्यम 2 के लिए उत्पादन प्रौद्योगिकियों के बारे में निर्णय, जीतने वाले गुणांक - उद्यम 1 और उद्यम के मुनाफे के बीच का अंतर

बी 1 बी 2 बी 3 मिन जे
ए 1 0,17 0,62 0,24 0,17
ए 2 0,3 -1,5 -0,8 -1
ए 3 0,9 0,5 0,4 0,4
अधिकतम मैं 3 0,62 0,4

तालिका - खेल में भुगतान मैट्रिक्स "दो उद्यमों के बीच संघर्ष"।

इस मैट्रिक्स में कोई प्रभावी या अतिव्यापी रणनीतियाँ नहीं हैं। इसका मतलब यह है कि दोनों उद्यमों के लिए कोई स्पष्ट रूप से लाभहीन उत्पादन प्रौद्योगिकियां नहीं हैं। आइए मैट्रिक्स पंक्तियों के न्यूनतम तत्व निर्धारित करें। एंटरप्राइज़ 1 के लिए, उचित रणनीति चुनते समय इनमें से प्रत्येक तत्व में न्यूनतम गारंटीकृत लाभ का मूल्य होता है। पंक्ति द्वारा मैट्रिक्स के न्यूनतम तत्वों में निम्नलिखित मान हैं: 0.17, -1.5, 0.4।

आइए मैट्रिक्स कॉलम के अधिकतम तत्व निर्धारित करें। एंटरप्राइज़ 2 के लिए, उपयुक्त रणनीति चुनते समय इनमें से प्रत्येक तत्व में न्यूनतम गारंटीकृत लाभ का मूल्य भी होता है। कॉलम के अनुसार अधिकतम मैट्रिक्स तत्वों में निम्नलिखित मान हैं: 3, 0.62, 0.4।

मैट्रिक्स में गेम की निचली कीमत 0.4 है। गेम की टॉप कीमत भी 0.4 है। इस प्रकार, मैट्रिक्स में गेम की निचली और ऊपरी कीमत समान हैं। इसका मतलब यह है कि उत्पादों के उत्पादन के लिए एक ऐसी तकनीक है जो किसी दिए गए कार्य की शर्तों के तहत दोनों उद्यमों के लिए इष्टतम है। यह प्रौद्योगिकी III है, जो उद्यम 1 की रणनीतियों ए 3 और उद्यम रणनीतियों बी 3 से मेल खाती है ए 3 और बी 3 इस समस्या में शुद्ध इष्टतम रणनीतियाँ हैं।

शुद्ध इष्टतम रणनीति चुनते समय उद्यम 1 और उद्यम 2 के मुनाफे के बीच का अंतर सकारात्मक होता है। इसका मतलब है कि एंटरप्राइज़ 1 यह गेम जीतेगा। उद्यम 1 का लाभ 0.4 हजार होगा। वहीं, बाजार में 5 हजार यूनिट्स की बिक्री की जाएगी। उत्पाद (उत्पादों की मांग के बराबर बिक्री, तालिका 1)। दोनों उद्यम उत्पादन की प्रति इकाई कीमत 2.00 निर्धारित करेंगे। इस मामले में, पहले उद्यम के लिए उत्पादन की प्रति यूनिट कुल लागत 1.5 यूनिट होगी, और दूसरे के लिए - 1 यूनिट। एंटरप्राइज़ 1 को केवल उन उत्पादों की उच्च हिस्सेदारी के कारण लाभ होगा जो जनसंख्या उससे खरीदेगी।

निर्णय मानदंड

निर्णय निर्माता इसके आधार पर सबसे लाभदायक रणनीति निर्धारित करता है लक्ष्य तय करना, जिसे वह समस्या को हल करने की प्रक्रिया में लागू करता है। निर्णय लेने वाला किसी एक के अनुसार समस्या के समाधान का परिणाम निर्धारित करता है निर्णय मानदंड. एक स्पष्ट और, यदि संभव हो तो, सबसे लाभदायक समाधान पर पहुंचने के लिए, एक मूल्यांकन (लक्ष्य) फ़ंक्शन शुरू करना आवश्यक है। इस मामले में, प्रत्येक निर्णय निर्माता रणनीति (ए आई) को एक निश्चित परिणाम वाई सौंपा गया है, जो इस निर्णय के सभी परिणामों को दर्शाता है। निर्णय लेने के परिणामों की श्रृंखला से, निर्णय निर्माता उस तत्व डब्ल्यू का चयन करता है जो उसके व्यवहार की प्रेरणा को सर्वोत्तम रूप से दर्शाता है।

पर्यावरणीय परिस्थितियों और निर्णय-निर्माता की सूचना सामग्री की डिग्री के आधार पर, निर्णय लेने के कार्यों का निम्नलिखित वर्गीकरण किया जाता है:

  • जोखिम की स्थिति में;
  • अनिश्चितता की स्थिति में;
  • संघर्ष या विरोध (सक्रिय शत्रु) की स्थिति में।

जोखिम की स्थिति में निर्णय लेना।

1. अपेक्षित मूल्य मानदंड.

अपेक्षित मूल्य मानदंड का उपयोग अपेक्षित लाभ को अधिकतम करने (या अपेक्षित लागत को कम करने) की इच्छा से प्रेरित होता है। अपेक्षित मूल्यों का उपयोग पर्याप्त सटीक मान प्राप्त होने तक एक ही समस्या को बार-बार हल करने की संभावना को दर्शाता है। गणना सूत्र. गणितीय रूप से यह इस तरह दिखता है: मान लीजिए कि X गणितीय अपेक्षा MX और विचरण DX के साथ एक यादृच्छिक चर है। यदि x 1 , x 2 , ..., x n यादृच्छिक चर (r.v.) X के मान हैं, तो उनके (नमूना माध्य) मानों का अंकगणितीय माध्य x^=(x 1 +x 2 + है। ..+x n)/ n में DX/n का प्रसरण है। इस प्रकार, जब n→∞ DX/n→∞ और X→MX.

दूसरे शब्दों में, पर्याप्त रूप से बड़े नमूना आकार के साथ, अंकगणितीय माध्य और गणितीय अपेक्षा के बीच का अंतर शून्य हो जाता है (तथाकथित संभाव्यता सिद्धांत की सीमा प्रमेय)। नतीजतन, अपेक्षित मूल्य मानदंड का उपयोग केवल उस स्थिति में मान्य है जब एक ही समाधान को पर्याप्त रूप से बड़ी संख्या में लागू करना पड़ता है। इसका विपरीत भी सत्य है: अपेक्षाओं पर ध्यान केंद्रित करने से उन निर्णयों के गलत परिणाम सामने आएंगे जिन्हें बहुत कम बार लेना पड़ता है।

उदाहरण 1. खराबी के कारण होने वाले नुकसान को कम करने के लिए पीसी की निवारक मरम्मत करना कब आवश्यक है, इसके बारे में निर्णय लेना आवश्यक है। यदि मरम्मत बहुत बार की जाती है, तो आकस्मिक खराबी के कारण छोटे नुकसान के साथ रखरखाव की लागत अधिक होगी।

चूँकि पहले से भविष्यवाणी करना असंभव है कि खराबी कब होगी, इसलिए यह संभावना ज्ञात करना आवश्यक है कि पीसी समय अवधि टी में विफल हो जाएगा। यह "जोखिम" का तत्व है।

गणितीय रूप से, यह इस तरह दिखता है: यदि पीसी खराब होने के कारण बंद हो जाता है तो उसकी मरम्मत व्यक्तिगत रूप से की जाती है। टी समय अंतराल पर, सभी एन पीसी पर निवारक मरम्मत की जाती है। एम का इष्टतम मूल्य निर्धारित करना आवश्यक है, जिस पर दोषपूर्ण पीसी की मरम्मत और एक समय अंतराल पर निवारक मरम्मत करने की कुल लागत कम से कम हो जाती है।

मान लीजिए p t समय t पर एक पीसी के विफल होने की संभावना है, और n t एक यादृच्छिक चर है जो एक ही समय में विफल होने वाले सभी पीसी की संख्या के बराबर है। आइए आगे मान लें कि सी 1 एक दोषपूर्ण पीसी की मरम्मत की लागत है और सी 2 एक मशीन की निवारक मरम्मत की लागत है।

यदि पीसी संचालित होता है तो इस मामले में अपेक्षित मूल्य मानदंड का उपयोग उचित है लंबी अवधिसमय। इस मामले में, एक अंतराल के लिए अपेक्षित लागत होगी

OZ = (C 1 ∑M(n t)+C 1 n)/T,

जहाँ M(n t) समय t पर विफल पीसी की संख्या की गणितीय अपेक्षा है। चूँकि n t में पैरामीटर (n, p t) के साथ एक द्विपद वितरण है, तो M(n t) = np t। इस प्रकार

OZ = n(C 1 ∑p t +C 2)/T.

इष्टतमता टी * के लिए आवश्यक शर्तें इस प्रकार हैं:

ओज़ेड (टी * -1) ≥ ओज़ेड (टी *),

एचपी (टी * +1) ≥ एचपी (टी *)।

इसलिए, टी के एक छोटे मान से शुरू करके, ओपी की गणना करें(

टी) जब तक आवश्यक इष्टतमता स्थितियाँ पूरी नहीं हो जातीं।

मान लीजिए C 1 = 100; सी 2 = 10; n = 50. मान p t का रूप है:

टी पी टी ∑р टी ओज़ेड(टी)
1 0.05 0 50(100⋅0+10)/1=500
2 0.07 0.05 375
3 0.10 0.12 366.7
4 0.13 02 400
5 0.18 0.35 450

टी * →3, ओजेड(टी *)→366.7

इसलिए, निवारक रखरखाव टी * = 3 समय अंतराल पर किया जाना चाहिए।

"अपेक्षित मान - विचरण" मानदंड।

अपेक्षित मूल्य मानदंड को संशोधित किया जा सकता है ताकि इसे उन स्थितियों पर लागू किया जा सके जो शायद ही कभी होती हैं।

यदि एक्स - सी. वी फैलाव DX के साथ, तो अंकगणित माध्य x^ का फैलाव DX/n है, जहां n x^ में पदों की संख्या है। इसलिए, यदि DX घटता है, तो x^ MX के करीब होने की संभावना बढ़ जाती है। इसलिए, एक मानदंड पेश करने की सलाह दी जाती है जिसमें लाभ के अपेक्षित मूल्य को अधिकतम करने के साथ-साथ इसके विचरण को कम किया जाता है।

उदाहरण 2. आइए उदाहरण 1 के लिए "अपेक्षित मूल्य - विचरण" मानदंड लागू करें। ऐसा करने के लिए, एक समय अंतराल पर लागतों का विचरण ज्ञात करना आवश्यक है, अर्थात। फैलाव

з Т =(सी 1 ∑एन टी +सी 2 एन)/टी

क्योंकि एन टी, टी = (1, टी-1) एक आर.वी. है, तो एस टी भी एक आर.वी. है। एस.वी. n t का द्विपद वितरण M(n t) = np t और D(n t) = np t (1–p t) के साथ है। इस तरह,

डी(з Т) = डी((सी 1 ∑एन टी +सी 2 एन)/टी) = (सी 1 /टी) 2 डी(∑एन टी) =

= (C 1 /T) 2 ∑Dn t = (C 1 /T) 2 ∑np t (1-p t) = (C 1 /T) 2 (∑p t - ∑p t 2 ),

जहां सी 2 एन = स्थिरांक।

उदाहरण 1 से यह इस प्रकार है

एम(जेड टी) = एम(जेड(टी)).

इसलिए, आवश्यक मानदंड अभिव्यक्ति का न्यूनतम होगा

M(z(T)) + से D(z T).

टिप्पणी. स्थिरांक "k" को एक स्तर माना जा सकता है जोखिम के खिलाफ, क्योंकि "k" गणितीय अपेक्षा के संबंध में फैलाव D(z T) की "संभावना की डिग्री" निर्धारित करता है। उदाहरण के लिए, यदि कोई उद्यमी एम(जेड(टी)) से नीचे लाभ के बड़े नकारात्मक विचलन पर विशेष रूप से तीव्र प्रतिक्रिया करता है, तो वह 1 से बहुत अधिक "के" चुन सकता है। इससे भिन्नता को अधिक महत्व मिलता है और एक निर्णय होता है लाभ में बड़े नुकसान की संभावना कम हो जाती है।

k=1 के लिए हमें समस्या मिलती है

M(z(T))+D(z(T)) = n ( (C 1 /T+C 1 2 /T 2)∑p t - C 1 2 /T 2 ∑p t 2 + C 2 /T )

उदाहरण 1 से डेटा का उपयोग करके, आप निम्न तालिका बना सकते हैं

टी पी टी पीटी 2 ∑पी टी ∑p t 2 एम(जेड(टी))+डी(जेड(टी))
1 0,05 0,0025 0 0 500.00
2 0,07 0,0049 0,05 0,0025 6312,50
3 0,10 0,0100 0,12 0,0074 6622,22
4 0,13 0,0169 0,2 0,0174 6731,25
5 0,18 0,0324 0,35 0,0343 6764,00

तालिका से पता चलता है कि प्रत्येक अंतराल टी * = 1 के दौरान निवारक रखरखाव किया जाना चाहिए।

3. सीमा मानदंड

सीमांत मानदंड एक इष्टतम समाधान प्रदान नहीं करता है जो उदाहरण के लिए, लाभ को अधिकतम करता है या लागत को कम करता है। बल्कि, यह परिभाषा से मेल खाता है स्वीकार्यकार्रवाई का तरीका.

उदाहरण 3. आइए मान लें कि किसी उत्पाद के लिए प्रति इकाई समय (मांग की तीव्रता) की मांग x की मात्रा एक सतत वितरण फ़ंक्शन f(x) द्वारा दी गई है। यदि स्टॉक में हैं आरंभिक क्षणछोटे हैं, भविष्य में माल की कमी संभव है। अन्यथा, समीक्षाधीन अवधि के अंत तक, बिना बिके माल की सूची बहुत बड़ी हो सकती है। दोनों ही स्थितियों में नुकसान संभव है.

क्योंकि कमी से होने वाले नुकसान का निर्धारण करना बहुत मुश्किल है; निर्णय लेने वाला आवश्यक मूल्य के हिसाब से इन्वेंट्री का स्तर निर्धारित कर सकता है अपेक्षितघाटा ए 1 इकाइयों और मूल्य से अधिक नहीं था अपेक्षितअधिशेष A 2 इकाइयों से अधिक नहीं था। दूसरे शब्दों में, मुझे वांछित इन्वेंट्री स्तर होने दें। तब

अपेक्षित घाटा = ∫(x-I)f(x)dx ≤ A 1 ,

अपेक्षित अधिशेष = ∫(I-x)f(x)dx ≤ A 2।

यदि ए 1 और ए 2 को मनमाने ढंग से चुना जाता है, तो ये स्थितियाँ विरोधाभासी हो सकती हैं। इस मामले में, स्वीकार्यता सुनिश्चित करने के लिए प्रतिबंधों में से एक में ढील दी जानी चाहिए।

उदाहरण के लिए, चलो

f(x) = 20/x 2, 10≤x≤20,

f(x) = 0, x≤10 और x≥20.

∫(x-I)f(x)dx = ∫(x-I)(20/x 2)dx = 20(ln(20/I) + I/20 – 1)

∫(I-x)f(x)dx = ∫(I-x)(20/x 2)dx = 20(ln(10/I) + I/10 – 1)

सीमा स्तर मानदंड को लागू करने से असमानताएँ पैदा होती हैं

एलएन(आई) - आई/20 ≥ एलएन(20) - ए 1/20 - 1 = 1.996 - ए 1/20

एलएन(आई) - आई/10 ≥ एलएन(10) - ए 2 /20 - 1 = 1.302 - ए 2 /20

सीमा मान A 1 और A 2 को चुना जाना चाहिए ताकि दोनों असमानताएँ I के कम से कम एक मान के लिए संतुष्ट हों।

उदाहरण के लिए, यदि A 1 = 2 और A 2 = 4, तो असमानताएँ रूप ले लेती हैं

एलएन(आई) - आई/20 ≥ 1.896

एलएन(आई) - आई/10 ≥ 1.102

I का मान 10 और 20 के बीच होना चाहिए, क्योंकि इन सीमाओं के भीतर ही मांग में परिवर्तन होता है। तालिका से पता चलता है कि अंतराल (13,17) से I के लिए दोनों शर्तें पूरी होती हैं

मैं 10 11 12 13 14 15 16 17 18 19 20
एलएन(आई)-आई/20 1,8 1,84 1,88 1,91 1,94 1,96 1,97 1,98 1,99 1,99 1,99
एलएन(आई)-आई/10 1,3 19 18 16 14 11 1,17 1,13 1,09 1,04 0,99

इनमें से कोई भी मान समस्या की शर्तों को पूरा करता है।

अनिश्चितता की स्थिति में निर्णय लेना

हम मान लेंगे कि निर्णय लेने वाले का सामना नहीं किया गया है उचितदुश्मन।

अनिश्चितता के तहत निर्णय लेने के लिए आवश्यक डेटा आमतौर पर एक मैट्रिक्स के रूप में दिया जाता है, जिसकी पंक्तियाँ संभावित क्रियाओं के अनुरूप होती हैं, और कॉलम सिस्टम की संभावित स्थितियों के अनुरूप होते हैं।

उदाहरण के लिए, मान लीजिए कि किसी उत्पाद को किसी ऐसी सामग्री से बनाने की आवश्यकता है, जिसका स्थायित्व स्वीकार्य लागत पर निर्धारित नहीं किया जा सकता है। भार ज्ञात माना जाता है। आपको यह तय करने की आवश्यकता है कि इस सामग्री से बने उत्पाद के आयाम क्या होने चाहिए।

संभावित समाधान हैं:

ई 1 - अधिकतम स्थायित्व के कारणों के लिए आकारों का चयन;

ई एम - न्यूनतम स्थायित्व के कारणों के लिए आकार की पसंद;

ई मैं मध्यवर्ती समाधान हैं.

विचार की जाने वाली शर्तें हैं:

एफ 1 - अधिकतम स्थायित्व सुनिश्चित करने वाली स्थितियाँ;

एफ एन - न्यूनतम स्थायित्व सुनिश्चित करने वाली स्थितियाँ;

एफ मैं मध्यवर्ती स्थितियाँ हैं।

निर्णय का परिणाम ई आईजे = ई(ई आई ; एफ जे) को यहां विकल्प ई आई और शर्तों एफ जे के अनुरूप मूल्यांकन और लाभ, उपयोगिता या विश्वसनीयता की विशेषता के रूप में समझा जा सकता है। आमतौर पर हम इसे परिणाम कहेंगे समाधान की उपयोगिता.

फिर समाधान का परिवार (मैट्रिक्स) ||ई आईजे || इसका रूप है:

एफ 1 एफ 2 ... एफ.एन
ई 1 ई 11 ई 12 ... ई 1एन
ई 2 ई 21 ई 22 ... ई 2एन
... ... ... ... ...
ई एम ई एम1 ई एम2 ... ई एमएन

एक स्पष्ट और, यदि संभव हो तो, सबसे लाभदायक समाधान पर पहुंचने के लिए, एक मूल्यांकन (लक्ष्य) फ़ंक्शन शुरू करना आवश्यक है। इस मामले में, निर्णय मैट्रिक्स ||e ij || एक कॉलम में सिमट गया। प्रत्येक विकल्प ई आई को सौंपा गया है, यानी, एक निश्चित परिणाम ई आईआर, जो सामान्य रूप से, इस निर्णय के सभी परिणामों को दर्शाता है। हम इस परिणाम को आगे उसी प्रतीक e ir द्वारा निरूपित करेंगे।

क्लासिक निर्णय मानदंड

1. मिनिमैक्स मानदंड।

न्यूनतम मानदंड (एमएम मानदंड) के अनुसार समाधान चुनने के नियम की व्याख्या इस प्रकार की जा सकती है:

निर्णय मैट्रिक्स को प्रत्येक पंक्ति के सबसे छोटे परिणामों ई आईआर से एक और कॉलम के साथ पूरक किया गया है। उन पंक्तियों में से उन विकल्पों का चयन करना आवश्यक है जिनका मान इस कॉलम का उच्चतम ईआईआर हो।

चयनित टी.ओ. विकल्प जोखिम को पूरी तरह खत्म कर देते हैं। इसका मतलब यह है कि निर्णय लेने वाला जिसे लक्ष्य बना रहा है, उससे अधिक खराब परिणाम का सामना नहीं करना पड़ सकता है। यह संपत्ति हमें एमएम मानदंड को मूलभूत मानदंडों में से एक मानने की अनुमति देती है।

एमएम मानदंड का उपयोग उचित है यदि जिस स्थिति में निर्णय लिया गया है वह इस प्रकार है:

  1. बाहरी अवस्थाओं F j के प्रकट होने की संभावना के बारे में कुछ भी ज्ञात नहीं है;
  2. हमें विभिन्न बाह्य अवस्थाओं F j की उपस्थिति को ध्यान में रखना होगा;
  3. समाधान केवल एक बार लागू किया जाता है;
  4. किसी भी जोखिम को समाप्त किया जाना चाहिए।

2. बेयस-लाप्लास मानदंड.

आइए हम बाहरी अवस्था F j के प्रकट होने की संभावना को q i से निरूपित करें।

संबंधित चयन नियम की व्याख्या इस प्रकार की जा सकती है:

निर्णय मैट्रिक्स को एक अन्य कॉलम के साथ पूरक किया जाता है जिसमें प्रत्येक पंक्ति के मूल्यों की गणितीय अपेक्षा होती है। उन विकल्पों का चयन किया जाता है जिनकी पंक्तियों में इस कॉलम का सबसे बड़ा मान eir होता है।

यह माना जाता है कि जिस स्थिति में निर्णय लिया जाता है वह निम्नलिखित परिस्थितियों की विशेषता है:

  1. राज्य F j के प्रकट होने की संभावनाएँ ज्ञात हैं और यह समय पर निर्भर नहीं करती हैं।
  2. समाधान (सैद्धांतिक रूप से) अनंत बार लागू किया जाता है।
  3. किसी समाधान के कम संख्या में कार्यान्वयन के लिए, कुछ जोखिम स्वीकार्य हैं।

जब बहुत हो गया बड़ी मात्राकार्यान्वयन, औसत मूल्य धीरे-धीरे स्थिर हो जाता है। इसलिए, पूर्ण (अनंत) कार्यान्वयन के साथ, कोई भी जोखिम व्यावहारिक रूप से समाप्त हो जाता है।

वह। बेयस-लाप्लास मानदंड (बी-एल मानदंड) मिनिमैक्स मानदंड की तुलना में अधिक आशावादी है, लेकिन इसके लिए अधिक जागरूकता और काफी लंबी कार्यान्वयन अवधि की आवश्यकता होती है।

3. बर्बरता की कसौटी।

ए आईजे:= अधिकतम आई (ई आईजे) - ई आईजे

ई आईआर:= अधिकतम आई (ए आईजे) = अधिकतम जे (अधिकतम आई (ई आईजे) - ई आईजे)

मान a ij की व्याख्या अधिकतम अतिरिक्त लाभ के रूप में की जा सकती है जो तब प्राप्त होता है जब राज्य F j में विकल्प E i के बजाय कोई अन्य विकल्प चुनता है जो इस बाहरी स्थिति के लिए इष्टतम है। मूल्य a ij को विकल्प E i के साथ इसके लिए इष्टतम विकल्प को प्रतिस्थापित करते समय राज्य F j में उत्पन्न होने वाले नुकसान (जुर्माना) के रूप में भी समझा जा सकता है। बाद के मामले में, ई आईआर विकल्प ई आई चुनने के मामले में अधिकतम संभव (सभी बाहरी राज्यों एफ जे, जे = (1, एन) पर) नुकसान का प्रतिनिधित्व करता है।

सैवेज की कसौटी के अनुरूप चयन नियम की व्याख्या अब इस प्रकार की गई है:

  1. निर्णय मैट्रिक्स का प्रत्येक तत्व ||e ij || संबंधित कॉलम के सबसे बड़े परिणाम max(e ij) से घटाया जाता है।
  2. अंतर a ij अवशिष्ट मैट्रिक्स ||e ij || बनाते हैं। यह मैट्रिक्स सबसे बड़े अंतर ई आईआर के एक कॉलम से भरा हुआ है। उन विकल्पों का चयन करें जिनकी पंक्तियों में इस कॉलम के लिए सबसे छोटा मान है।

जिस स्थिति में निर्णय लिया जाता है उसकी आवश्यकताएं एमएम मानदंड की आवश्यकताओं से मेल खाती हैं।

4. उदाहरण और निष्कर्ष.

विचार किए गए मानदंडों की आवश्यकताओं से, यह स्पष्ट हो जाता है कि, उनकी कठोर प्रारंभिक स्थिति के कारण, वे केवल आदर्श व्यावहारिक समाधानों पर लागू होते हैं। ऐसे मामलों में जहां बहुत मजबूत आदर्शीकरण संभव है, विभिन्न मानदंडों को एक साथ बारी-बारी से लागू किया जा सकता है। इसके बाद, कई विकल्पों में से, निर्णय लेने वाला स्वैच्छिक पद्धति का उपयोग करके अंतिम निर्णय चुनता है। यह दृष्टिकोण, सबसे पहले, हर चीज़ में बेहतर ढंग से प्रवेश करने की अनुमति देता है आंतरिक संचारनिर्णय लेने में समस्याएँ और, दूसरी बात, व्यक्तिपरक कारक के प्रभाव को कमजोर करती है।

उदाहरण. कंप्यूटर चलाते समय, समय-समय पर सूचना प्रसंस्करण को रोकना और कंप्यूटर में वायरस की जांच करना आवश्यक है। सूचना प्रसंस्करण में रुकावट से कुछ आर्थिक लागतें पैदा होती हैं। यदि समय रहते वायरस का पता नहीं लगाया गया, तो कुछ जानकारी खो सकती है, जिससे और भी अधिक नुकसान होगा।

संभावित समाधान हैं:

ई 1 - पूर्ण जाँच;

ई 2 - न्यूनतम जांच;

ई 3 - जाँच करने से इंकार।

कंप्यूटर निम्नलिखित अवस्थाओं में हो सकता है:

एफ 1 - कोई वायरस नहीं;

एफ 2 - एक वायरस है, लेकिन उसके पास जानकारी को नुकसान पहुंचाने का समय नहीं है;

एफ 3 - ऐसी फ़ाइलें हैं जिन्हें पुनर्स्थापित करने की आवश्यकता है।

परिणाम, जिसमें वायरस की खोज और उसके उन्मूलन की लागत, साथ ही डेटा पुनर्प्राप्ति से जुड़ी लागत शामिल है, का रूप इस प्रकार है:

एफ 1 एफ 2 एफ 3 एमएम मानदंड मानदंड बी-एल
ई आईआर = न्यूनतम जे (ई आईजे) अधिकतम मैं (ई आईआर) ई आईआर = ∑ई आईजे अधिकतम मैं (ई आईआर)
ई 1 -20,0 -20 -25,0 -25,0 -25,0 -22,33
ई 2 -14,0 -23,0 -31,0 -31,0 -22,67
ई 3 0 -24.0 -40.0 -40.0 -21.33 -21.33

एमएम मानदंड के अनुसार पूरी जांच की जानी चाहिए। बेयस-लाप्लास मानदंड, इस धारणा के तहत कि मशीन की सभी स्थितियाँ समान रूप से संभावित हैं।

एफ 1 एफ 2 एफ 3 बर्बरता की कसौटी
ई आईआर = न्यूनतम जे (ए आईजे) मिन जे (ई आईआर)
ई 1 +20,0 0 0 +20,0
ई 2 +14,0 +1,0 +6,0 +14,0 +14,0
ई 3 0 +2,0 +15,0 +15,0

उदाहरण विशेष रूप से चुना गया है ताकि प्रत्येक मानदंड एक नया समाधान प्रदान करे। उस स्थिति की अनिश्चितता जिसमें चेक कंप्यूटर को पाता है, अनिश्चितता में बदल जाती है कि किस मानदंड का पालन किया जाए।

चूँकि अलग-अलग मानदंड अलग-अलग स्थितियों से जुड़े होते हैं जिनमें निर्णय लिया जाता है, कुछ मानदंडों की सिफारिशों की तुलना करने का सबसे अच्छा तरीका स्थिति के बारे में अतिरिक्त जानकारी प्राप्त करना है। विशेष रूप से, यदि लिया जा रहा निर्णय समान मापदंडों वाली सैकड़ों मशीनों से संबंधित है, तो बेयस-लाप्लास मानदंड का उपयोग करने की अनुशंसा की जाती है। यदि मशीनों की संख्या बड़ी नहीं है, तो मिनिमैक्स या सैवेज मानदंड का उपयोग करना बेहतर है।

व्युत्पन्न मानदंड.

1. हर्विट्ज़ मानदंड।

सबसे संतुलित स्थिति लेने की कोशिश करते हुए, हर्विट्ज़ ने एक मूल्यांकन कार्य प्रस्तावित किया जो अत्यधिक आशावाद और अत्यधिक निराशावाद के दृष्टिकोण के बीच कहीं पड़ता है:

अधिकतम i (e ir) = ( C⋅min j (e ij) + (1-C)⋅max j (e ij) ),

जहां C भार कारक है।

हर्विट्ज़ मानदंड के अनुसार चयन नियम इस प्रकार बनता है:

निर्णय मैट्रिक्स ||ई आईजे|| प्रत्येक पंक्ति के लिए सबसे छोटे और सबसे बड़े परिणामों के भारित औसत वाले कॉलम द्वारा पूरक किया जाता है। केवल उन्हीं विकल्पों का चयन किया जाता है जिनकी पंक्तियों में इस कॉलम के सबसे बड़े तत्व e e ir होते हैं।

C=1 पर, हर्विट्ज़ मानदंड MM मानदंड में बदल जाता है। जब C = 0 यह "जुआरी" मानदंड में बदल जाता है

अधिकतम i (e ir) = अधिकतम i (अधिकतम j (e ij)),

वे। हम एक जुआरी का दृष्टिकोण लेते हैं जो शर्त लगाता है कि सबसे अच्छा मौका "आएगा"।

तकनीकी अनुप्रयोगों में, भार कारक C को चुनना कठिन है, क्योंकि आशावाद और निराशावाद के उन शेयरों के लिए एक मात्रात्मक विशेषता खोजना मुश्किल है जो निर्णय लेते समय मौजूद होते हैं। इसलिए, अक्सर सी: = 1/2.

हर्विट्ज़ मानदंड तब लागू होता है जब:

  1. राज्य F j के घटित होने की संभावनाओं के बारे में कुछ भी ज्ञात नहीं है;
  2. राज्य एफ जे की उपस्थिति को ध्यान में रखा जाना चाहिए;
  3. केवल थोड़ी संख्या में समाधान लागू किए जाते हैं;
  4. कुछ जोखिम स्वीकार्य है.

2. हॉज-लेहमैन मानदंड।

यह मानदंड एमएम मानदंड और बेयस-लाप्लास मानदंड पर एक साथ आधारित है। पैरामीटर n प्रयुक्त संभाव्यता वितरण में विश्वास की डिग्री को व्यक्त करता है। यदि आत्मविश्वास ऊंचा है, तो बैस-लाप्लास मानदंड हावी है, अन्यथा एमएम मानदंड हावी है, यानी। को हम ढूंढ रहे हैं

अधिकतम i (e ir) = अधिकतम i (v⋅∑e ij ⋅q i + (1-v) न्यूनतम j (e ir)), 0 ≤ n ≤ 1।

हॉज-लेहमैन मानदंड के अनुरूप चयन नियम इस प्रकार बनाया गया है:

निर्णय मैट्रिक्स ||ई आईजे|| भारित औसत (वजन v≡const के साथ) गणितीय अपेक्षाओं और प्रत्येक पंक्ति के सबसे छोटे परिणाम (*) से बने एक कॉलम द्वारा पूरक है। उन समाधान विकल्पों का चयन किया जाता है जिनकी पंक्तियों में इस कॉलम में सबसे बड़ा मान होता है।

v = 1 पर, हॉज-लेहमैन मानदंड बेयस-लाप्लास मानदंड बन जाता है, और v = 0 पर यह एक न्यूनतम मानदंड बन जाता है।

वी का चुनाव व्यक्तिपरक है क्योंकि किसी भी वितरण फ़ंक्शन की विश्वसनीयता की डिग्री एक अस्पष्ट मामला है।

हॉज-लेहमैन मानदंड को लागू करने के लिए, यह वांछनीय है कि जिस स्थिति में निर्णय लिया गया है वह निम्नलिखित गुणों को संतुष्ट करती हो:

  1. अवस्था F j के घटित होने की संभावनाएँ अज्ञात हैं, लेकिन संभाव्यता वितरण के बारे में कुछ धारणाएँ संभव हैं;
  2. अपनाया गया समाधान सैद्धांतिक रूप से असीमित कई कार्यान्वयन की अनुमति देता है;
  3. छोटी बिक्री संख्या के साथ, कुछ जोखिम स्वीकार्य है।

3. जर्मीयर मानदंड।

यह मानदंड नुकसान की मात्रा पर केंद्रित है, अर्थात। सभी ई आईजे के नकारात्मक मूल्यों के लिए। जिसमें

अधिकतम i (e ir) = अधिकतम i (न्यूनतम j (e ij)q j) .

क्योंकि आर्थिक समस्याओं में वे मुख्य रूप से कीमतों और लागतों से निपटते हैं, शर्त ई आईजे<0 обычно выполняется. В случае же, когда среди величин e ij встречаются и положительные значения, можно перейти к строго отрицательным значениям с помощью преобразования e ij -a при подходящем образом подобранном a>0. इस मामले में, इष्टतम समाधान इस पर निर्भर करता है।

जर्मेयर मानदंड के अनुसार चयन नियम निम्नानुसार तैयार किया गया है:

निर्णय मैट्रिक्स ||ई आईजे|| प्रत्येक पंक्ति में उपलब्ध परिणाम का सबसे छोटा उत्पाद और संबंधित स्थिति एफ जे की संभावना वाले एक अन्य कॉलम द्वारा पूरक किया जाता है। उन पंक्तियों में उन विकल्पों का चयन किया जाता है जिनमें इस कॉलम का सबसे बड़ा मान e e ij पाया जाता है।

एक अर्थ में, जर्मेयर मानदंड एमएम मानदंड को सामान्यीकृत करता है: एक समान वितरण q j = 1/n, j=(1,n) के मामले में, वे समान हो जाते हैं।

इसकी प्रयोज्यता की शर्तें इस प्रकार हैं:

  1. अलग-अलग या संयोजन में कुछ शर्तों की उपस्थिति को ध्यान में रखा जाना चाहिए;
  2. कुछ जोखिम स्वीकार्य है;
  3. समाधान को एक या अधिक बार लागू किया जा सकता है.

यदि वितरण फ़ंक्शन बहुत विश्वसनीय रूप से ज्ञात नहीं है, और प्राप्ति संख्याएं छोटी हैं, तो, जर्मीयर मानदंड का पालन करते हुए, आम तौर पर बोलते हुए, एक अनुचित रूप से बड़ा जोखिम प्राप्त होता है।

4. संयुक्त बेयस-लाप्लास और मिनिमैक्स मानदंड।

ऐसे मानदंड प्राप्त करने की इच्छा जो अब तक माने गए सभी मानदंडों की तुलना में मौजूदा स्थिति के लिए बेहतर रूप से अनुकूलित होंगे, तथाकथित समग्र मानदंडों के निर्माण के लिए प्रेरित हुए। उदाहरण के तौर पर, बेयस-लाप्लास और मिनिमैक्स मानदंड (बीएल (एमएम) मानदंड) के संयोजन से प्राप्त एक मानदंड पर विचार करें।

इस मानदंड के लिए चयन नियम निम्नानुसार तैयार किया गया है:

निर्णय मैट्रिक्स ||ई आईजे|| तीन और स्तंभों द्वारा पूरक है। उनमें से पहले में प्रत्येक पंक्ति की गणितीय अपेक्षाएँ लिखी गई हैं, दूसरे में - संदर्भ मान के बीच का अंतर

ई आई 0 जे 0 = अधिकतम आई (अधिकतम जे (ई आईजे))

और सबसे छोटा मान

संगत पंक्ति. तीसरे कॉलम में सबसे बड़े मान के बीच अंतर शामिल है

प्रत्येक पंक्ति और उस पंक्ति का सबसे बड़ा मान अधिकतम j (e i 0 j) जिसमें मान e i 0 j 0 स्थित है। उन विकल्पों का चयन किया जाता है जिनकी पंक्तियाँ (दूसरे और तीसरे कॉलम के तत्वों के बीच नीचे दिए गए संबंधों के अधीन) सबसे बड़ी गणितीय अपेक्षा देती हैं। अर्थात्, संगत मान

ई आई 0 जे 0 - अधिकतम जे (ई आईजे)

दूसरे कॉलम से कुछ पूर्व निर्धारित जोखिम स्तर ई जोड़ना या उसके बराबर होना चाहिए। तीसरे कॉलम का मान दूसरे कॉलम के मान से अधिक होना चाहिए।

इस मानदंड का अनुप्रयोग उस स्थिति की निम्नलिखित विशेषताओं के कारण होता है जिसमें निर्णय लिया जाता है:

  1. राज्यों एफ जे की घटना की संभावनाएं अज्ञात हैं, लेकिन किसी विशेष वितरण के पक्ष में कुछ प्राथमिक जानकारी है;
  2. उपस्थिति को ध्यान में रखना आवश्यक है विभिन्न स्थितियाँदोनों व्यक्तिगत रूप से और संयोजन में;
  3. सीमित जोखिम स्वीकार्य है;
  4. लिया गया निर्णय एक बार या बार-बार लागू किया जाता है।

बीएल (एमएम) मानदंड मुख्य रूप से प्रौद्योगिकी के क्षेत्र में व्यावहारिक समाधान बनाने के लिए उपयुक्त है, और इसे काफी विश्वसनीय माना जा सकता है। हालाँकि, जोखिम ई की दी गई अतिरिक्त सीमाएँ और तदनुसार, जोखिम मूल्यांकन ई मैं समाधान के अनुप्रयोगों की संख्या या अन्य समान जानकारी को ध्यान में नहीं रखता हूँ। व्यक्तिपरक कारक का प्रभाव, हालांकि कमजोर है, पूरी तरह से बाहर नहीं रखा गया है।

अधिकतम जे (ई आईजे)-अधिकतम जे (ई आई 0 जे)≥ई आई

यह उन मामलों में आवश्यक है जहां समाधान केवल एक बार या कम संख्या में लागू किया जाता है। इन स्थितियों में, केवल प्रतिकूल बाहरी परिस्थितियों और औसत मूल्यों से जुड़े जोखिम पर ध्यान केंद्रित करना पर्याप्त नहीं है। हालाँकि, इसके कारण आपको सफल बाहरी राज्यों में कुछ नुकसान उठाना पड़ सकता है। बड़ी संख्या में कार्यान्वयन के साथ, यह स्थिति इतनी महत्वपूर्ण नहीं रह जाती है। यह उचित विकल्पों की भी अनुमति देता है। हालाँकि, ऐसे कोई स्पष्ट मात्रात्मक संकेत नहीं हैं कि किन मामलों में इस शर्त को छोड़ दिया जाना चाहिए।

5. कार्यों की कसौटी.

अधिकतम i (e ir):= अधिकतम i (∏e ij)

इस मामले में चयन नियम निम्नानुसार तैयार किया गया है:

निर्णय मैट्रिक्स ||ई आईजे || प्रत्येक पंक्ति के सभी परिणामों के उत्पादों वाले एक नए कॉलम द्वारा पूरक किया जाता है। उन विकल्पों का चयन किया जाता है जिनकी पंक्तियाँ सम्मिलित होती हैं उच्चतम मूल्ययह कॉलम.

इस मानदंड का अनुप्रयोग निम्नलिखित परिस्थितियों के कारण है:

  1. अवस्था F j के घटित होने की सम्भावनाएँ अज्ञात हैं;
  2. प्रत्येक राज्य F j की उपस्थिति को अलग से ध्यान में रखा जाना चाहिए;
  3. मानदंड समाधान के कम संख्या में कार्यान्वयन के लिए भी लागू होता है;
  4. कुछ जोखिम स्वीकार्य है.

उत्पाद मानदंड मुख्य रूप से उन मामलों के लिए अनुकूलित किया गया है जहां सभी ई आईजे सकारात्मक हैं। यदि सकारात्मकता की स्थिति का उल्लंघन किया जाता है, तो कुछ स्थिरांक a>|min ij (e ij)| के साथ कुछ बदलाव e ij +a किया जाना चाहिए। परिणाम स्वाभाविक रूप से एक पर निर्भर करेगा. व्यवहार में प्रायः

ए:= |मिनट आईजे (ई आईजे)|+1.

यदि किसी स्थिरांक को अर्थ के रूप में नहीं पहचाना जा सकता है, तो उत्पाद मानदंड लागू नहीं होता है।

उदाहरण।

आइए पहले जैसा ही उदाहरण देखें (ऊपर देखें)।

हर्विट्ज़ मानदंड के अनुसार चेक पर निर्णयों के मैट्रिक्स के लिए एक इष्टतम समाधान के निर्माण का रूप है (सी = 0 पर, 10 3 में):

||ई आईजे || С⋅मिन जे (ई आईजे) (1-С)⋅अधिकतम जे (ई आईजे) ई आईआर अधिकतम मैं (ई आईआर)
-20,0 -22,0 -25,0 -12,5 -10.0 -22,5
-14,0 -23.0 -31.0 -15,5 -7.0 -22,5
0 -24.0 -40.0 -20.0 0 -20.0 -20.0

में इस उदाहरण मेंसमाधान में वजन कारक सी के संबंध में एक महत्वपूर्ण मोड़ होता है: सी = 0.57 तक, ई 3 को इष्टतम के रूप में चुना जाता है, और बड़े मूल्यों के लिए, ई 1 को चुना जाता है।

हॉज-लेहमैन मानदंड का अनुप्रयोग (q=0.33, v=0, 10 3 में):

∑e ij ⋅q j मिन जे (ई आईजे) v⋅∑e ij ⋅q j (1-v)⋅∑e ij ⋅q j ई आईआर अधिकतम मैं (ई आईआर)
-22,33 -25,0 -11,17 -12,5 -23,67 -23,67
-22,67 -31,0 -11,34 -15,5 -26,84
-21,33 -40,0 -10,67 -20,0 -30,76

हॉज-लेहमैन मानदंड विकल्प ई 1 (पूर्ण सत्यापन) की अनुशंसा करता है - बिल्कुल एमएम मानदंड की तरह। अनुशंसित विकल्प केवल v=0.94 पर बदलता है। इसलिए, प्रश्न में मशीन की स्थिति के एक समान वितरण को बहुत अधिक संभावना के साथ पहचाना जाना चाहिए ताकि इसे इसकी उच्च गणितीय अपेक्षा के आधार पर चुना जा सके। इस मामले में, समाधान के कार्यान्वयन की संख्या हमेशा मनमानी रहती है।

क्यू जे = 0.33 पर जर्मेयर मानदंड निम्नलिखित परिणाम देता है (10 3 में):

||ई आईजे || ||ई आईजे क्यू जे || ई आईआर = न्यूनतम जे (ई आईजे क्यू जे) अधिकतम मैं (ई आईआर)
-20,0 -22,0 -25,0 -6,67 -7,33 -8,33 -8,33 -8,33
-14,0 -23,0 -31,.0 -4,67 -7,67 -10,33 -10,33
0 -24,0 -40,0 0 -8,0 -13,33 -13,33

विकल्प ई 1 को इष्टतम के रूप में चुना गया है। ई आईआर मान का उपयोग करके विकल्पों की तुलना से पता चलता है कि जिस तरह से जर्मेयर मानदंड संचालित होता है वह एमएम मानदंड की तुलना में और भी अधिक लचीला है।

नीचे दी गई तालिका में, समाधान का चयन क्यू 1 = क्यू 2 = क्यू 3 = 1/2 (10 3 में डेटा) पर बीएल (एमएम) मानदंड के अनुसार किया गया है।

||ई आईजे || ∑e ij q j ई आई 0 जे 0 - मिन जे (ई आईजे) अधिकतम जे (ई आईजे) अधिकतम जे (ई आईजे) - अधिकतम जे (ई आई 0 जे)
-20,0 -22,0 -25,0 -23,33 0 -20,0 0
-14,0 -23,0 -31,0 -22,67 +6,0 -14,0 +6,0
0 -24,0 -40,0 -21,33 +15,0 0 +20,0

विकल्प E 3 (सत्यापन से इंकार) इस मानदंड द्वारा तभी स्वीकार किया जाता है जब जोखिम Epossible = 15⋅10 3 के करीब पहुंचता है। अन्यथा, ई 1 इष्टतम साबित होता है। कई तकनीकी और व्यावसायिक समस्याओं में, स्वीकार्य जोखिम बहुत कम होता है, जो आमतौर पर कुल लागत का केवल एक छोटा प्रतिशत होता है। ऐसे मामलों में, यह विशेष रूप से मूल्यवान है यदि संभाव्यता वितरण के गलत मूल्य का बहुत मजबूत प्रभाव नहीं पड़ता है। यदि निर्णय की परवाह किए बिना, स्वीकार्य जोखिम ई अतिरिक्त को पहले से स्थापित करना असंभव हो जाता है, तो अपेक्षित जोखिम ई की गणना करने से मदद मिल सकती है। तब यह विचार करना संभव हो जाता है कि क्या ऐसा जोखिम उचित है। ऐसा शोध आमतौर पर आसान होता है।

a = 41⋅10 3 और a = 200⋅10 3 के लिए उत्पाद मानदंड लागू करने के परिणाम इस प्रकार हैं:

||ई आईजे + ए|| ई आईआर = ∏ जे ई आईजे अधिकतम मैं ई आईआर
41 +21 +19 +16 6384 6384
+27 +18 +10 4860
+41 +17 +1 697
200 +180 +178 +175 5607
+186 +177 +169 5563
+200 +176 +160 5632 5632

इस मैट्रिक्स के लिए शर्त e ij > 0 संतुष्ट नहीं है। इसलिए, पहले a = 41⋅10 3 और फिर a = 200⋅10 3 को मैट्रिक्स के तत्वों में जोड़ा जाता है (बाह्य मनमानी द्वारा)।

a = 41⋅10 3 के लिए विकल्प E 1 इष्टतम निकलता है, और a = 200⋅10 3 के लिए विकल्प E 3 इष्टतम निकलता है, इसलिए a पर इष्टतम विकल्प की निर्भरता स्पष्ट है।

खेल सिद्धांत - संघर्ष स्थितियों (हितों के टकराव) को हल करने के लिए गणितीय तरीकों का एक सेट। गेम थ्योरी में गेम कहा जाता है संघर्ष की स्थिति का गणितीय मॉडल। खेल सिद्धांत में विशेष रुचि का विषय अनिश्चितता की स्थिति में खेल प्रतिभागियों की निर्णय लेने की रणनीतियों का अध्ययन है। अनिश्चितता इस तथ्य से उत्पन्न होती है कि दो या दो से अधिक पार्टियाँ विरोधी लक्ष्यों का पीछा करती हैं, और प्रत्येक पार्टी की किसी भी कार्रवाई के परिणाम साझेदार की चाल पर निर्भर करते हैं। साथ ही, प्रत्येक पक्ष इष्टतम निर्णय लेने का प्रयास करता है जो निर्धारित लक्ष्यों को अधिकतम सीमा तक साकार करता है।

गेम थ्योरी को अर्थशास्त्र में सबसे अधिक लगातार लागू किया जाता है, जहां संघर्ष की स्थितियाँउदाहरण के लिए, आपूर्तिकर्ता और उपभोक्ता, खरीदार और विक्रेता, बैंक और ग्राहक के बीच संबंधों में उत्पन्न होता है। गेम थ्योरी का अनुप्रयोग राजनीति, समाजशास्त्र, जीव विज्ञान और सैन्य कला में भी पाया जा सकता है।

गेम थ्योरी के इतिहास से

गेम थ्योरी का इतिहास एक स्वतंत्र अनुशासन के रूप में 1944 में शुरुआत हुई, जब जॉन वॉन न्यूमैन और ऑस्कर मॉर्गनस्टर्न ने "द थ्योरी ऑफ गेम्स एंड इकोनॉमिक बिहेवियर" पुस्तक प्रकाशित की। हालाँकि गेम थ्योरी के उदाहरण पहले भी सामने आ चुके हैं: मृत पति की संपत्ति को उसकी पत्नियों के बीच बांटने पर बेबीलोनियाई तल्मूड का ग्रंथ, 18वीं सदी में कार्ड गेम, 20वीं सदी की शुरुआत में शतरंज के सिद्धांत का विकास सदी, 1928 वर्ष में उसी जॉन वॉन न्यूमैन के मिनिमैक्स प्रमेय का प्रमाण, जिसके बिना कोई खेल सिद्धांत नहीं होता।

20वीं सदी के 50 के दशक में मेल्विन ड्रेशर और मेरिल फ्लड से रैंड कॉर्पोरेशनकैदी की दुविधा को प्रयोगात्मक रूप से लागू करने वाले पहले व्यक्ति जॉन नैश ने दो-व्यक्ति खेलों में संतुलन की स्थिति पर अपने कार्यों में नैश संतुलन की अवधारणा विकसित की।

रेइनहार्ड साल्टेन ने 1965 में "द ट्रीटमेंट ऑफ ओलिगोपॉली इन गेम थ्योरी ऑन डिमांड" ("स्पीलथियोरेटिस बेहैंडलुंग ईन्स ओलिगोमोडेल्स मिट नचफ्रागेट्राघेइट") पुस्तक प्रकाशित की, जिसके साथ अर्थशास्त्र में गेम थ्योरी के अनुप्रयोग को एक नई प्रेरणा शक्ति मिली। गेम थ्योरी के विकास में एक कदम आगे जॉन मेनार्ड स्मिथ के काम, "इवोल्यूशनरी स्टेबल स्ट्रैटेजी" (1974) से जुड़ा है। कैदी की दुविधा को रॉबर्ट एक्सेलरोड की 1984 की पुस्तक द इवोल्यूशन ऑफ कोऑपरेशन में लोकप्रिय बनाया गया था। 1994 में, जॉन नैश, जॉन हरसैनी और रेनहार्ड साल्टेन को गेम थ्योरी में उनके योगदान के लिए नोबेल पुरस्कार से सम्मानित किया गया था।

जीवन और व्यवसाय में गेम थ्योरी

आइए हम संघर्ष की स्थिति (हितों के टकराव) के सार पर अधिक विस्तार से ध्यान दें, जैसा कि जीवन और व्यवसाय में विभिन्न स्थितियों के आगे के मॉडलिंग के लिए गेम थ्योरी में समझा जाता है। मान लीजिए कि एक व्यक्ति ऐसी स्थिति में है जो कई संभावित परिणामों में से एक की ओर ले जाता है, और इन परिणामों के संबंध में व्यक्ति की कुछ व्यक्तिगत प्राथमिकताएँ होती हैं। हालाँकि, वह कुछ हद तक उन चरों को नियंत्रित कर सकता है जो परिणाम निर्धारित करते हैं, लेकिन उसके पास उन पर पूर्ण शक्ति नहीं है। कभी-कभी नियंत्रण कई व्यक्तियों के हाथों में होता है, जिनकी, उनकी तरह, संभावित परिणामों के संबंध में कुछ प्राथमिकताएँ होती हैं, लेकिन सामान्य तौर पर इन व्यक्तियों के हित सुसंगत नहीं होते हैं। अन्य मामलों में, अंतिम परिणाम संयोग (जिसे कानूनी विज्ञान में कभी-कभी कहा जाता है) दोनों पर निर्भर हो सकता है प्राकृतिक आपदाएं), और अन्य व्यक्तियों से। गेम थ्योरी ऐसी स्थितियों के अवलोकन को व्यवस्थित करती है और ऐसी स्थितियों में बुद्धिमान कार्यों का मार्गदर्शन करने के लिए सामान्य सिद्धांतों का निर्माण करती है।

कुछ मायनों में, "गेम थ्योरी" नाम दुर्भाग्यपूर्ण है, क्योंकि यह बताता है कि गेम थ्योरी केवल पार्लर गेम में होने वाले सामाजिक रूप से महत्वहीन मुठभेड़ों से संबंधित है, लेकिन फिर भी सिद्धांत का बहुत व्यापक अर्थ है।

निम्नलिखित आर्थिक स्थिति गेम थ्योरी के अनुप्रयोग का अंदाजा दे सकती है। मान लीजिए कि कई उद्यमी हैं, जिनमें से प्रत्येक अधिकतम लाभ प्राप्त करने का प्रयास करता है, जबकि इस लाभ को निर्धारित करने वाले चर पर केवल सीमित शक्ति होती है। एक उद्यमी के पास उन चरों पर कोई शक्ति नहीं होती है जिन्हें दूसरा उद्यमी नियंत्रित करता है, लेकिन जो पहले की आय को बहुत प्रभावित कर सकते हैं। इस स्थिति को एक खेल के रूप में मानने से निम्नलिखित आपत्ति उत्पन्न हो सकती है। गेम मॉडल मानता है कि प्रत्येक उद्यमी क्षेत्र से एक विकल्प चुनता है संभावित चुनावऔर इन एकल विकल्पों से लाभ निर्धारित होता है। जाहिर है, वास्तविकता में ऐसा लगभग नहीं हो सकता है, क्योंकि इस मामले में उद्योग में जटिल प्रबंधन तंत्र की आवश्यकता नहीं होगी। इन निर्णयों में बस कई निर्णय और संशोधन होते हैं जो आर्थिक प्रणाली में अन्य प्रतिभागियों (खिलाड़ियों) द्वारा चुने गए विकल्पों पर निर्भर करते हैं। लेकिन सैद्धांतिक रूप से कोई यह कल्पना कर सकता है कि कोई प्रशासक प्रत्येक समस्या के उत्पन्न होने पर उसे हल करने के बजाय सभी संभावित आकस्मिकताओं का अनुमान लगाता है और प्रत्येक मामले में की जाने वाली कार्रवाई का विवरण देता है।

परिभाषा के अनुसार, एक सैन्य संघर्ष, हितों का टकराव है जिसमें किसी भी पक्ष का परिणाम निर्धारित करने वाले चर पर पूर्ण नियंत्रण नहीं होता है, जो लड़ाई की एक श्रृंखला द्वारा तय किया जाता है। आप परिणाम को आसानी से जीत या हार मान सकते हैं और उन्हें संख्यात्मक मान 1 और 0 निर्दिष्ट कर सकते हैं।

सबसे सरल संघर्ष स्थितियों में से एक, जिसे गेम थ्योरी में लिखा और हल किया जा सकता है, एक द्वंद्व है, जो क्रमशः दो खिलाड़ियों 1 और 2 के बीच का संघर्ष है। पीऔर क्यूशॉट्स. प्रत्येक खिलाड़ी के लिए एक फ़ंक्शन होता है जो खिलाड़ी के शॉट की संभावना को दर्शाता है मैंएक समय में टीऐसा प्रहार करेगा जो घातक होगा।

परिणामस्वरूप, खेल सिद्धांत हितों के टकराव के एक निश्चित वर्ग के निम्नलिखित सूत्रीकरण पर आता है: वहाँ हैं एनखिलाड़ियों को, और प्रत्येक को सौ विशिष्ट सेटों में से एक विकल्प चुनने की आवश्यकता होती है, और विकल्प चुनते समय, खिलाड़ी को अन्य खिलाड़ियों की पसंद के बारे में कोई जानकारी नहीं होती है। खिलाड़ी के संभावित पसंद क्षेत्र में "हुकुम का इक्का बजाना", "कारों के बजाय टैंक का उत्पादन करना", या अधिक सामान्यतः, एक रणनीति जो सभी संभावित परिस्थितियों में की जाने वाली सभी कार्रवाइयों को परिभाषित करती है, जैसे तत्व शामिल हो सकते हैं। प्रत्येक खिलाड़ी को एक कार्य का सामना करना पड़ता है: उसे क्या विकल्प चुनना चाहिए ताकि परिणाम पर उसका निजी प्रभाव उसे सबसे बड़ी संभावित जीत दिला सके?

खेल सिद्धांत में गणितीय मॉडल और समस्याओं का औपचारिकीकरण

जैसा कि हम पहले ही नोट कर चुके हैं, खेल संघर्ष की स्थिति का एक गणितीय मॉडल है और निम्नलिखित घटकों की आवश्यकता है:

  1. इच्छुक पार्टियाँ;
  2. प्रत्येक पक्ष पर संभावित कार्रवाई;
  3. पार्टियों के हित.

खेल में रुचि रखने वाले पक्षों को खिलाड़ी कहा जाता है , उनमें से प्रत्येक कम से कम दो कार्रवाई कर सकता है (यदि खिलाड़ी के पास अपने निपटान में केवल एक ही कार्रवाई है, तो वह वास्तव में खेल में भाग नहीं लेता है, क्योंकि यह पहले से ज्ञात है कि वह क्या करेगा)। खेल के परिणाम को जीत कहा जाता है .

वास्तविक संघर्ष की स्थिति हमेशा नहीं होती है, लेकिन खेल (गेम थ्योरी की अवधारणा में) हमेशा उसी के अनुसार आगे बढ़ता है निश्चित नियम , जो सटीक रूप से निर्धारित करता है:

  1. खिलाड़ियों के कार्यों के लिए विकल्प;
  2. प्रत्येक खिलाड़ी के पास अपने साथी के व्यवहार के बारे में कितनी जानकारी है;
  3. कार्यों के प्रत्येक सेट से मिलने वाला प्रतिफल।

औपचारिक खेलों के उदाहरणों में फुटबॉल, कार्ड खेल, शतरंज।

लेकिन अर्थशास्त्र में, खिलाड़ी के व्यवहार का एक मॉडल उभरता है, उदाहरण के लिए, जब कई कंपनियां बाजार में अधिक लाभप्रद स्थान लेने का प्रयास करती हैं, तो कई व्यक्ति कुछ अच्छे (संसाधन, वित्त) को आपस में बांटने की कोशिश करते हैं ताकि हर किसी को जितना संभव हो सके उतना मिल सके। . अर्थव्यवस्था में संघर्ष की स्थितियों में खिलाड़ी, जिन्हें एक खेल के रूप में तैयार किया जा सकता है, कंपनियां, बैंक, व्यक्ति और अन्य आर्थिक एजेंट हैं। बदले में, युद्ध की स्थिति में, गेम मॉडल का उपयोग किया जाता है, उदाहरण के लिए, दुश्मन को हराने या हमले से बचाने के लिए सबसे अच्छा हथियार (मौजूदा या संभावित में से) चुनने में।

खेल की विशेषता परिणाम की अनिश्चितता है . अनिश्चितता के कारणों को निम्नलिखित समूहों में विभाजित किया जा सकता है:

  1. संयोजक (शतरंज की तरह);
  2. यादृच्छिक कारकों का प्रभाव (जैसे खेल "हेड्स या टेल्स", पासा, कार्ड गेम में);
  3. रणनीतिक (खिलाड़ी को नहीं पता कि दुश्मन क्या कार्रवाई करेगा)।

खिलाड़ी की रणनीति नियमों का एक समूह है जो वर्तमान स्थिति के आधार पर प्रत्येक कदम पर उसके कार्यों को निर्धारित करता है।

गेम थ्योरी का उद्देश्य प्रत्येक खिलाड़ी के लिए इष्टतम रणनीति निर्धारित करना है। ऐसी रणनीति निर्धारित करने का अर्थ है खेल को हल करना। रणनीति की इष्टतमता यह तब प्राप्त होता है जब एक खिलाड़ी को अधिकतम जीत हासिल करनी चाहिए, जबकि दूसरा अपनी रणनीति पर कायम रहता है। और यदि पहला खिलाड़ी अपनी रणनीति पर अड़ा रहता है तो दूसरे खिलाड़ी को कम से कम नुकसान होना चाहिए।

खेलों का वर्गीकरण

  1. खिलाड़ियों की संख्या के आधार पर वर्गीकरण (दो या दो से अधिक व्यक्तियों का खेल). दो-व्यक्ति गेम सभी गेम थ्योरी में एक केंद्रीय स्थान रखते हैं। दो-व्यक्ति खेलों के लिए गेम थ्योरी की मूल अवधारणा संतुलन के बहुत महत्वपूर्ण विचार का सामान्यीकरण है जो स्वाभाविक रूप से दो-व्यक्ति खेलों में प्रकट होता है। जहाँ तक खेलों का सवाल है एनव्यक्तियों, तो खेल सिद्धांत का एक हिस्सा उन खेलों के लिए समर्पित है जिनमें खिलाड़ियों के बीच सहयोग निषिद्ध है। गेम थ्योरी के दूसरे भाग में एनव्यक्तियों का मानना ​​है कि खिलाड़ी आपसी लाभ के लिए सहयोग कर सकते हैं (गैर-सहकारी और सहकारी खेलों पर इस पैराग्राफ में बाद में देखें)।
  2. खिलाड़ियों की संख्या और उनकी रणनीतियों के आधार पर वर्गीकरण (रणनीतियों की संख्या कम से कम दो है, अनंत हो सकती है)।
  3. जानकारी की मात्रा के आधार पर वर्गीकरण पिछली चालों के सापेक्ष: खेल के साथ पूरी जानकारीऔर अधूरी जानकारी. माना कि खिलाड़ी 1 - खरीदार और खिलाड़ी 2 - विक्रेता हैं। यदि खिलाड़ी 1 को खिलाड़ी 2 के कार्यों के बारे में पूरी जानकारी नहीं है, तो खिलाड़ी 1 उन दो विकल्पों के बीच अंतर नहीं कर सकता है जिनके बीच उसे चुनाव करना होगा। उदाहरण के लिए, किसी उत्पाद के दो प्रकारों के बीच चयन करना और यह न जानना कि, कुछ विशेषताओं के अनुसार, उत्पाद क्या है बदतर उत्पाद बी, खिलाड़ी 1 को विकल्पों के बीच अंतर दिखाई नहीं दे सकता है।
  4. जीत के विभाजन के सिद्धांतों के अनुसार वर्गीकरण : एक तरफ सहयोगात्मक, गठबंधन और दूसरी तरफ असहयोगी, गैर-गठबंधन। में असहयोगी खेल , या अन्यथा - असहयोगी खेल , खिलाड़ी यह जाने बिना कि दूसरा खिलाड़ी कौन सी रणनीति चुनेगा, एक साथ रणनीतियाँ चुनते हैं। खिलाड़ियों के बीच संचार असंभव है. में सहकारी खेल , या अन्यथा - गठबंधन का खेल , खिलाड़ी गठबंधन बना सकते हैं और अपनी जीत बढ़ाने के लिए सामूहिक कार्रवाई कर सकते हैं।
  5. परिमित दो-व्यक्ति शून्य-राशि खेल या विरोधी खेल संपूर्ण जानकारी वाला एक रणनीतिक खेल है, जिसमें विरोधी हितों वाले पक्ष शामिल होते हैं। विरोधी खेल हैं मैट्रिक्स खेल .

गेम थ्योरी का एक उत्कृष्ट उदाहरण कैदी की दुविधा है।

दोनों संदिग्धों को हिरासत में ले लिया गया और एक दूसरे से अलग कर दिया गया। जिला अटॉर्नी आश्वस्त है कि उन्होंने ऐसा किया है गंभीर अपराध, लेकिन अदालत में उन पर आरोप लगाने के लिए पर्याप्त सबूत नहीं हैं। वह प्रत्येक कैदी से कहता है कि उसके पास दो विकल्प हैं: पुलिस जो अपराध मानती है उसे कबूल कर ले या अपराध कबूल न कर ले। यदि दोनों कबूल नहीं करते हैं, तो डीए उन पर कुछ छोटे अपराध का आरोप लगाएगा, जैसे छोटी चोरी या हथियार का अवैध कब्ज़ा, और उन दोनों को एक छोटी सजा मिलेगी। यदि वे दोनों कबूल करते हैं, तो उन पर मुकदमा चलाया जाएगा, लेकिन वह कड़ी सजा की मांग नहीं करेंगे। यदि एक कबूल करता है और दूसरा नहीं करता है, तो जिसने कबूल किया है उसे एक साथी के प्रत्यर्पण के लिए उसकी सजा कम कर दी जाएगी, जबकि जो कायम रहेगा उसे "पूरी तरह" मिलेगा।

यदि इस रणनीतिक कार्य को निष्कर्ष के रूप में तैयार किया जाता है, तो यह निम्नलिखित तक सीमित हो जाता है:

इस प्रकार, यदि दोनों कैदी कबूल नहीं करते हैं, तो उन्हें 1 वर्ष की सजा मिलेगी। यदि दोनों कबूल करते हैं, तो प्रत्येक को 8 वर्ष की सजा मिलेगी। और यदि एक कबूल करता है, और दूसरा नहीं कबूल करता है, तो जिसने कबूल किया है उसे तीन महीने की जेल होगी, और जो कबूल नहीं करेगा उसे 10 साल मिलेंगे। उपरोक्त मैट्रिक्स कैदी की दुविधा को सही ढंग से दर्शाता है: हर किसी को इस सवाल का सामना करना पड़ता है कि कबूल करना है या नहीं। जिला अटॉर्नी कैदियों को जो गेम ऑफर करता है वह है असहयोगी खेल या अन्यथा - असहयोगी खेल . यदि दोनों कैदियों को सहयोग करने का अवसर मिले (अर्थात्) खेल सहकारी होगा वरना गठबंधन का खेल ), तो दोनों कबूल नहीं करेंगे और प्रत्येक को एक वर्ष की जेल होगी।

गेम थ्योरी के गणितीय उपकरणों का उपयोग करने के उदाहरण

अब हम खेलों के सामान्य वर्गों के उदाहरणों के समाधान पर विचार करने के लिए आगे बढ़ते हैं, जिसके लिए खेल सिद्धांत में अनुसंधान और समाधान विधियां हैं।

दो व्यक्तियों के असहयोगी (गैर-सहकारी) खेल की औपचारिकता का एक उदाहरण

पिछले पैराग्राफ में, हमने पहले ही एक गैर-सहकारी (गैर-सहकारी) गेम (कैदी की दुविधा) का एक उदाहरण देखा था। आइए अपने कौशल को मजबूत करें। आर्थर कॉनन डॉयल द्वारा लिखित "द एडवेंचर्स ऑफ शेरलॉक होम्स" से प्रेरित एक क्लासिक कथानक भी इसके लिए उपयुक्त है। बेशक, कोई आपत्ति कर सकता है: उदाहरण जीवन से नहीं है, बल्कि साहित्य से है, लेकिन कॉनन डॉयल ने खुद को विज्ञान कथा लेखक के रूप में स्थापित नहीं किया है! क्लासिक इसलिए भी क्योंकि यह कार्य ऑस्कर मॉर्गनस्टर्न द्वारा पूरा किया गया था, जैसा कि हम पहले ही स्थापित कर चुके हैं, गेम थ्योरी के संस्थापकों में से एक।

उदाहरण 1।"द एडवेंचर्स ऑफ शेरलॉक होम्स" के एक अंश का संक्षिप्त सारांश दिया जाएगा। गेम थ्योरी की प्रसिद्ध अवधारणाओं के अनुसार, संघर्ष की स्थिति का एक मॉडल बनाएं और गेम को औपचारिक रूप से लिखें।

शर्लक होम्स अपने पीछा कर रहे प्रोफेसर मोरियार्टी से बचने के लिए महाद्वीप (यूरोपीय) तक पहुंचने के लक्ष्य के साथ लंदन से डोवर तक यात्रा करने का इरादा रखता है। ट्रेन में चढ़ने के बाद, उन्होंने स्टेशन के प्लेटफार्म पर प्रोफेसर मोरियार्टी को देखा। शर्लक होम्स स्वीकार करते हैं कि मोरियार्टी एक विशेष ट्रेन चुन सकते हैं और उससे आगे निकल सकते हैं। शर्लक होम्स के पास दो विकल्प हैं: डोवर की यात्रा जारी रखें या कैंटरबरी स्टेशन पर उतरें, जो उसके मार्ग का एकमात्र मध्यवर्ती स्टेशन है। हम स्वीकार करते हैं कि उसका प्रतिद्वंद्वी होम्स की क्षमताओं को निर्धारित करने के लिए पर्याप्त बुद्धिमान है, इसलिए उसके पास वही दो विकल्प हैं। दोनों विरोधियों को ट्रेन से उतरने के लिए एक स्टेशन चुनना होगा, बिना यह जाने कि उनमें से प्रत्येक क्या निर्णय लेगा। यदि, निर्णय लेने के परिणामस्वरूप, दोनों एक ही स्टेशन पर पहुँचते हैं, तो हम निश्चित रूप से मान सकते हैं कि शर्लक होम्स को प्रोफेसर मोरियार्टी द्वारा मार दिया जाएगा। यदि शर्लक होम्स सुरक्षित रूप से डोवर पहुँच जाता है, तो वह बच जाएगा।

समाधान। कॉनन डॉयल के नायकों को हम खेल में भागीदार अर्थात खिलाड़ी मान सकते हैं। हर खिलाड़ी के लिए उपलब्ध मैं (मैं=1,2) दो शुद्ध रणनीतियाँ:

  • डोवर पर उतरें (रणनीति एसi1 ( मैं=1,2) );
  • किसी मध्यवर्ती स्टेशन पर उतरें (रणनीति) एसi2 ( मैं=1,2) )

दोनों खिलाड़ियों में से प्रत्येक कौन सी रणनीति चुनता है, इसके आधार पर जोड़ी के रूप में रणनीतियों का एक विशेष संयोजन बनाया जाएगा एस = (एस1 , एस 2 ) .

प्रत्येक संयोजन को एक घटना से जोड़ा जा सकता है - प्रोफेसर मोरियार्टी द्वारा शर्लक होम्स की हत्या के प्रयास का परिणाम। हम संभावित घटनाओं के साथ इस गेम का एक मैट्रिक्स बनाते हैं।

प्रत्येक घटना के अंतर्गत प्रोफेसर मोरियार्टी के अधिग्रहण को दर्शाने वाला एक सूचकांक है, और इसकी गणना होम्स की मुक्ति के आधार पर की जाती है। दोनों नायक एक ही समय में रणनीति चुनते हैं, बिना यह जाने कि दुश्मन क्या चुनेगा। इस प्रकार, खेल असहयोगी है क्योंकि, सबसे पहले, खिलाड़ी अलग-अलग ट्रेनों में हैं, और दूसरे, उनके विरोधी हित हैं।

सहकारी (गठबंधन) खेल की औपचारिकता और समाधान का एक उदाहरण एनव्यक्तियों

इस बिंदु पर, व्यावहारिक भाग, यानी, एक उदाहरण समस्या को हल करने की प्रक्रिया, एक सैद्धांतिक भाग से पहले होगी, जिसमें हम सहकारी (गैर-सहकारी) खेलों को हल करने के लिए गेम सिद्धांत की अवधारणाओं से परिचित होंगे। इस कार्य के लिए, गेम थ्योरी सुझाव देती है:

  • विशिष्ट कार्य (सीधे शब्दों में कहें तो, यह खिलाड़ियों को एक गठबंधन में एकजुट करने के लाभ की भयावहता को दर्शाता है);
  • योगात्मकता की अवधारणा (मात्राओं की संपत्ति, जिसमें यह तथ्य शामिल है कि संपूर्ण वस्तु के अनुरूप मात्रा का मूल्य वस्तु के विभाजन के एक निश्चित वर्ग में उसके भागों के अनुरूप मात्राओं के मूल्यों के योग के बराबर है भागों में) और विशेषता फ़ंक्शन की सुपरएडिटिविटी (संपूर्ण वस्तु के अनुरूप मात्रा का मान उसके भागों के अनुरूप मात्राओं के मानों के योग से अधिक है)।

विशेषता फ़ंक्शन की सुपरएडिटिविटी से पता चलता है कि गठबंधन में शामिल होना खिलाड़ियों के लिए फायदेमंद है, क्योंकि इस मामले में गठबंधन के भुगतान का मूल्य खिलाड़ियों की संख्या के साथ बढ़ता है।

खेल को औपचारिक बनाने के लिए, हमें उपरोक्त अवधारणाओं के लिए औपचारिक नोटेशन पेश करने की आवश्यकता है।

खेल के लिए एनआइए हम इसके सभी खिलाड़ियों के सेट को इस प्रकार निरूपित करें एन= (1,2,...,n) समुच्चय का कोई गैर-रिक्त उपसमुच्चय एनआइए इसे इस रूप में निरूपित करें टी(स्वयं सहित एनऔर सभी उपसमुच्चय एक तत्व से बने हैं)। साइट पर एक पाठ है " सेट और सेट पर संचालन", जो लिंक पर क्लिक करने पर एक नई विंडो में खुलती है।

चारित्रिक फलन को इस प्रकार दर्शाया गया है वीऔर इसकी परिभाषा के क्षेत्र में सेट के संभावित उपसमुच्चय शामिल हैं एन. वी(टी) - एक विशेष उपसमुच्चय के लिए विशेषता फ़ंक्शन का मूल्य, उदाहरण के लिए, एक गठबंधन द्वारा प्राप्त आय, संभवतः एक खिलाड़ी से मिलकर। यह महत्वपूर्ण है क्योंकि गेम थ्योरी के लिए सभी असंबद्ध गठबंधनों के विशिष्ट कार्य के मूल्यों के लिए सुपरएडिटिविटी की उपस्थिति की जाँच करना आवश्यक है।

दो गैर-रिक्त उपसमुच्चय गठबंधनों के लिए टी1 और टी2 सहकारी (गठबंधन) खेल के विशिष्ट कार्य की संवेदनशीलता इस प्रकार लिखी गई है:

और सुपरएडिटिविटी इस प्रकार है:

उदाहरण 2.तीन संगीत विद्यालय के छात्र विभिन्न क्लबों में अंशकालिक काम करते हैं; वे अपनी आय क्लब के आगंतुकों से प्राप्त करते हैं। सहकारी खेलों को हल करने के लिए गेम थ्योरी की अवधारणाओं का उपयोग करके निर्धारित करें कि क्या उनके लिए सेना में शामिल होना लाभदायक है (यदि हां, तो किन परिस्थितियों में)। एननिम्नलिखित प्रारंभिक डेटा वाले व्यक्ति।

औसतन, प्रति शाम उनका राजस्व था:

  • वायलिन वादक के पास 600 इकाइयाँ हैं;
  • गिटारवादक के पास 700 इकाइयाँ हैं;
  • गायक के पास 900 इकाइयाँ हैं।

राजस्व बढ़ाने के प्रयास में, छात्रों ने कई महीनों के दौरान विभिन्न समूह बनाए। परिणामों से पता चला कि टीम बनाकर, वे अपना शाम का राजस्व बढ़ा सकते हैं:

  • वायलिन वादक + गिटारवादक ने 1500 इकाइयाँ अर्जित कीं;
  • वायलिन वादक + गायक ने 1800 इकाइयाँ अर्जित कीं;
  • गिटारवादक + गायक ने 1900 इकाइयाँ अर्जित कीं;
  • वायलिन वादक + गिटारवादक + गायक ने 3000 इकाइयाँ अर्जित कीं।

समाधान। इस उदाहरण में, खेल में खिलाड़ियों की संख्या एन= 3, इसलिए, खेल के विशिष्ट कार्य की परिभाषा के क्षेत्र में सभी खिलाड़ियों के सेट के 2³ = 8 संभावित उपसमुच्चय शामिल हैं। आइए सभी संभावित गठबंधनों की सूची बनाएं टी:

  • एक तत्व के गठबंधन, जिनमें से प्रत्येक में एक खिलाड़ी होता है - एक संगीतकार: टी{1} , टी{2} , टी{3} ;
  • दो तत्वों का गठबंधन: टी{1,2} , टी{1,3} , टी{2,3} ;
  • तीन तत्वों का गठबंधन: टी{1,2,3} .

हम प्रत्येक खिलाड़ी को एक क्रमांक निर्दिष्ट करेंगे:

  • वायलिन वादक - प्रथम वादक;
  • गिटारवादक - दूसरा खिलाड़ी;
  • गायक - तीसरा खिलाड़ी।

समस्या डेटा के आधार पर, हम गेम के विशिष्ट कार्य का निर्धारण करते हैं वी:

v(T(1)) = 600 ; v(T(2)) = 700 ; v(T(3)) = 900 ; विशेषता फ़ंक्शन के ये मान क्रमशः पहले, दूसरे और तीसरे खिलाड़ियों के भुगतान के आधार पर निर्धारित किए जाते हैं, जब वे गठबंधन में एकजुट नहीं होते हैं;

v(T(1,2)) = 1500 ; v(T(1,3)) = 1800 ; v(T(2,3)) = 1900 ; विशेषता फ़ंक्शन के ये मूल्य गठबंधन में एकजुट खिलाड़ियों की प्रत्येक जोड़ी के राजस्व से निर्धारित होते हैं;

v(T(1,2,3)) = 3000 ; विशेषता फ़ंक्शन का यह मान उस स्थिति में औसत राजस्व द्वारा निर्धारित किया जाता है जब खिलाड़ी तीन में एकजुट होते हैं।

इस प्रकार, हमने खिलाड़ियों के सभी संभावित गठबंधनों को सूचीबद्ध किया है; जैसा कि होना चाहिए, उनमें से आठ हैं, क्योंकि खेल के विशिष्ट कार्य की परिभाषा के क्षेत्र में सभी खिलाड़ियों के सेट के ठीक आठ संभावित उपसमूह शामिल हैं। गेम थ्योरी की यही आवश्यकता है, क्योंकि हमें सभी असंयुक्त गठबंधनों के विशिष्ट कार्य के मूल्यों के लिए सुपरएडिटिविटी की उपस्थिति की जांच करने की आवश्यकता है।

इस उदाहरण में सुपरएडिटिविटी शर्तें कैसे संतुष्ट हैं? आइए निर्धारित करें कि खिलाड़ी असंयुक्त गठबंधन कैसे बनाते हैं टी1 और टी2 . यदि कुछ खिलाड़ी किसी गठबंधन का हिस्सा हैं टी1 , तो अन्य सभी खिलाड़ी गठबंधन का हिस्सा हैं टी2 और परिभाषा के अनुसार, यह गठबंधन खिलाड़ियों के पूरे सेट और सेट के अंतर के रूप में बनता है टी1 . तो अगर टी1 - एक खिलाड़ी का गठबंधन, फिर गठबंधन में टी2 गठबंधन में दूसरे और तीसरे खिलाड़ी होंगे टी1 पहले और तीसरे खिलाड़ी होंगे, फिर गठबंधन होगा टी2 इसमें केवल दूसरा खिलाड़ी शामिल होगा, इत्यादि।

खेल सिद्धांतसंचालन अनुसंधान की एक शाखा के रूप में, यह विभिन्न हितों वाले कई दलों की अनिश्चितता या संघर्ष की स्थितियों में इष्टतम निर्णय लेने के लिए गणितीय मॉडल का सिद्धांत है। गेम थ्योरी गेमिंग स्थितियों में इष्टतम रणनीतियों का अध्ययन करती है। इनमें वैज्ञानिक और आर्थिक प्रयोगों की एक प्रणाली, सांख्यिकीय नियंत्रण के संगठन और औद्योगिक उद्यमों और अन्य उद्योगों के बीच आर्थिक संबंधों के लिए सबसे लाभप्रद उत्पादन समाधानों के चयन से संबंधित स्थितियां शामिल हैं। संघर्ष स्थितियों को गणितीय रूप से औपचारिक रूप देते हुए, उन्हें दो, तीन आदि के खेल के रूप में दर्शाया जा सकता है। खिलाड़ी, जिनमें से प्रत्येक दूसरे की कीमत पर अपने लाभ, अपनी जीत को अधिकतम करने का लक्ष्य रखता है।

"गेम थ्योरी" खंड को तीन द्वारा दर्शाया गया है ऑनलाइन कैलकुलेटर:

  1. खिलाड़ियों की इष्टतम रणनीतियाँ। ऐसी समस्याओं में, एक भुगतान मैट्रिक्स निर्दिष्ट किया जाता है। खिलाड़ियों की शुद्ध या मिश्रित रणनीतियों को ढूंढना आवश्यक है और, खेल की कीमत. हल करने के लिए, आपको मैट्रिक्स का आयाम और समाधान विधि निर्दिष्ट करनी होगी। सेवा दो-खिलाड़ियों के खेल को हल करने के लिए निम्नलिखित तरीकों को लागू करती है:
    1. मिनीमैक्स. यदि आपको खिलाड़ियों की शुद्ध रणनीति का पता लगाना है या गेम के सैडल पॉइंट के बारे में किसी प्रश्न का उत्तर देना है, तो इस समाधान पद्धति को चुनें।
    2. सिम्प्लेक्स विधि. रैखिक प्रोग्रामिंग विधियों का उपयोग करके मिश्रित रणनीति गेम को हल करने के लिए उपयोग किया जाता है।
    3. ग्राफ़िक विधि. मिश्रित रणनीति गेम को हल करने के लिए उपयोग किया जाता है। यदि कोई काठी बिंदु है, तो समाधान रुक जाता है। उदाहरण: पेऑफ मैट्रिक्स को देखते हुए, गेम को हल करने की ग्राफिकल पद्धति का उपयोग करके खिलाड़ियों की इष्टतम मिश्रित रणनीतियों और गेम की कीमत का पता लगाएं।
    4. ब्राउन-रॉबिन्सन पुनरावृत्त विधि. पुनरावृत्तीय विधि का उपयोग तब किया जाता है जब ग्राफिकल विधि लागू नहीं होती है और जब बीजगणितीय और मैट्रिक्स तरीके. यह विधि खेल की कीमत का अनुमानित मूल्य देती है, और सही मूल्य सटीकता की किसी भी वांछित डिग्री के साथ प्राप्त किया जा सकता है। यह विधि इष्टतम रणनीतियों को खोजने के लिए पर्याप्त नहीं है, लेकिन यह आपको गतिशीलता को ट्रैक करने की अनुमति देती है बारी आधारित खेलऔर प्रत्येक चरण पर प्रत्येक खिलाड़ी के लिए खेल की कीमत निर्धारित करें।
    उदाहरण के लिए, कार्य ऐसा लग सकता है जैसे "पेऑफ मैट्रिक्स द्वारा दिए गए खेल के लिए खिलाड़ियों की इष्टतम रणनीतियों को इंगित करें".
    सभी विधियाँ प्रमुख पंक्तियों और स्तंभों की जाँच का उपयोग करती हैं।
  2. बिमैट्रिक्स गेम। आमतौर पर ऐसे खेल में पहले और दूसरे खिलाड़ियों के भुगतान के समान आकार के दो मैट्रिक्स निर्दिष्ट किए जाते हैं। इन मैट्रिक्स की पंक्तियाँ पहले खिलाड़ी की रणनीतियों के अनुरूप होती हैं, और मैट्रिक्स के कॉलम दूसरे खिलाड़ी की रणनीतियों के अनुरूप होते हैं। इस मामले में, पहला मैट्रिक्स पहले खिलाड़ी की जीत का प्रतिनिधित्व करता है, और दूसरा मैट्रिक्स दूसरे की जीत का प्रतिनिधित्व करता है।
  3. प्रकृति के साथ खेल. इसका उपयोग तब किया जाता है जब मैक्सिमैक्स, बेयस, लाप्लास, वाल्ड, सैवेज, हर्विट्ज़ के मानदंडों के अनुसार प्रबंधन निर्णय का चयन करना आवश्यक होता है।
    बेयस मानदंड के लिए, घटित होने वाली घटनाओं की संभावनाओं को दर्ज करना भी आवश्यक होगा। यदि वे निर्दिष्ट नहीं हैं, तो डिफ़ॉल्ट मान छोड़ दें (समकक्ष घटनाएँ होंगी)।
    हर्विट्ज़ मानदंड के लिए, आशावाद के स्तर को इंगित करें। यदि यह पैरामीटर शर्तों में निर्दिष्ट नहीं है, तो आप मान 0, 0.5 और 1 का उपयोग कर सकते हैं।

कई समस्याओं के लिए कंप्यूटर का उपयोग करके समाधान खोजने की आवश्यकता होती है। उपरोक्त सेवाएँ और कार्य उपकरण में से एक हैं।