Teoria dei giochi: Sia il gioco dato da una matrice. Un esempio di risoluzione di un problema di teoria dei giochi in strategie miste utilizzando il nostro servizio

16.07.2019 Tecnica

La teoria matematica dei giochi, emersa negli anni Quaranta del XX secolo, è spesso utilizzata in economia. Ma come possiamo utilizzare il concetto di gioco per modellare il comportamento delle persone nella società? Perché gli economisti studiano, in quale angolo i calciatori tirano i rigori più spesso e come vincere a "Sasso, carta, forbici", ha spiegato nella sua conferenza Danil Fedorovykh, docente senior presso il Dipartimento di analisi microeconomica dell'HSE.

John Nash e una bionda in un bar

Un gioco è una situazione in cui il profitto di un agente dipende non solo dalle sue azioni, ma anche dal comportamento degli altri partecipanti. Se giochi al solitario a casa, dal punto di vista di un economista e della teoria dei giochi, questo non è un gioco. Implica la presenza obbligatoria di un conflitto di interessi.

Nel film "A Beautiful Mind" su John Nash, vincitore del Nobel in economia c'è una scena con una bionda in un bar. Mostra l'idea per la quale lo scienziato ha ricevuto il premio: questa è l'idea dell'equilibrio di Nash, che lui stesso ha chiamato dinamica di controllo.

Un gioco- qualsiasi situazione in cui i guadagni degli agenti dipendono l'uno dall'altro.

La strategia è una descrizione delle azioni del giocatore in tutte le situazioni possibili.

Il risultato è una combinazione di strategie scelte.

Quindi, da un punto di vista teorico, i giocatori in questa situazione sono solo gli uomini, cioè coloro che prendono la decisione. Le loro preferenze sono semplici: una bionda è meglio di una bruna e una bruna è meglio di niente. Puoi agire in due modi: andare da una bionda o dalla “tua” bruna. Il gioco consiste in una singola mossa, le decisioni vengono prese simultaneamente (cioè non puoi vedere dove sono andati gli altri e poi muoverti da solo). Se una ragazza rifiuta un uomo, il gioco finisce: è impossibile tornare da lei o sceglierne un altro.

Qual è il probabile risultato di questa situazione di gioco? Qual è cioè la sua configurazione stabile da cui tutti capiranno di aver fatto la scelta migliore? In primo luogo, come sottolinea giustamente Nash, se tutti vanno dalla bionda, non finirà bene. Pertanto, lo scienziato suggerisce inoltre che tutti debbano andare dalle brune. Ma poi, se si sa che tutti andranno dalle brune, lui dovrebbe andare dalla bionda, perché è più brava.

Questo è il vero equilibrio: un risultato in cui uno va alla bionda e il resto va alle brune. Ciò può sembrare ingiusto. Ma in una situazione di equilibrio nessuno può pentirsi della propria scelta: chi va dalle brune capisce che comunque non otterrebbe nulla da una bionda. Pertanto, un equilibrio di Nash è una configurazione in cui nessuno individualmente vuole cambiare la strategia scelta da tutti. Cioè, riflettendo alla fine del gioco, ogni partecipante capisce che anche se avesse saputo come stavano gli altri, avrebbe fatto lo stesso. Un altro modo di chiamarlo è un risultato, in cui ciascun partecipante risponde in modo ottimale alle azioni degli altri.

"Sasso carta forbici"

Diamo un'occhiata ad altri giochi per l'equilibrio. Ad esempio, Sasso, Carta, Forbici non ha un equilibrio di Nash: in tutti i suoi possibili risultati, non esiste alcuna opzione in cui entrambi i partecipanti siano soddisfatti della propria scelta. Tuttavia, esiste un campionato mondiale e la World Rock Paper Scissors Society, che raccoglie le statistiche del gioco. Ovviamente, puoi aumentare le tue possibilità di vincita se conosci qualcosa sul comportamento generale delle persone in questo gioco.

Una strategia pura in un gioco è quella in cui una persona gioca sempre allo stesso modo, scegliendo le stesse mosse.

Secondo la World RPS Society, la pietra è la mossa scelta più frequentemente (37,8%). La carta è preferita dal 32,6%, le forbici dal 29,6%. Ora sai che devi scegliere la carta. Tuttavia, se giochi con qualcuno che sa anche questo, non dovrai più scegliere la carta, perché ci si aspetta lo stesso da te. C'è un caso famoso: nel 2005, due case d'asta Sotheby's e Christie's decisero chi avrebbe vinto un lotto molto grande: una collezione di Picasso e Van Gogh con un prezzo di partenza di 20 milioni di dollari. Il proprietario ha suggerito di giocare a Sasso, Carta e Forbici e i rappresentanti delle case gli hanno inviato via email le loro opzioni. Sotheby's, come dissero in seguito, scelse il giornale senza pensarci troppo. Ha vinto da Christie's. Quando hanno preso una decisione, si sono rivolti a un esperto: la figlia di 11 anni di uno dei top manager. Ha detto: “La pietra sembra essere la più forte, motivo per cui la maggior parte delle persone la sceglie. Ma se non giochiamo con un principiante completamente stupido, non getterà via la pietra, si aspetterà che lo facciamo e getterà via lui stesso la carta. Ma noi penseremo un passo avanti e getteremo via le forbici”.

Quindi puoi pensare al futuro, ma questo non ti porterà necessariamente alla vittoria, perché potresti non essere consapevole della competenza del tuo avversario. Pertanto, a volte, invece delle strategie pure, è più corretto scegliere strategie miste, ovvero prendere decisioni in modo casuale. Quindi in “Sasso, Carta, Forbici” l’equilibrio, che non avevamo mai trovato prima, è proprio presente strategie miste: scegli ciascuna delle tre opzioni di mossa con un terzo di probabilità. Se scegli una pietra più spesso, il tuo avversario modificherà la sua scelta. Sapendo questo, adatterai il tuo e l'equilibrio non sarà raggiunto. Ma nessuno di voi inizierà a cambiare comportamento se tutti scegliessero semplicemente sasso, forbici o carta con la stessa probabilità. Questo perché nelle strategie miste è impossibile prevedere la tua prossima mossa sulla base delle azioni precedenti.

Strategia mista e sport

Esistono molti altri esempi seri di strategie miste. Ad esempio, dove servire nel tennis o tirare/tirare un rigore nel calcio. Se non sai nulla del tuo avversario o giochi sempre contro avversari diversi, la strategia migliore è fare le cose in modo più o meno casuale. Il professore della London School of Economics, Ignacio Palacios-Huerta, ha pubblicato nel 2003 un articolo sull’American Economic Review, la cui essenza era trovare l’equilibrio di Nash nelle strategie miste. Palacios-Huerta ha scelto il calcio come oggetto della sua ricerca e ha quindi esaminato più di 1.400 calci di rigore. Naturalmente, nello sport tutto è organizzato in modo più astuto che in "Sasso, carta, forbici": tiene conto della gamba forte dell'atleta, del colpo da diverse angolazioni quando colpisce con tutta la forza e simili. L'equilibrio di Nash qui consiste nel calcolare le opzioni, cioè, ad esempio, determinare gli angoli della porta a cui tirare per vincere con maggiori probabilità, conoscendo i propri punti deboli e punti di forza. Le statistiche per ciascun giocatore di calcio e l'equilibrio trovato in essi nelle strategie miste hanno mostrato che i giocatori di calcio si comportano approssimativamente come previsto dagli economisti. Non vale la pena dire che le persone che tirano rigori hanno letto libri di testo sulla teoria dei giochi e fatto calcoli piuttosto complicati. Molto probabilmente c'è diversi modi impara a comportarti in modo ottimale: puoi essere un brillante calciatore e sentire cosa fare, oppure puoi essere un economista e cercare l'equilibrio in strategie miste.

Nel 2008, il professor Ignacio Palacios-Huerta ha incontrato Abraham Grant, l'allenatore del Chelsea che allora giocava la finale di Champions League a Mosca. Lo scienziato ha scritto una nota all'allenatore con raccomandazioni per i calci di rigore, che riguardavano il comportamento del portiere avversario Edwin van der Sar del Manchester United. Ad esempio, secondo le statistiche, ha quasi sempre parato i tiri a un livello medio e più spesso si è lanciato nella direzione naturale per tirare un rigore. Come abbiamo stabilito sopra, è ancora più corretto randomizzare il tuo comportamento tenendo conto della conoscenza del tuo avversario. Quando il punteggio di rigore era già 6:5, Nicolas Anelka, l'attaccante del Chelsea, avrebbe dovuto segnare. Indicando l'angolo destro prima del tiro, van der Sar sembrava chiedere ad Anelka se avrebbe tirato lì.

Il punto è che tutti i precedenti tiri del Chelsea erano mirati all'angolo destro dell'attaccante. Non sappiamo esattamente perché, forse su consiglio di un economista, colpire in una direzione per loro innaturale, perché secondo le statistiche van der Sar è meno pronto per questo. La maggior parte dei giocatori del Chelsea erano destrimani: colpendo l'innaturale angolo destro, tutti, tranne Terry, hanno segnato. Apparentemente la strategia era che Anelka sparasse lì. Ma van der Sar sembrava capirlo. Si è comportato in modo brillante: ha indicato l'angolo sinistro e ha detto: "Sparerai lì?", cosa che probabilmente ha inorridito Anelka, perché lo avevano indovinato. All'ultimo momento, ha deciso di agire diversamente, colpendo nella sua direzione naturale, che era ciò di cui aveva bisogno van der Sar, che ha preso questo tiro e ha assicurato la vittoria del Manchester. Questa situazione insegna la scelta casuale, perché altrimenti la tua decisione potrebbe essere calcolata e perderai.

"Il dilemma del prigioniero"

Probabilmente il gioco più famoso che dà inizio ai corsi universitari sulla teoria dei giochi è il Dilemma del Prigioniero. Secondo la leggenda, due sospettati di un crimine grave furono catturati e rinchiusi in celle separate. Ci sono prove che detenessero armi e ciò consente loro di essere imprigionati per un breve periodo di tempo. Tuttavia, non ci sono prove che abbiano commesso questo terribile crimine. L'investigatore racconta a ogni individuo le condizioni del gioco. Se entrambi i criminali confessano, andranno entrambi in prigione per tre anni. Se uno confessa e il complice tace, colui che ha confessato verrà rilasciato immediatamente, mentre l'altro sarà imprigionato per cinque anni. Se invece il primo non confessa, e il secondo lo denuncia, il primo andrà in prigione per cinque anni, e il secondo sarà rilasciato immediatamente. Se nessuno confessa, entrambi sconteranno un anno di carcere per possesso di armi.

L'equilibrio di Nash qui risiede nella prima combinazione, quando entrambi i sospettati non restano in silenzio ed entrambi vanno in prigione per tre anni. Il ragionamento di tutti è questo: “se parlo andrò in prigione tre anni, se rimango in silenzio andrò in prigione cinque anni. Se il secondo tace è meglio che lo dica anch’io: è meglio non andare in galera che andare in galera per un anno”. Questa è la strategia dominante: parlare è vantaggioso, qualunque cosa faccia l’altro. Tuttavia, c'è un problema: esiste un'opzione migliore, perché essere imprigionato per tre anni è peggio che essere imprigionato per un anno (se si considera la storia solo dal punto di vista dei partecipanti e non si tiene conto questioni morali). Ma è impossibile sedersi per un anno, perché, come abbiamo capito sopra, non è redditizio per entrambi i criminali rimanere in silenzio.

Miglioramento paretiano

C'è una famosa metafora sulla mano invisibile del mercato, che appartiene ad Adam Smith. Disse che se un macellaio cerca di guadagnarsi da vivere, sarà meglio per tutti: farà della carne saporita, che il fornaio acquisterà con i soldi della vendita delle focacce, che lui, a sua volta, dovrà anche preparare gustoso tanto da venderlo. Ma si scopre che questa mano invisibile non sempre funziona, e ci sono molte situazioni in cui ognuno agisce per se stesso e tutti si sentono male.

Pertanto, a volte gli economisti e i teorici dei giochi non pensano al comportamento ottimale di ciascun giocatore, cioè non all'equilibrio di Nash, ma al risultato in cui l'intera società starà meglio (in Il dilemma, la società è composta da due criminali). . Da questo punto di vista, un risultato è efficiente quando non vi è alcun miglioramento paretiano, ovvero è impossibile migliorare la situazione di qualcuno senza peggiorare la condizione di altri. Se le persone si limitano a scambiare beni e servizi, si tratta di un miglioramento paretiano: lo fanno volontariamente, ed è improbabile che qualcuno si senta in colpa per questo. Ma a volte, se si lascia che le persone interagiscano senza nemmeno intervenire, ciò che escono non sarà Pareto ottimale. Questo è ciò che accade nel Dilemma del Prigioniero. In esso, se lasciamo che tutti agiscano nel modo che è vantaggioso per loro, si scopre che questo fa sentire tutti male. Sarebbe meglio per tutti se tutti agissero in modo non ottimale per se stessi, cioè restassero in silenzio.

Tragedia dei Comuni

Il dilemma del prigioniero è una storia giocattolo. Non è una situazione in cui ti aspetteresti di trovarti, ma effetti simili esistono ovunque intorno a noi. Consideriamo un dilemma con molti attori, a volte chiamato la tragedia dei beni comuni. Ad esempio, ci sono ingorghi sulle strade e decido io come andare al lavoro: in macchina o in autobus. Il resto fa lo stesso. Se vado in macchina e tutti decidono di fare lo stesso, ci sarà un ingorgo, ma arriveremo comodamente. Se vado in autobus ci sarà comunque un ingorgo, ma il viaggio sarà scomodo e non particolarmente veloce, quindi questo risultato sarà ancora peggiore. Se, in media, tutti prendono l'autobus, se faccio lo stesso, arriverò abbastanza velocemente senza ingorghi. Ma se vado in macchina in queste condizioni, ci arrivo anche velocemente, ma anche comodamente. Quindi la presenza di un ingorgo non dipende dalle mie azioni. L’equilibrio di Nash qui è in una situazione in cui tutti scelgono di guidare. Qualunque cosa facciano gli altri, per me è meglio scegliere l'auto, perché non si sa se ci sarà un ingorgo o meno, ma in ogni caso ci arriverò comodamente. Questa è la strategia dominante, quindi alla fine tutti guidano un’auto e noi abbiamo quello che abbiamo. Il compito dello Stato è far viaggiare gli autobus L'opzione migliore almeno per alcuni, motivo per cui ci sono ingressi a pagamento in centro, parcheggi e così via.

Un'altra storia classica è l'ignoranza razionale dell'elettore. Immagina di non conoscere in anticipo l’esito di un’elezione. Potrai studiare i programmi di tutti i candidati, ascoltare i dibattiti e poi votare il migliore. La seconda strategia è quella di recarsi al seggio elettorale e votare a caso o per colui che è stato mostrato più spesso in TV. Qual è il comportamento ottimale se il mio voto non determina mai chi vince (e in un paese di 140 milioni di persone, un voto non deciderà mai nulla)? Certo, voglio che il Paese abbia un buon presidente, ma so che nessuno studierà più attentamente i programmi dei candidati. Pertanto, non perdere tempo su questo è la strategia di comportamento dominante.

Quando sei chiamato a venire a una giornata di pulizia, non dipenderà da nessuno individualmente se il cortile sarà pulito o no: se esco da solo, non potrò pulire tutto, o se escono tutti , allora non uscirò, perché tutto si farà senza che io venga allontanato. Un altro esempio è il trasporto di merci in Cina, di cui ho appreso nel meraviglioso libro di Stephen Landsburg, The Economist on the Couch. 100-150 anni fa in Cina esisteva un modo comune di trasportare le merci: tutto veniva ripiegato in un grande cassone, trainato da sette persone. I clienti pagavano se la merce veniva consegnata in tempo. Immagina di essere uno di questi sei. Puoi spingere e tirare più forte che puoi e, se tutti lo fanno, il carico arriverà in tempo. Se una persona non lo fa, anche tutti arriveranno in tempo. Tutti pensano: “Se tutti gli altri tirano bene, perché dovrei farlo io, e se tutti gli altri non tirano più forte che possono, allora non potrò cambiare nulla”. Di conseguenza, tutto è andato molto male con i tempi di consegna e gli stessi caricatori hanno trovato una via d'uscita: hanno iniziato ad assumere il settimo e a pagarlo per frustare i pigri con una frusta. La sola presenza di una persona del genere costringeva tutti a lavorare più che potevano, perché altrimenti tutti cadevano in un cattivo equilibrio dal quale nessuno poteva uscire con profitto.

Lo stesso esempio può essere osservato in natura. Un albero che cresce in un giardino differisce da uno che cresce in una foresta nella sua chioma. Nel primo caso circonda l'intero tronco, nel secondo si trova solo nella parte superiore. Nella foresta questo è un equilibrio di Nash. Se tutti gli alberi fossero d’accordo e crescessero allo stesso modo, distribuirebbero equamente il numero di fotoni e tutti starebbero meglio. Ma non è vantaggioso per nessun individuo fare questo. Pertanto, ogni albero vuole crescere un po’ più in alto di quelli che lo circondano.

Dispositivo di impegno

In molte situazioni, uno dei partecipanti al gioco potrebbe aver bisogno di uno strumento che convinca gli altri che non sta bluffando. Si chiama dispositivo di impegno. Ad esempio, in alcuni paesi la legge vieta il pagamento di un riscatto ai rapitori per ridurre la motivazione dei criminali. Tuttavia, questa legislazione spesso non funziona. Se il tuo parente viene catturato e tu hai l'opportunità di salvarlo aggirando la legge, lo farai. Immaginiamo una situazione in cui la legge può essere aggirata, ma i parenti sono poveri e non hanno nulla con cui pagare il riscatto. In questa situazione il criminale ha due opzioni: rilasciare o uccidere la vittima. Non gli piace uccidere, ma non gli piace più la prigione. La vittima rilasciata, a sua volta, può testimoniare affinché il rapitore venga punito, oppure rimanere in silenzio. Maggior parte miglior risultato per un criminale: rilasciare una vittima che non lo tradisce. La vittima vuole essere rilasciata e testimoniare.

L’equilibrio qui è che il terrorista non vuole essere catturato, il che significa che la vittima muore. Ma questo non è un equilibrio di Pareto, perché esiste un'opzione in cui tutti stanno meglio: la vittima in libertà rimane in silenzio. Ma per questo è necessario assicurarsi che sia vantaggioso per lei rimanere in silenzio. Da qualche parte ho letto un'opzione in cui può chiedere a un terrorista di organizzare un servizio fotografico erotico. Se il criminale viene imprigionato, i suoi complici pubblicheranno le fotografie su Internet. Ora, se il rapitore rimane libero, questo è un male, ma le fotografie di pubblico dominio sono ancora peggio, quindi c'è un equilibrio. Per la vittima, questo è un modo per rimanere in vita.

Altri esempi di giochi:

Modello Bertrand

Dato che stiamo parlando di economia, guardiamo un esempio economico. Nel modello Bertrand, due negozi vendono lo stesso prodotto, acquistandolo dal produttore allo stesso prezzo. Se i prezzi nei negozi sono gli stessi, i loro profitti sono approssimativamente gli stessi, perché gli acquirenti scelgono un negozio in modo casuale. L’unico equilibrio di Nash in questo caso è vendere il prodotto al prezzo di costo. Ma i negozi vogliono fare soldi. Pertanto, se uno fissa il prezzo a 10 rubli, il secondo lo ridurrà di un centesimo, raddoppiando così le sue entrate, poiché tutti gli acquirenti andranno da lui. Pertanto, è vantaggioso per i partecipanti al mercato ridurre i prezzi, distribuendo così i profitti tra di loro.

Guida su una strada stretta

Diamo un'occhiata ad esempi di scelta tra due possibili equilibri. Immagina che Petya e Masha stiano guidando l'uno verso l'altro lungo una strada stretta. La strada è così stretta che entrambi devono accostare a lato della strada. Se decidono di girare a sinistra o a destra, semplicemente si allontaneranno. Se uno gira a destra e l'altro a sinistra, o viceversa, si verificherà un incidente. Come scegliere dove trasferirsi? Per aiutare a trovare l'equilibrio in questi giochi, ci sono, ad esempio, le regole del traffico. In Russia tutti devono girare a destra.

Anche nel gioco Chicken, quando due persone guidano ad alta velocità l'una verso l'altra, ci sono due equilibri. Se entrambi si accostano al lato della strada, si verifica una situazione chiamata Chicken out; se entrambi non accostano, muoiono in un terribile incidente; Se so che il mio avversario sta andando dritto, è vantaggioso per me spostarmi per sopravvivere. Se so che il mio avversario se ne andrà, allora sarà vantaggioso per me andare dritto in modo da poter ottenere 100 dollari in seguito. È difficile prevedere cosa accadrà effettivamente, tuttavia ogni giocatore ha il proprio metodo per vincere. Immagina di aver riparato il volante in modo che non possa essere girato e di averlo mostrato al mio avversario. Sapendo che non ho scelta, l'avversario salterà via.

Effetto QWERTY

A volte può essere molto difficile passare da un equilibrio all’altro, anche se ciò comporta vantaggi per tutti. Il layout QWERTY è stato progettato per rallentare la velocità di digitazione. Perché se tutti digitassero troppo velocemente, le testine della macchina da scrivere che colpiscono la carta si incastrerebbero a vicenda. Pertanto, Christopher Scholes ha posizionato le lettere che spesso erano adiacenti l'una all'altra alla massima distanza possibile. Se vai alle impostazioni della tastiera sul tuo computer, puoi selezionare il layout Dvorak lì e digitare molto più velocemente, poiché ora non ci sono problemi con le macchine da scrivere analogiche. Dvorak si aspettava che il mondo passasse alla sua tastiera, ma viviamo ancora con QWERTY. Naturalmente, se passassimo al layout Dvorak, le generazioni future ci sarebbero grate. Ci impegneremmo tutti e impareremmo di nuovo, e il risultato sarebbe un equilibrio in cui tutti digitano rapidamente. Adesso siamo anche in equilibrio, ma in senso negativo. Ma non è vantaggioso per nessuno essere l'unico a riqualificarsi, perché sarà scomodo lavorare su qualsiasi computer diverso da quello personale.

La teoria dei giochi è una teoria matematica del comportamento ottimale in una situazione di conflitto. Oggetto del suo studio è un modello formalizzato di conflitto o il cosiddetto “gioco”. Il compito principale della teoria dei giochi è determinare le strategie comportamentali ottimali dei partecipanti. Il campo di applicazione della teoria dei giochi si concentra principalmente sui complessi aspetti comportamentali della gestione derivanti dalle differenze negli obiettivi e dalla presenza di una certa libertà di decisione tra i partecipanti al conflitto.

Una situazione di conflitto o “conflitto” è definita come la presenza di molteplici obiettivi tra gli elementi di un sistema e le differenze associate negli interessi e nelle linee di azione o nelle strategie nel perseguimento di tali obiettivi. I conflitti si dividono in antagonisti, quando due individui perseguono interessi opposti, e non antagonisti, quando gli interessi, pur diversi, non sono opposti. In quest’ultimo caso, i conflitti si esprimono non sotto forma di lotta tra due individui, ma sotto forma di incompatibilità di obiettivi nel sistema o di diversa (opposta) natura dell’uso delle risorse, con la partecipazione di fattori incerti di “ natura” nel gioco, in situazioni di competizione, ecc.

Nei problemi di ricerca operativa, come accennato in precedenza, siamo sempre alla ricerca della soluzione ottimale. La nostra "operazione" come insieme di azioni volte a raggiungere un determinato obiettivo viene eseguita sulla base di metodi teorici di ottimizzazione nel migliore dei sensi in relazione alle condizioni reali e può essere considerata come una "lotta" con queste condizioni, che agiscono come un nemico". In questo contesto, otteniamo anche il nostro successo come a scapito del danno del “nemico”.

Tuttavia, la ricerca operativa si impegna a risolvere tali problemi solo nei casi in cui il modo di agire del “nemico” durante l’operazione non cambia e ci è in una certa misura noto. La scelta della strategia si basa solitamente sul principio del risultato garantito: qualunque sia la decisione presa dal nemico, deve esserci garantito un guadagno. Tuttavia, tale situazione di conflitto non è oggetto di ricerca ed è considerata come lo sfondo sul quale si svolgono le azioni delle parti. La ricerca operativa assume la posizione di una sola parte.

La teoria matematica dei giochi studia anche la scelta della strategia, indipendentemente dal fatto che si tratti di un avversario reale o che l'altra parte sia rappresentata dalla natura, ma qui entrambe le parti agiscono come partner alla pari. La teoria dei giochi studia l'essenza interna del conflitto, tenendo conto delle motivazioni del comportamento di entrambe le parti nella dinamica del loro confronto.

I giochi formali considerati nella teoria dei giochi sono molto diversi. Analogamente alla ricerca operativa, sono stati sviluppati vari metodi per trovare strategie ottimali. Ma in questo caso il collegamento tra il metodo e la situazione reale è molto più stretto, sostanzialmente determinante. Lo schema astratto del gioco, da un lato, è simile al modello della situazione, dall'altro è il materiale per l'applicazione dell'uno o dell'altro metodo formale.

Ogni gioco affronta tre questioni principali:

    Qual è il comportamento ottimale di ciascun giocatore in questo gioco?

    Questa comprensione dell’ottimalità è realizzabile? Esistono strategie adeguate?

    Se strategie ottimali esistono, come trovarli?

Come risultato di una soluzione positiva a tutte e tre le domande, viene determinato il percorso per risolvere il problema e costruire il modello corrispondente.

La teoria dei giochi è una disciplina molto giovane e il patrimonio di metodi e modelli sviluppati teoricamente sminuisce la ricerca operativa. Ciò si riflette anche nella significativa complessità dei problemi della teoria dei giochi. Senza avere l'opportunità di considerare in dettaglio l'intero complesso di modelli conosciuti, ne segnaleremo solo alcuni dei più semplici.

1) Giochi a somma zero. Qualsiasi strategia dei giocatori porta a un risultato in cui il guadagno di una parte è esattamente uguale alla perdita dell'altra. La matrice dei payoff contiene tutti gli elementi positivi e, per tutte le possibili combinazioni di strategie, a ciascuna parte può essere raccomandata l’opzione ottimale. Questo tipo di gioco è antagonista.

2) Giochi a somma diversa da zero. Forma generale Giochi. Se non c’è connessione tra i partiti e i partiti non possono formare coalizioni, allora il gioco è antagonistico, altrimenti è un gioco di coalizione con interessi non opposti. L'analisi di tali giochi è difficile nella maggior parte dei casi, soprattutto per sistemi complessi e le raccomandazioni per la scelta delle strategie dipendono da molti fattori.

Un tipo importante nelle condizioni ACS sono i giochi di coalizione o cooperativi. Un gioco del genere richiede ai partecipanti di adempiere a determinati obblighi contrattuali (trasferimento di parte della vincita ai partner, scambio di informazioni, ecc.). Ciò solleva la questione della stabilità di tale coalizione nel caso in cui un partito in una situazione vantaggiosa tenti di violare l’accordo. Ciò solleva la possibilità di introdurre un terzo organismo di controllo per punire eventuali separatisti. Richiede costi che riducono i guadagni delle coalizioni. Ovviamente il gioco diventerà molto più complicato, ma il valore pratico di tali compiti è fuori dubbio.

Lezione 11: Teoria dei giochi e processo decisionale

Oggetto e compiti della teoria dei giochi

I problemi classici dell’analisi di sistema sono problemi decisionali basati su giochi in condizioni di rischio e incertezza.

Sia gli obiettivi dell'operazione, le condizioni per l'esecuzione dell'operazione, sia le azioni consapevoli degli avversari o di altre persone da cui dipende il successo dell'operazione possono essere incerti.

Sono stati sviluppati metodi matematici speciali per giustificare le decisioni in condizioni di rischio e incertezza. In alcuni dei casi più semplici, questi metodi consentono di trovare e selezionare effettivamente la soluzione ottimale. Nei casi più complessi, questi metodi forniscono materiale ausiliario che consente di comprendere meglio la situazione complessa e valutarne ciascuna possibili soluzioni da diversi punti di vista e prendere decisioni tenendo conto delle sue possibili conseguenze. Una delle condizioni importanti per il processo decisionale in questo caso è la minimizzazione del rischio.

Quando si risolvono una serie di problemi pratici nella ricerca operativa (nel campo dell'ecologia, della garanzia della sicurezza della vita, ecc.), è necessario analizzare le situazioni in cui due (o più) parti in guerra si scontrano, perseguendo vari scopi, e il risultato di qualsiasi azione di ciascuna parte dipende dalla linea di condotta scelta dal nemico. Possiamo classificare tali situazioni come situazioni di conflitto.

La teoria dei giochi è una teoria matematica delle situazioni di conflitto, con l'aiuto della quale è possibile sviluppare raccomandazioni per la linea d'azione razionale dei partecipanti al conflitto. Per rendere possibile l'analisi matematica della situazione senza tener conto dei fattori secondari, viene costruito un modello semplificato e schematizzato della situazione, chiamato gioco. il gioco si svolge secondo regole ben definite, intese come un sistema di condizioni che regolano le possibili opzioni per le azioni dei giocatori; la quantità di informazioni che ciascuna parte ha sul comportamento dell'altra; il risultato del gioco a cui porta ciascuna determinata serie di mosse.

Il risultato del gioco (vittoria o sconfitta) non ha sempre un'espressione quantitativa, ma solitamente è possibile, almeno condizionatamente, esprimerlo con un valore numerico.

Una mossa è la scelta di una delle azioni previste dalle regole del gioco e la sua attuazione. Le mosse sono divise in personali e casuali. Si chiama mossa personale scelta consapevole giocatore di uno dei possibili opzioni azione e la sua attuazione. Una mossa casuale è una scelta tra una serie di possibilità, effettuata non dalla decisione del giocatore, ma da un meccanismo di selezione casuale (lanciare una moneta, scegliere una carta da un mazzo mescolato, ecc.). Per ogni mossa casuale, le regole del gioco determinano la distribuzione di probabilità dei possibili risultati. Il gioco può consistere solo nelle mosse personali, o solo nelle mosse casuali, o in una combinazione di entrambe. Il successivo concetto principale della teoria dei giochi è il concetto di strategia. Una strategia è un sistema di decisioni adottate a priori dal giocatore (del tipo “se-allora”), alle quali aderisce durante il gioco, che può essere presentato sotto forma di algoritmo ed eseguito automaticamente.

Lo scopo della teoria dei giochi è quello di sviluppare raccomandazioni per il comportamento ragionevole dei giocatori in una situazione di conflitto, cioè determinare la “strategia ottimale” per ciascuno di loro. Una strategia ottimale per un indicatore non sarà necessariamente ottimale per altri. Essendo consapevoli di queste limitazioni e quindi non aderendo ciecamente alle raccomandazioni ottenute dai metodi di gioco, si può ancora saggiamente utilizzare l'apparato matematico della teoria dei giochi per sviluppare, se non proprio ottimale, almeno una strategia “accettabile”.

Giochi possono essere classificati: in base al numero di giocatori, al numero di strategie, alla natura dell'interazione tra i giocatori, alla natura della vincita, al numero di mosse, allo stato delle informazioni, ecc. .

A seconda del numero di giocatori Ci sono giochi da due e n giocatori. I primi sono i più studiati. I giochi con tre o più giocatori sono stati meno studiati a causa delle difficoltà fondamentali incontrate e delle possibilità tecniche di ottenere una soluzione.

A seconda del numero di strategie possibili, i giochi si dividono in “ finale" E " infinito».

Un gioco si dice finito se ogni giocatore ha solo un numero finito di strategie, e infinito se almeno uno dei giocatori ha un numero infinito di strategie.

Dalla natura dell'interazione i giochi sono divisi in giochi senza coalizione: i giocatori non hanno il diritto di stipulare accordi o formare coalizioni; coalizione (cooperativa) - può unirsi a coalizioni.

IN giochi cooperativi ah le coalizioni sono predeterminate.

Per la natura delle vincite i giochi si dividono in: giochi a somma zero (il capitale totale di tutti i giocatori non cambia, ma viene ridistribuito tra i giocatori; la somma delle vincite di tutti i giocatori è zero) e giochi a somma non zero.

Per tipo di funzioni di payoff i giochi si dividono in: matrice, bimatrice, continuo, convesso, ecc.

Matrice il gioco è un gioco finito a somma zero di due giocatori, in cui il profitto del giocatore 1 è dato sotto forma di matrice (la riga della matrice corrisponde al numero della strategia applicata del giocatore 1, la colonna - il numero della strategia applicata dal giocatore; all'intersezione della riga e della colonna della matrice c'è il payoff del giocatore 1, corrispondente alle strategie applicate).

Per i giochi a matrice, è stato dimostrato che ognuno di essi ha una soluzione e questa può essere facilmente trovata riducendo il gioco a un problema di programmazione lineare.

Bimatrice il gioco è un gioco finito di due giocatori con somma diversa da zero, in cui i guadagni di ciascun giocatore sono specificati da matrici separatamente per il giocatore corrispondente (in ciascuna matrice, la riga corrisponde alla strategia del giocatore 1, la colonna a la strategia del giocatore 2, all'intersezione della riga e della colonna nella prima matrice è il profitto del giocatore 1, nella seconda matrice - le vincite del giocatore)

Continuo Un gioco è considerato quello in cui la funzione di profitto di ciascun giocatore è continua. È stato dimostrato che i giochi di questa classe hanno soluzioni, ma non sono stati sviluppati metodi praticamente accettabili per trovarle.

Se la funzione di profitto è convessa, viene chiamato un gioco del genere convesso. Per loro sono stati sviluppati metodi di soluzione accettabili, che consistono nel trovare la strategia ottimale pura (un certo numero) per un giocatore e le probabilità di utilizzare le strategie ottimali pure dell'altro giocatore. Questo problema è risolto in modo relativamente semplice.

Scrivere un gioco a matrici come matrice dei payoff

Consideriamo la fine del gioco, in cui il primo giocatore A ha m strategie, e il secondo giocatore B-n strategie. Questo gioco è chiamato gioco m×n. Indichiamo le strategie A 1 , A 2 , ..., A m ; e B 1, B 2, ..., B n. Supponiamo che ciascuna parte abbia scelto una certa strategia: A i o B j. Se il gioco consiste solo in mosse personali, la scelta delle strategie determina in modo univoco l'esito del gioco: la vittoria di una delle parti a ij . Se il gioco contiene, oltre alle mosse personali, casuali, allora il profitto per una coppia di strategie A i e B è una variabile casuale che dipende dai risultati di tutte le mosse casuali. In questo caso, una stima naturale del guadagno atteso è l'aspettativa matematica di un guadagno casuale, anch'esso indicato con ij.

Supponiamo di conoscere i valori di a ij per ciascuna coppia di strategie. Questi valori possono essere scritti sotto forma di una tabella rettangolare (matrice), le cui righe corrispondono alle strategie A i e le colonne alle strategie B j .

Quindi, in generale, il gioco delle matrici può essere scritto come la seguente matrice dei payoff:

B1 B2 ... Bn
UN 1 un 11 un 12 ... un 1n
UN 2 un 21 un 22 ... un 2n
... ... ... ... ...
Sono un m1 un m2 ... un minuto

Tabella - Vista generale della matrice dei pagamenti di un gioco a matrici

dove A i sono i nomi delle strategie del giocatore 1, B j sono i nomi delle strategie del giocatore 2, a ij sono i valori di payoff del giocatore 1 quando sceglie la i-esima strategia e il giocatore 2 - j-esima strategia. Poiché questo gioco è un gioco a somma zero, il valore di vincita per il giocatore 2 è il segno opposto del valore di vincita per il giocatore 1.

Il concetto del prezzo inferiore e superiore del gioco. Soluzione del gioco in strategie pure

Ogni giocatore si sforza di massimizzare le proprie vincite, tenendo conto del comportamento del giocatore avversario. Pertanto, per il giocatore 1 è necessario determinare i valori minimi di payoff in ciascuna delle strategie, quindi trovare il massimo di questi valori, ovvero determinare il valore

V n = max i min j a ij

oppure trova i valori minimi per ciascuna riga della matrice dei pagamenti, quindi determina il massimo di questi valori. Viene chiamato il valore V n maximin matrici o il prezzo più basso del gioco. La strategia del giocatore che corrisponde al massimo V n è chiamata strategia del massimo.

Ovviamente, se aderiamo alla strategia del maximin, ci sarà garantita una vittoria non inferiore a V n indipendentemente dal comportamento del nemico. Pertanto, il valore di Vn è il minimo garantito che possiamo fornirci aderendo alla nostra strategia più cauta.

Il valore del guadagno del giocatore 1 è uguale, per definizione di un gioco a matrice, all’importo della perdita del giocatore 2. Pertanto, per il giocatore 2 è necessario determinare il valore

V in = min j max i a ij

Oppure trova i valori massimi per ciascuna delle colonne della matrice dei pagamenti, quindi determina il minimo di questi valori. Viene chiamato il valore V in minimax matrici, prezzo più alto del gioco o vincite minimax. La strategia vincente dell'avversario è chiamata strategia minimax. Aderendo alla sua più cauta strategia minimax, l'avversario ha la garanzia che in ogni caso non perderà più del V secolo.

Se i valori di V n e V in non coincidono, pur mantenendo le regole del gioco (coefficienti a ij) nel lungo termine, la scelta delle strategie da parte di ciascun giocatore risulta instabile. Acquisisce stabilità solo quando V n = V c = V. In questo caso si dice che il gioco ce l'ha soluzione in strategie pure e le strategie in cui viene raggiunto V sono strategie pure ottimali. La quantità V si chiama al puro prezzo del gioco .

Ad esempio, in una matrice:

B1 B2 B3 B4 Min j
UN 1 17 16 15 14 14
UN 2 11 18 12 13 11
UN 3 18 11 13 12 11
Massimo io 18 18 15 14

Tabella - Matrice dei pagamenti in cui esiste una soluzione in strategie pure

C’è una soluzione nelle strategie pure. In questo caso, per il giocatore 1 la strategia pura ottimale sarà la strategia A 1 , e per il giocatore 2 - la strategia B 4 .

Nella matrice, non esiste soluzione nelle strategie pure, poiché il prezzo più basso del gioco si ottiene nella strategia A 1 e il suo valore è 12, mentre il prezzo più alto del gioco si ottiene nella strategia B 4 e il suo valore è 13.

B1 B2 B3 B4 Min j
UN 1 17 16 15 12 12
UN 2 11 18 12 13 11
UN 3 18 11 13 12 11
Massimo io 18 18 15 13

Tabella - Matrice dei pagamenti in cui non esiste soluzione nelle strategie pure

Ridurre l'ordine della matrice dei payoff

L'ordine della matrice dei payoff (numero di righe e colonne) può essere ridotto eliminando strategie dominate e duplicate.

Viene chiamata la strategia K* dominato strategia K**, se per qualsiasi variante di comportamento dell'avversario la relazione è soddisfatta

Ak*< A k** ,

dove A k* e A k** sono i valori di payoff quando il giocatore sceglie rispettivamente le strategie K* e K**.

Se la relazione è soddisfatta

la strategia K* è detta duplicata rispetto alla strategia K**.

Ad esempio, in una matrice con strategie dominate e duplicate, la strategia A 1 è dominata dalla strategia A 2, la strategia B 6 è dominata dalle strategie B 3, B 4 e B 5 e la strategia B 5 è duplicata dalla strategia B 4 .

B1 B2 B3 B4 B5 B6
UN 1 1 2 3 4 4 7
UN 2 7 6 5 4 4 8
UN 3 1 8 2 3 3 6
UN 4 8 1 3 2 2 5

Tabella - Matrice dei pagamenti con strategie dominate e duplicate

Queste strategie non saranno scelte dai giocatori, poiché ovviamente stanno perdendo e la rimozione di queste strategie dalla matrice di pagamento non influenzerà la determinazione dei prezzi inferiore e superiore del gioco descritto da questa matrice.

L’insieme delle strategie non dominate ottenute riducendo la dimensione della matrice dei pagamenti è detto anche insieme di Pareto.

Esempi di giochi

1. Gioco "Pollo"

Il gioco di Chicken coinvolge i giocatori impegnati in interazioni che provocano gravi danni a ciascun giocatore finché uno dei giocatori non abbandona il gioco. Un esempio dell'uso di questo gioco è l'interazione dei veicoli, ad esempio una situazione in cui due auto si muovono l'una verso l'altra e quella che sterza per prima è considerata la "debole" o la "gallina". Lo scopo del gioco è creare tensione che porti all'eliminazione del giocatore. Questa situazione si riscontra spesso tra gli adolescenti o i giovani aggressivi, anche se a volte comporta meno rischi. Un'altra applicazione di questo gioco è una situazione in cui due partiti politici entrano in contatto in cui non hanno nulla da guadagnare, e solo l’orgoglio li costringe a mantenere l’opposizione. I partiti esitano a fare concessioni finché non raggiungono il punto finale. La tensione psicologica che ne deriva può portare uno dei giocatori a una strategia comportamentale sbagliata: se nessuno dei giocatori si arrende, allora una collisione e un esito fatale sono inevitabili.

La matrice di pagamento del gioco è simile alla seguente:

mollare Non arrenderti
mollare 0, 0 -1, +1
Non arrenderti +1, -1 -100, -100

2. Gioco “aquilone e colomba”

Il gioco "aquilone e piccione" è un esempio biologico di gioco. In questa versione, due giocatori con risorse illimitate scelgono una delle due strategie. Il primo ("colomba") prevede che il giocatore dimostri la sua forza intimidendo l'avversario, mentre il secondo ("aquilone") prevede che il giocatore attacchi fisicamente l'avversario. Se entrambi i giocatori scelgono la strategia dell'aquilone, combattono ferendosi a vicenda. Se uno dei giocatori sceglie la strategia "aquilone" e il secondo "colomba", il primo sconfigge il secondo. Se entrambi i giocatori sono “piccioni”, gli avversari giungono a un compromesso, ricevendo un profitto che risulta essere inferiore al profitto dell’”aquilone” che sconfigge la “colomba”, come segue dalla matrice dei profitti di questo gioco.

Qui V è il prezzo dell’accordo, C è il prezzo del conflitto e V

Nel gioco dell’aquilone e della colomba ci sono tre punti di equilibrio di Nash:

  1. Il primo giocatore sceglie “aquilone” e il secondo “colomba”.
  2. Il primo giocatore sceglie “colomba” e il secondo “aquilone”.
  3. entrambi i giocatori scelgono una strategia mista in cui l'“aquilone” viene scelto con probabilità p, e la “colomba” con probabilità 1-p.

3. Il dilemma del prigioniero

Il dilemma del prigioniero è una delle situazioni di conflitto più comuni considerate nella teoria dei giochi.

Il classico dilemma del prigioniero funziona così: due sospettati, A e B, si trovano in celle diverse. L'investigatore, visitandoli individualmente, propone il seguente accordo: se uno di loro testimonia contro l'altro e il secondo rimane in silenzio, il primo prigioniero verrà rilasciato e il secondo sarà condannato a 10 anni. Se entrambi tacciono sconteranno 6 mesi. Se entrambi si tradiscono a vicenda, ciascuno riceverà 2 anni. Ciascuno dei prigionieri deve prendere una decisione: tradire il proprio complice o rimanere in silenzio, non sapendo quale decisione abbia preso l'altro. Dilemma: quale decisione prenderanno i prigionieri?

Matrice dei pagamenti del gioco:

IN in questo caso, il risultato si basa sulla decisione di ciascuno dei prigionieri. La situazione dei giocatori è complicata dal fatto che non sanno quale decisione ha preso l'altro e dal fatto che non si fidano l'uno dell'altro.

La migliore strategia per i giocatori sarà la cooperazione, in cui entrambi rimangono in silenzio e ricevono il massimo profitto (periodo più breve), ogni altra soluzione sarà meno vantaggiosa per tutti.

Analizziamo il “dilemma del prigioniero”, spostandoci per chiarezza sulla matrice dei pagamenti della forma canonica:

Cooperazione Rifiuto di collaborare
Cooperazione 3, 3 0, 5
Rifiuto di collaborare 5, 0 1, 1

Secondo questa matrice, il costo del reciproco rifiuto di cooperare (S) è di 1 punto per ciascun giocatore, il costo della cooperazione (R) è di 3 punti e il costo della tentazione di tradire l’altro (T) è di 5 punti. Possiamo scrivere la seguente disuguaglianza: T > R > S. Ripetendo il gioco più volte, la scelta della cooperazione prevale sulla tentazione di tradire e ottenere la vincita massima: 2 R > T + S.

Equilibrio di Nash.

Un equilibrio di Nash è una situazione in cui nessun giocatore ha un incentivo a cambiare la propria strategia data la strategia di un altro giocatore (un’altra impresa), consentendo ai giocatori di raggiungere una soluzione di compromesso.

La definizione di equilibrio di Nash e la sua esistenza sono definite come segue.

Sia (S, f) un gioco in cui S è l'insieme delle strategie e f è l'insieme dei payoff. Quando ciascun giocatore i ∈ (1, ..., n) sceglie la strategia x i &isin S, dove x = (x 1 , ..., x n), allora il giocatore i riceve il profitto f i (x). La vittoria dipende dalla strategia scelta da tutti i giocatori. Una strategia x* ∈ S è un equilibrio di Nash se nessuna deviazione da esso da parte di un giocatore gli porta un profitto, cioè per tutti i vale la seguente disuguaglianza:

f io (x*) ≥ f io (xi , x* -i)

Ad esempio, il gioco del dilemma del prigioniero ha un equilibrio di Nash: una situazione in cui entrambi i prigionieri si tradiscono a vicenda.

Il modo più semplice per determinare l’equilibrio di Nash è utilizzare la matrice dei payoff, soprattutto nei casi in cui il gioco coinvolge due giocatori che hanno più di due strategie nel proprio arsenale. Poiché in questo caso l'analisi formale sarà piuttosto complessa, viene applicata una regola mnemonica, che è la seguente: una cella della matrice dei payoff rappresenta un equilibrio di Nash se il primo numero in esso contenuto è il massimo tra tutti i valori presentati nelle colonne e il secondo numero nella cella è il numero massimo tra tutte le righe.

Ad esempio, applica questa regola a una matrice 3x3:

UN B C
UN 0, 0 25, 40 5, 10
B 40, 25 0, 0 5, 15
C 10, 5 15, 5 10, 10

Punti di equilibrio di Nash: (B,A), (A,B) e (C,C). Infatti, per la cella (B,A), dal momento che 40 — valore massimo nella prima colonna, 25 è il valore massimo nella seconda riga. Per la cella (A,B), 25 è il valore massimo nella seconda colonna, 40 è il valore massimo nella seconda riga. Lo stesso vale per la cella (C,C).

Consideriamo un esempio del gioco dell'inquinamento ( ambiente). Qui l'oggetto della nostra attenzione sarà questo punto di vista effetti collaterali produzione come inquinamento. Se le aziende non chiedessero mai a nessuno cosa fare, ognuna di loro preferirebbe creare inquinamento piuttosto che installare costosi depuratori. Se un’azienda decidesse di ridurre le emissioni nocive, i costi e, di conseguenza, i prezzi dei suoi prodotti aumenterebbero e la domanda diminuirebbe. È del tutto possibile che questa società vada semplicemente in bancarotta. Vivendo nel mondo crudele della selezione naturale, le imprese preferirebbero rimanere nell’equilibrio di Nash (cella D), in cui non è necessario spendere soldi in strutture e tecnologie di trattamento. Nessuna azienda sarà in grado di aumentare i profitti riducendo l’inquinamento.

Ditta 1
Azienda 2 Basso inquinamento Alto livello di inquinamento
Basso inquinamento UN
100,100
IN
-30,120
Alto livello di inquinamento CON
120,-30
D
100,100

Tabella - Matrice dei pagamenti del gioco dell'inquinamento ambientale.

Una volta entrata nel gioco economico, ogni azienda siderurgica non regolamentata e che massimizza il profitto produrrà inquinamento dell’acqua e dell’aria. Se un’azienda cercasse di ripulire le proprie emissioni, sarà costretta ad aumentare i prezzi e subire perdite. Il comportamento non cooperativo stabilirà un equilibrio di Nash in condizioni di elevate emissioni. Il governo può adottare misure per garantire che l’equilibrio si sposti nella cella A. In questa situazione, l’inquinamento sarà trascurabile, ma i profitti rimarranno gli stessi.

I giochi sull’inquinamento sono uno dei casi in cui il meccanismo della “mano invisibile” non funziona. Questa è una situazione in cui l’equilibrio di Nash è inefficiente. A volte questi giochi incontrollati diventano pericolosi e il governo può intervenire. Stabilendo un sistema di sanzioni e quote per le emissioni, il governo può indurre le imprese a scegliere il risultato A, che corrisponde a basso livello inquinamento. Le aziende guadagnano esattamente come prima, con grandi emissioni, e il mondo diventa un po’ più pulito.

Un esempio di risoluzione di un gioco a matrici in strategie pure

Consideriamo un esempio di risoluzione di un gioco a matrici in strategie pure, in un'economia reale, in una situazione in cui due imprese combattono per il mercato dei prodotti di una regione.

Compito.

Due imprese producono prodotti e li forniscono al mercato regionale. Sono gli unici fornitori di prodotti nella regione, quindi determinano completamente il mercato di questi prodotti nella regione.

Ciascuna delle imprese ha la capacità di produrre prodotti utilizzando uno dei tre varie tecnologie. A seconda della compatibilità ambientale del processo tecnologico e della qualità dei prodotti realizzati da ciascuna tecnologia, le imprese possono fissare il prezzo unitario rispettivamente a 10, 6 e 2 unità monetarie. Allo stesso tempo, le imprese hanno costi diversi per unità di produzione.

Tabella - Costi per unità di prodotti fabbricati nelle imprese della regione (unità).

Come risultato della ricerca di mercato del mercato dei prodotti regionali, è stata determinata la funzione di domanda dei prodotti:

Y = 6 - 0,5⋅X,

dove Y è la quantità di prodotti che la popolazione della regione acquisterà (migliaia di unità) e X è il prezzo medio dei prodotti delle imprese, unità unitarie.

I dati sulla domanda di prodotti in base ai prezzi di vendita sono riportati nella tabella:

Prezzo di vendita 1 unità. prodotti, ad es.

Prezzo medio di vendita di 1 unità. prodotti, ad es.

Domanda di prodotti, migliaia di unità

Impresa 1 Impresa 2
10 10 10 1
10 6 8 2
10 2 6 3
6 10 8 2
6 6 6 3
6 2 4 4
2 10 6 3
2 6 4 4
2 2 2 5

Tabella - Domanda di prodotti nella regione, migliaia di unità.

I valori della quota di prodotti dell'impresa 1 acquistata dalla popolazione dipendono dal rapporto tra i prezzi dei prodotti dell'impresa 1 e dell'impresa. A seguito di ricerche di mercato, questa dipendenza è stata stabilita e i valori sono stati calcolati :

Tabella - Quota di prodotti dell'impresa 1 acquistati dalla popolazione in base al rapporto tra i prezzi dei prodotti

Secondo il problema, ci sono solo 2 imprese che operano nel mercato regionale. Pertanto, la quota dei prodotti della seconda impresa acquistata dalla popolazione, a seconda del rapporto tra i prezzi dei prodotti, può essere definita come uno meno la quota della prima impresa.

Le strategie delle imprese in questo problema sono le loro decisioni riguardo alle tecnologie di produzione. Queste decisioni determinano il costo e il prezzo di vendita per unità di produzione. Nel compito è necessario determinare:

  1. Esiste una situazione di equilibrio in questo problema quando si scelgono le tecnologie di produzione per entrambe le imprese?
  2. Esistono tecnologie che ovviamente le imprese non sceglieranno a causa della non redditività?
  3. Quanta produzione verrà venduta in una situazione di equilibrio? Quale azienda sarà in una posizione vantaggiosa?

La soluzione del problema

  1. Determiniamo il significato economico dei coefficienti vincenti nella matrice di pagamento del problema. Ogni impresa si sforza di massimizzare i profitti dalla produzione. Inoltre, in questo caso, le imprese stanno lottando per il mercato dei prodotti nella regione. In questo caso, il guadagno di un’impresa significa la perdita di un’altra. Tale problema può essere ridotto a un gioco di matrici a somma zero. In questo caso, i coefficienti vincenti saranno la differenza tra i profitti derivanti dalla produzione dell'impresa 1 e dell'impresa 2. Se questa differenza è positiva, vince l’impresa 1, mentre se è negativa, vince l’impresa 2.
  2. Calcoliamo i coefficienti vincenti della matrice di pagamento. Per fare ciò, è necessario determinare i valori di profitto dell'impresa 1 e dell'impresa 2 dalla produzione.

Il profitto dell’impresa in questo problema dipende da:

  • sul prezzo e sul costo di produzione;
  • sulla quantità di prodotti acquistati dalla popolazione della regione;
  • dalla quota di prodotti acquistati dalla popolazione dall'impresa.

Pertanto, i valori della differenza nel profitto delle imprese corrispondenti ai coefficienti della matrice dei pagamenti devono essere determinati utilizzando la formula:

D = p⋅(S⋅R1 - S⋅C1) - (1 - p)⋅(S⋅R2 - S⋅C2),

dove D è la differenza tra il profitto derivante dalla produzione dell'impresa 1 e dei prodotti dell'impresa

p è la quota di prodotti dell’impresa 1 acquistati dalla popolazione della regione;

S è la quantità di prodotti acquistati dalla popolazione della regione;

R1 e R2: prezzi di vendita per unità di produzione da parte delle imprese 1 e

C1 e C2: il costo totale di un'unità di produzione prodotta nelle imprese 1 e

Calcoliamo uno dei coefficienti della matrice dei pagamenti.

Supponiamo, ad esempio, che l'impresa 1 decida di produrre prodotti secondo la tecnologia III e l'impresa 2 - secondo la tecnologia II. Quindi il prezzo di vendita per unità. i prodotti per l'impresa 1 ammonteranno a 2 unità. al costo unitario. prodotti 1,5 unità Per l'impresa 2, il prezzo di vendita per unità. i prodotti saranno 6 unità. al costo di 4,00.

La quantità di prodotti che la popolazione della regione acquisterà al prezzo medio di 4 unità è pari a 4mila unità. (Tabella 1). La quota di prodotti che la popolazione acquisterà dall'impresa 1 sarà 0,85 e dall'impresa 2 - 0,15 (Tabella 1.3). Calcoliamo il coefficiente della matrice di pagamento a 32 utilizzando la formula:

a 32 = 0,85⋅(4⋅2 - 4×1,5) - 0,15⋅(4⋅6 - 4⋅4) = 0,5 mila unità.

dove i=3 è il numero di tecnologia della prima impresa e j=2 è il numero di tecnologia della seconda impresa.

Allo stesso modo, calcoliamo tutti i coefficienti della matrice dei pagamenti. Nella matrice dei pagamenti, le strategie A 1 - A 3 - rappresentano le decisioni sulle tecnologie di produzione per l'impresa 1, le strategie B 1 - B 3 - le decisioni sulle tecnologie di produzione per l'impresa 2, i coefficienti vincenti - la differenza tra i profitti dell'impresa 1 e dell'impresa

B1 B2 B3 Min j
UN 1 0,17 0,62 0,24 0,17
UN 2 0,3 -1,5 -0,8 -1
UN 3 0,9 0,5 0,4 0,4
Massimo io 3 0,62 0,4

Tabella - Matrice dei pagamenti nel gioco “Lotta tra due imprese”.

Non ci sono strategie dominanti o sovrapposte in questa matrice. Ciò significa che per entrambe le imprese non esistono tecnologie di produzione ovviamente non redditizie. Determiniamo gli elementi minimi delle righe della matrice. Per l'impresa 1 ciascuno di questi elementi ha il valore del guadagno minimo garantito nella scelta della strategia adeguata. Gli elementi minimi della matrice per riga hanno i seguenti valori: 0,17, -1,5, 0,4.

Determiniamo gli elementi massimi delle colonne della matrice. Per l'impresa 2 ciascuno di questi elementi ha anche il valore del guadagno minimo garantito nella scelta della strategia adeguata. Gli elementi massimi della matrice per colonna hanno i seguenti valori: 3, 0,62, 0,4.

Il prezzo più basso del gioco nella matrice è 0,4. Anche il prezzo massimo del gioco è 0,4. Pertanto, il prezzo inferiore e quello superiore del gioco nella matrice sono gli stessi. Ciò significa che esiste una tecnologia per la produzione di prodotti ottimale per entrambe le imprese nelle condizioni di un determinato compito. Questa è la tecnologia III, che corrisponde alle strategie A 3 dell'impresa 1 e B 3 dell'impresa. Le strategie A 3 e B 3 sono strategie ottimali pure in questo problema.

La differenza tra i profitti dell'impresa 1 e dell'impresa 2 quando si sceglie una strategia puramente ottimale è positiva. Ciò significa che l’impresa 1 vincerà la partita. L'utile dell'impresa 1 sarà di 0,4 mila. Allo stesso tempo, sul mercato verranno vendute 5mila unità. prodotti (vendite pari alla domanda di prodotti, tabella 1). Entrambe le imprese fisseranno il prezzo per unità di produzione a 2,00. In questo caso, per la prima impresa il costo totale per unità di produzione sarà di 1,5 unità e per la seconda di 1 unità. L’impresa 1 trarrà beneficio solo a causa dell’elevata quota di prodotti che la popolazione acquisterà da essa.

Criteri decisionali

Il decisore determina la strategia più redditizia a seconda impostazione dell'obiettivo, che implementa nel processo di risoluzione del problema. Il decisore determina il risultato della risoluzione del problema secondo uno dei criteri decisionali. Per arrivare ad una soluzione univoca e, se possibile, più vantaggiosa, è necessario introdurre una funzione di valutazione (target). In questo caso, a ciascuna strategia del decisore (A i) viene assegnato un certo risultato Wi, che caratterizza tutte le conseguenze di questa decisione. Dall'insieme dei risultati del processo decisionale, il decisore seleziona l'elemento W che meglio riflette la motivazione del suo comportamento.

A seconda delle condizioni ambientali e del grado di contenuto informativo del decisore, viene effettuata la seguente classificazione dei compiti decisionali:

  • in condizioni di rischio;
  • in condizioni di incertezza;
  • in condizioni di conflitto o opposizione (nemico attivo).

Processo decisionale in condizioni di rischio.

1. Criterio del valore atteso.

L'utilizzo del criterio del valore atteso è guidato dal desiderio di massimizzare i profitti attesi (o minimizzare i costi attesi). L'utilizzo dei valori attesi implica la possibilità di risolvere ripetutamente lo stesso problema fino ad ottenere valori sufficientemente accurati. formule di calcolo. Matematicamente funziona così: sia X una variabile casuale con aspettativa matematica MX e varianza DX. Se x 1 , x 2 , ..., x n sono i valori della variabile casuale (r.v.) X, allora la media aritmetica dei loro valori (media campionaria) x^=(x 1 +x 2 +. ..+x n)/ n ha una varianza di DX/n. Pertanto, quando n→∞ DX/n→∞ e X→MX.

In altre parole, con una dimensione campionaria sufficientemente ampia, la differenza tra la media aritmetica e l’aspettativa matematica tende a zero (il cosiddetto teorema limite della teoria della probabilità). Di conseguenza, l'utilizzo del criterio del valore atteso è valido solo nel caso in cui la stessa soluzione debba essere applicata un numero sufficientemente elevato di volte. È vero anche il contrario: concentrarsi sulle aspettative porterà a risultati errati per decisioni che devono essere prese un numero limitato di volte.

Esempio 1. È necessario decidere quando è necessario effettuare riparazioni preventive del PC per ridurre al minimo le perdite dovute a malfunzionamenti. Se le riparazioni vengono effettuate troppo spesso, i costi di manutenzione saranno elevati con piccole perdite dovute a guasti accidentali.

Poiché è impossibile prevedere in anticipo quando si verificherà un malfunzionamento, è necessario trovare la probabilità che il PC si guasti nell'intervallo di tempo t. Questo è l'elemento del “rischio”.

Matematicamente funziona così: il PC viene riparato individualmente se si ferma a causa di un guasto. A intervalli di tempo T, vengono eseguite riparazioni preventive su tutti gli n PC. È necessario determinare il valore ottimale di m, al quale i costi totali di riparazione dei PC difettosi e di esecuzione delle riparazioni preventive per un intervallo di tempo sono ridotti al minimo.

Sia p t la probabilità che un PC si guasti al tempo t, e n t sia una variabile casuale pari al numero di tutti i PC che si guastano nello stesso momento. Supponiamo inoltre che C 1 sia il costo di riparazione di un PC difettoso e C 2 sia il costo della riparazione preventiva di una macchina.

L'utilizzo del criterio del valore atteso in questo caso è giustificato se i PC operano per lungo periodo tempo. In questo caso, i costi previsti per un intervallo saranno

OZ = (C1∑M(n t)+C1n)/T,

dove M(nt) è l'aspettativa matematica del numero di PC guasti al tempo t. Poiché n t ha una distribuzione binomiale con parametri (n, p t), allora M(nt t) = np t. Così

OZ = n(C1∑pt+C2)/T.

Le condizioni necessarie per l’ottimalità T* hanno la forma:

OZ (T*-1) ≥ OZ (T*),

HP (T*+1) ≥ HP (T*).

Pertanto, partendo da un piccolo valore di T, calcolare l’OP(

T) finché non sono soddisfatte le necessarie condizioni di ottimalità.

Sia C1 = 100; C2=10; n = 50. I valori p t hanno la forma:

T p.t ∑р t OZ(T)
1 0.05 0 50(100⋅0+10)/1=500
2 0.07 0.05 375
3 0.10 0.12 366.7
4 0.13 02 400
5 0.18 0.35 450

T * →3, OZ(T *)→366,7

Pertanto, la manutenzione preventiva deve essere eseguita a T * = 3 intervalli di tempo.

Criterio “valore atteso – varianza”.

Il criterio del valore atteso può essere modificato in modo da poterlo applicare a situazioni che si verificano raramente.

Se x - c. V. con dispersione DX, allora la media aritmetica x^ ha dispersione DX/n, dove n è il numero di termini in x^. Pertanto, se DX diminuisce, aumenta la probabilità che x^ sia vicino a MX. Pertanto, è opportuno introdurre un criterio in cui la massimizzazione del valore atteso del profitto si coniuga con la minimizzazione della sua varianza.

Esempio 2. Applichiamo il criterio "valore atteso - varianza" per l'esempio 1. Per fare ciò, è necessario trovare la varianza dei costi in un intervallo di tempo, ad es. dispersione

з Т =(C 1 ∑n t +C 2 n)/T

Perché n t , t = (1, T-1) è una v.r., allora anche s T è una v.r. S.v. n t ha una distribuzione binomiale con M(n t) = np t e D(n t) = np t (1–p t). Quindi,

D(× Т) = D((C 1 ∑n t +C 2 n)/T) = (C 1 /T) 2 D(∑n t) =

= (C 1 /T) 2 ∑Dn t = (C 1 /T) 2 ∑np t (1-p t) = (C 1 /T) 2 (∑p t - ∑p t 2 ),

dove C2n = cost.

Dall'esempio 1 ne consegue che

M(zT) = M(z(T)).

Pertanto, il criterio richiesto sarà il minimo dell'espressione

M(z(T)) + a D(z T).

Commento. La costante "k" può essere considerata come un livello avverso al rischio, Perché “k” determina il “grado di possibilità” della dispersione D(z T) rispetto all'aspettativa matematica. Ad esempio, se un imprenditore reagisce in modo particolarmente brusco a grandi deviazioni negative del profitto rispetto a M(z(T)), allora può scegliere “k” molto maggiore di 1. Ciò dà più peso alla varianza e porta a una decisione che riduce la probabilità di grandi perdite di profitto.

Per k=1 otteniamo il problema

M(z(T))+D(z(T)) = n ( (C 1 /T+C 1 2 /T 2)∑p t - C 1 2 /T 2 ∑p t 2 + C 2 /T )

Utilizzando i dati dell'esempio 1, puoi creare la seguente tabella

T p.t punto 2 ∑pt ∑pt 2 M(z(T))+D(z(T))
1 0,05 0,0025 0 0 500.00
2 0,07 0,0049 0,05 0,0025 6312,50
3 0,10 0,0100 0,12 0,0074 6622,22
4 0,13 0,0169 0,2 0,0174 6731,25
5 0,18 0,0324 0,35 0,0343 6764,00

La tabella mostra che la manutenzione preventiva deve essere eseguita durante ciascun intervallo T * =1.

3. Criterio del livello limite

Il criterio del tetto non fornisce una soluzione ottimale che massimizzi, ad esempio, il profitto o minimizzi i costi. Piuttosto, corrisponde alla definizione accettabile modo di azione.

Esempio 3. Supponiamo che la quantità di domanda x per unità di tempo (intensità della domanda) per un certo prodotto sia data da una funzione di distribuzione continua f(x). Se le azioni ci sono momento iniziale sono piccoli, in futuro è possibile una carenza di beni. Altrimenti, entro la fine del periodo in esame, le scorte di beni invenduti potrebbero rivelarsi molto ingenti. In entrambi i casi sono possibili perdite.

Perché È molto difficile determinare le perdite derivanti dalle carenze; ​​il decisore può fissare il livello richiesto di scorte in modo tale da mantenerne il valore previsto il deficit non ha superato A 1 unità e il valore previsto l'eccedenza non ha superato le A 2 unità. In altre parole, sia I il livello di inventario desiderato. Poi

deficit atteso = ∫(x-I)f(x)dx ≤ A 1 ,

surplus atteso = ∫(I-x)f(x)dx ≤ A 2 .

Se A 1 e A 2 vengono scelti arbitrariamente, queste condizioni potrebbero rivelarsi contraddittorie. In questo caso, una delle restrizioni deve essere allentata per garantire l’ammissibilità.

Lasciamo, ad esempio,

f(x) = 20/x 2, 10≤x≤20,

f(x) = 0, x≤10 e x≥20.

∫(x-I)f(x)dx = ∫(x-I)(20/x 2)dx = 20(ln(20/I) + I/20 – 1)

∫(I-x)f(x)dx = ∫(I-x)(20/x 2)dx = 20(ln(10/I) + I/10 – 1)

L’applicazione del criterio del livello limite porta a disuguaglianze

ln(I) - I/20 ≥ ln(20) – A 1 /20 – 1 = 1.996 - A 1 /20

ln(I) - I/10 ≥ ln(10) – A 2 /20 – 1 = 1.302 - A 2 /20

I valori limite A 1 e A 2 devono essere scelti in modo che entrambe le disuguaglianze siano soddisfatte per almeno un valore di I.

Ad esempio, se A 1 = 2 e A 2 = 4, le disuguaglianze assumono la forma

ln(I) - I/20 ≥ 1.896

ln(I) - I/10 ≥ 1.102

Il valore di I deve essere compreso tra 10 e 20, perché È all’interno di questi limiti che la domanda cambia. La tabella mostra che entrambe le condizioni sono soddisfatte per I, dall'intervallo (13,17)

IO 10 11 12 13 14 15 16 17 18 19 20
ln(I) - I/20 1,8 1,84 1,88 1,91 1,94 1,96 1,97 1,98 1,99 1,99 1,99
ln(I) - I/10 1,3 19 18 16 14 11 1,17 1,13 1,09 1,04 0,99

Uno qualsiasi di questi valori soddisfa le condizioni del problema.

Processo decisionale in condizioni di incertezza

Assumeremo che il decisore non venga confrontato ragionevole nemico.

I dati necessari per prendere una decisione in condizioni di incertezza sono solitamente forniti sotto forma di una matrice, le cui righe corrispondono a possibili azioni e le colonne corrispondono a possibili stati del sistema.

Supponiamo, ad esempio, che un prodotto debba essere realizzato con un materiale la cui durabilità non può essere determinata a costi accettabili. Si presuppone che i carichi siano noti. Devi decidere quali dimensioni dovrebbe avere un prodotto realizzato con questo materiale.

Le possibili soluzioni sono:

E 1 - scelta delle taglie per ragioni di massima durabilità;

E m - scelta delle dimensioni per ragioni di durata minima;

E i sono soluzioni intermedie.

Le condizioni da considerare sono:

F 1 - condizioni che garantiscono la massima durata;

F n - condizioni che garantiscono la durabilità minima;

F i sono condizioni intermedie.

Il risultato della decisione e ij = e(E i ; F j) qui può essere inteso come una valutazione corrispondente all'opzione E i e alle condizioni F j e che caratterizza il profitto, l'utilità o l'affidabilità. Tipicamente chiameremo questo risultato utilità della soluzione.

Allora la famiglia (matrice) delle soluzioni ||e ij || ha la forma:

F1 F2 ... Fn
E1 e11 e12 ... e 1n
E2 e21 e 22 ... e 2n
... ... ... ... ...
E m em1 e m2 ... e mn

Per arrivare ad una soluzione univoca e, se possibile, più vantaggiosa, è necessario introdurre una funzione di valutazione (target). In questo caso, la matrice decisionale ||e ij || ridotto a una colonna. Ad ogni opzione E i viene assegnata, cioè un certo risultato e ir, che caratterizza, in generale, tutte le conseguenze di questa decisione. Indicheremo ulteriormente questo risultato con lo stesso simbolo e ir .

Criteri decisionali classici

1. Criterio del minimomax.

La regola per la scelta di una soluzione secondo il criterio minimax (criterio MM) può essere interpretata come segue:

la matrice decisionale è integrata con un'altra colonna dai risultati più piccoli e ir di ogni riga. È necessario selezionare quelle opzioni nelle righe che hanno il valore più alto e ir di questa colonna.

Selezionato a.o. le opzioni eliminano completamente il rischio. Ciò significa che il decisore non può affrontare un risultato peggiore di quello a cui mira. Questa proprietà ci permette di considerare il criterio MM uno di quelli fondamentali.

L'utilizzo del criterio MM è giustificato se la situazione in cui viene presa la decisione è la seguente:

  1. Non si sa nulla sulla possibilità della comparsa di stati esterni F j;
  2. Dobbiamo tener conto dell'apparizione dei vari stati esterni F j ;
  3. La soluzione viene implementata una sola volta;
  4. Ogni rischio deve essere eliminato.

2. Criterio di Bayes-Laplace.

Indichiamo con q i la probabilità della comparsa dello stato esterno F j .

La regola di selezione corrispondente può essere interpretata come segue:

la matrice decisionale è integrata con un'altra colonna contenente l'aspettativa matematica dei valori di ciascuna riga. Vengono selezionate le opzioni le cui righe contengono il valore più grande e ir di questa colonna.

Si presuppone che la situazione in cui viene presa la decisione sia caratterizzata dalle seguenti circostanze:

  1. Le probabilità della comparsa dello stato F j sono note e non dipendono dal tempo.
  2. La soluzione viene implementata (teoricamente) infinite volte.
  3. Per un numero limitato di implementazioni di una soluzione, alcuni rischi sono accettabili.

Quando basta grandi quantità implementazioni, il valore medio si stabilizza gradualmente. Pertanto, con l'implementazione completa (infinita), qualsiasi rischio è praticamente eliminato.

Quello. Il criterio di Bayes-Laplace (criterio B-L) è più ottimista del criterio minimax, ma richiede maggiore consapevolezza e un periodo di attuazione abbastanza lungo.

3. Criterio selvaggio.

a ij:= max i (e ij) - e ij

e ir:= max i (a ij) = max j (max i (e ij) - e ij)

Il valore a ij può essere interpretato come il massimo guadagno aggiuntivo che si ottiene se nello stato F j invece dell'opzione E i si sceglie un'altra opzione che è ottimale per questo stato esterno. Il valore a ij può anche essere interpretato come perdite (multe) che si verificano nello stato F j quando si sostituisce l'opzione ottimale per esso con l'opzione E i . In quest'ultimo caso, e ir rappresenta le perdite massime possibili (su tutti gli stati esterni F j, j = (1, n)) nel caso in cui si scelga l'opzione E i.

La regola di selezione corrispondente al criterio di Savage viene ora interpretata come segue:

  1. Ogni elemento della matrice decisionale ||e ij || viene sottratto dal risultato più grande max(e ij) della colonna corrispondente.
  2. Le differenze a ij formano la matrice dei residui ||e ij ||. Questa matrice viene riempita con una colonna delle maggiori differenze e ir . Seleziona le opzioni le cui righe contengono il valore più piccolo per questa colonna.

I requisiti per la situazione in cui viene presa una decisione coincidono con i requisiti per il criterio MM.

4. Esempio e conclusioni.

Dai requisiti dei criteri considerati risulta chiaro che, a causa delle loro rigide posizioni di partenza, essi sono applicabili solo a soluzioni pratiche idealizzate. Nei casi in cui è possibile un'idealizzazione troppo forte, è possibile applicare contemporaneamente criteri diversi. Successivamente, tra diverse opzioni, il decisore sceglie la decisione finale utilizzando un metodo volitivo. Questo approccio consente, in primo luogo, di penetrare meglio in tutto comunicazioni interne problemi decisionali e, in secondo luogo, indebolisce l’influenza del fattore soggettivo.

Esempio. Quando si utilizza un computer, è necessario sospendere periodicamente l'elaborazione delle informazioni e verificare la presenza di virus nel computer. Una pausa nell'elaborazione delle informazioni comporta determinati costi economici. Se il virus non viene rilevato in tempo, alcune informazioni potrebbero andare perse, il che porterà a perdite ancora maggiori.

Le possibili soluzioni sono:

E 1 - controllo completo;

E 2 - controllo minimo;

E 3 - rifiuto di controllo.

Il computer può trovarsi nei seguenti stati:

F 1 - nessun virus;

F 2 - c'è un virus, ma non ha avuto il tempo di danneggiare le informazioni;

F 3: ci sono file che devono essere ripristinati.

I risultati, compresi i costi per la ricerca del virus e la sua eliminazione, nonché i costi associati al recupero delle informazioni, hanno la forma:

F1 F2 F3 Criterio MM criterio B-L
e ir = min j (e ij) massimo io (e ir) e ir = ∑e ij massimo io (e ir)
E1 -20,0 -20 -25,0 -25,0 -25,0 -22,33
E2 -14,0 -23,0 -31,0 -31,0 -22,67
E3 0 -24.0 -40.0 -40.0 -21.33 -21.33

Secondo il criterio MM, dovrebbe essere effettuato un controllo completo. Criterio di Bayes-Laplace, presupponendo che tutti gli stati della macchina siano ugualmente probabili.

F1 F2 F3 Criterio selvaggio
e ir = min j (a ij) min j (e ir)
E1 +20,0 0 0 +20,0
E2 +14,0 +1,0 +6,0 +14,0 +14,0
E3 0 +2,0 +15,0 +15,0

L'esempio è selezionato appositamente in modo che ciascun criterio offra una nuova soluzione. L'incertezza dello stato in cui l'assegno trova il computer si trasforma in incertezza su quale criterio seguire.

Poiché criteri diversi sono associati a condizioni diverse in cui viene presa una decisione, il modo migliore per confrontare le raccomandazioni di determinati criteri è ottenere informazioni aggiuntive sulla situazione stessa. In particolare, se la decisione da prendere riguarda centinaia di macchine con gli stessi parametri, allora si consiglia di utilizzare il criterio di Bayes-Laplace. Se il numero di macchine non è elevato, è meglio utilizzare i criteri minimax o Savage.

Criteri derivati.

1. Criterio di Hurwitz.

Cercando di assumere la posizione più equilibrata, Hurwitz ha proposto una funzione valutativa che si colloca a metà tra il punto di vista dell’estremo ottimismo e dell’estremo pessimismo:

max i (e ir) = ( C⋅min j (e ij) + (1-C)⋅max j (e ij) ),

dove C è il fattore di ponderazione.

La regola di selezione secondo il criterio di Hurwitz è formata come segue:

matrice decisionale ||e ij || è integrato da una colonna contenente la media ponderata dei risultati più piccoli e più grandi per ciascuna riga. Vengono selezionate solo le opzioni le cui righe contengono gli elementi più grandi in questa colonna.

A C=1, il criterio di Hurwitz diventa il criterio MM. Quando C = 0 diventa il criterio del “giocatore d'azzardo”.

max i (e ir) = max i (max j (e ij)),

quelli. prendiamo il punto di vista di un giocatore d'azzardo che scommette che "si presenterà" la migliore possibilità.

Nelle applicazioni tecniche è difficile scegliere il fattore di ponderazione C perché È difficile trovare una caratteristica quantitativa per quelle quote di ottimismo e pessimismo presenti quando si prende una decisione. Pertanto, molto spesso C: = 1/2.

Il criterio di Hurwitz si applica quando:

  1. non si sa nulla circa le probabilità del verificarsi dello stato F j;
  2. è necessario tenere conto dell'aspetto dello stato F j;
  3. vengono implementate solo un numero limitato di soluzioni;
  4. qualche rischio è accettabile.

2. Criterio Hodge-Lehman.

Questo criterio si basa contemporaneamente sul criterio MM e sul criterio di Bayes-Laplace. Il parametro n esprime il grado di confidenza nella distribuzione di probabilità utilizzata. Se la confidenza è alta, allora prevale il criterio di Bayes-Laplace, altrimenti prevale il criterio MM, cioè noi stiamo cercando

max i (e ir) = max i (v⋅∑e ij ⋅q i + (1-v) min j (e ir)), 0 ≤ n ≤ 1.

La regola di selezione corrispondente al criterio di Hodge-Lehman è formata come segue:

matrice decisionale ||e ij || è integrato da una colonna composta dalle medie ponderate (con peso v≡const) delle aspettative matematiche e dal risultato più piccolo di ciascuna riga (*). Vengono selezionate le opzioni di soluzione nelle cui righe hanno il valore più grande in questa colonna.

A v = 1, il criterio di Hodge-Lehman diventa il criterio di Bayes-Laplace, e a v = 0 diventa un criterio minimax.

La scelta di v è soggettiva perché il grado di affidabilità di qualsiasi funzione di distribuzione è una questione oscura.

Per applicare il criterio di Hodge-Lehman, è auspicabile che la situazione in cui viene presa la decisione soddisfi le seguenti proprietà:

  1. le probabilità del verificarsi dello stato F j sono sconosciute, ma sono possibili alcune ipotesi sulla distribuzione di probabilità;
  2. la soluzione adottata consente teoricamente infinite implementazioni;
  3. con numeri di vendita ridotti, qualche rischio è accettabile.

3. Criterio di Germeier.

Questo criterio si concentra sull’importo delle perdite, vale a dire a valori negativi di tutti e ij . In cui

massimo i (e ir) = massimo i (min j (e ij)q j) .

Perché nei problemi economici si occupano principalmente di prezzi e costi, conditione e ij<0 обычно выполняется. В случае же, когда среди величин e ij встречаются и положительные значения, можно перейти к строго отрицательным значениям с помощью преобразования e ij -a при подходящем образом подобранном a>0. In questo caso la soluzione ottima dipende da a.

La regola di selezione secondo il criterio di Germeyer è formulata come segue:

matrice decisionale ||e ij || è integrato da un'altra colonna contenente in ciascuna riga il prodotto più piccolo del risultato in essa disponibile e la probabilità dello stato corrispondente F j . Le opzioni vengono selezionate nelle righe in cui si trova il valore più grande e e ij di questa colonna.

In un certo senso, il criterio di Germeyer generalizza il criterio MM: nel caso di una distribuzione uniforme q j = 1/n, j=(1,n), diventano identici.

Le condizioni per la sua applicabilità sono le seguenti:

  1. deve essere presa in considerazione la comparsa di determinate condizioni, separatamente o in combinazione;
  2. qualche rischio è accettabile;
  3. la soluzione può essere implementata una o più volte.

Se la funzione di distribuzione non è conosciuta in modo molto affidabile e i numeri di realizzazione sono piccoli, allora, seguendo il criterio di Germeier, si ottiene, in generale, un rischio irragionevolmente grande.

4. Criterio combinato Bayes-Laplace e minimax.

Il desiderio di ottenere criteri che meglio si adattassero alla situazione esistente rispetto a tutti quelli finora considerati ha portato alla costruzione dei cosiddetti criteri compositi. Ad esempio, si consideri un criterio ottenuto combinando i criteri di Bayes-Laplace e minimax (criterio BL(MM)).

La regola di selezione per questo criterio è formulata come segue:

matrice decisionale ||e ij || è integrato da altre tre colonne. Nel primo sono scritte le aspettative matematiche di ciascuna linea, nel secondo la differenza tra il valore di riferimento

e io 0 j 0 = max io (max j (e ij))

e il valore più piccolo

la riga corrispondente. La terza colonna contiene le differenze tra il valore più grande

ciascuna riga e il valore più grande max j (e i 0 j) della riga in cui si trova il valore e i 0 j 0. Vengono selezionate quelle opzioni le cui righe (soggetto alle relazioni fornite di seguito tra gli elementi della seconda e della terza colonna) danno la massima aspettativa matematica. Vale a dire, il valore corrispondente

e io 0 j 0 - max j (e ij)

dalla seconda colonna deve essere o uguale a un livello di rischio predeterminato E add. Il valore della terza colonna deve essere maggiore del valore della seconda colonna.

L’applicazione di questo criterio è dovuta alle seguenti caratteristiche della situazione in cui viene presa la decisione:

  1. le probabilità del verificarsi degli stati F j sono sconosciute, ma esiste qualche informazione a priori a favore di una particolare distribuzione;
  2. è necessario tenere conto dell'aspetto varie condizioni sia singolarmente che in combinazione;
  3. il rischio limitato è accettabile;
  4. la decisione presa viene attuata una o più volte.

Il criterio BL(MM) è adatto per costruire soluzioni pratiche, principalmente nel campo della tecnologia, e può essere considerato abbastanza affidabile. Tuttavia, i limiti di rischio E aggiuntivi indicati e, di conseguenza, le valutazioni del rischio E i non tengono conto né del numero di applicazioni della soluzione né di altre informazioni simili. L'influenza del fattore soggettivo, anche se attenuata, non è del tutto esclusa.

max j (e ij)-max j (e i 0 j)≥E i

è essenziale nei casi in cui la soluzione viene implementata una sola volta o un numero limitato di volte. In queste condizioni non è sufficiente concentrarsi sul rischio legato solo a condizioni esterne e valori medi sfavorevoli. Per questo motivo, tuttavia, potresti subire alcune perdite negli stati esterni di successo. Con un gran numero di implementazioni, questa condizione cessa di essere così importante. Permette anche alternative ragionevoli. Tuttavia, non esistono indicazioni quantitative chiare in quali casi tale condizione debba essere omessa.

5. Criterio delle opere.

max i (e ir):= max i (∏e ij)

La regola di selezione in questo caso è formulata come segue:

Matrice di decisione ||e ij || è integrato da una nuova colonna contenente i prodotti di tutti i risultati di ciascuna riga. Vengono selezionate le opzioni le cui righe contengono valori più alti questa colonna.

L’applicazione di questo criterio è dovuta alle seguenti circostanze:

  1. le probabilità di accadimento dello stato F j sono sconosciute;
  2. l'aspetto di ciascuno degli stati F j separatamente deve essere preso in considerazione;
  3. il criterio è applicabile anche per un numero limitato di implementazioni della soluzione;
  4. qualche rischio è accettabile.

Il criterio del prodotto è adattato principalmente ai casi in cui tutti gli e ij sono positivi. Se la condizione di positività viene violata, allora si dovrebbe eseguire qualche spostamento e ij +a con qualche costante a>|min ij (e ij)|. Il risultato dipenderà naturalmente da a. In pratica il più delle volte

a:= |min ij (e ij)|+1.

Se non è possibile riconoscere un significato a nessuna costante, il criterio del prodotto non è applicabile.

Esempio.

Diamo un'occhiata allo stesso esempio di prima (vedi sopra).

La costruzione di una soluzione ottima per la matrice delle decisioni sugli assegni secondo il criterio di Hurwitz ha la forma (a C = 0, in 10 3):

||e ij || С⋅min j (e ij) (1-С)⋅max j (e ij) e ir massimo io (e ir)
-20,0 -22,0 -25,0 -12,5 -10.0 -22,5
-14,0 -23.0 -31.0 -15,5 -7.0 -22,5
0 -24.0 -40.0 -20.0 0 -20.0 -20.0

IN in questo esempio la soluzione ha un punto di svolta rispetto al fattore peso C: fino a C = 0,57 si sceglie come ottimale E 3, per valori maggiori si sceglie E 1.

Applicazione del criterio di Hodge-Lehman (q=0,33, v=0, in 10 3):

∑e ij ⋅q j min j (e ij) v⋅∑e ij ⋅q j (1-v)⋅∑e ij ⋅q j e ir massimo io (e ir)
-22,33 -25,0 -11,17 -12,5 -23,67 -23,67
-22,67 -31,0 -11,34 -15,5 -26,84
-21,33 -40,0 -10,67 -20,0 -30,76

Il criterio Hodge-Lehman raccomanda l'opzione E 1 (verifica completa), proprio come il criterio MM. L'opzione consigliata cambia solo a v=0,94. Pertanto, una distribuzione uniforme degli stati della macchina in questione deve essere riconosciuta con una probabilità molto elevata in modo che possa essere selezionata in base alla sua aspettativa matematica più elevata. In questo caso il numero di implementazioni della soluzione rimane sempre arbitrario.

Il criterio di Germeyer a q j = 0,33 dà il seguente risultato (in 10 3):

||e ij || ||e ij q j || e ir = min j (e ij q j) massimo io (e ir)
-20,0 -22,0 -25,0 -6,67 -7,33 -8,33 -8,33 -8,33
-14,0 -23,0 -31,.0 -4,67 -7,67 -10,33 -10,33
0 -24,0 -40,0 0 -8,0 -13,33 -13,33

L'opzione E 1 è selezionata come quella ottimale. Il confronto delle opzioni utilizzando il valore e ir mostra che il modo in cui opera il criterio Germeier è ancora più flessibile di quello del criterio MM.

Nella tabella seguente la soluzione viene scelta secondo il criterio BL(MM) in q 1 =q 2 =q 3 =1/2 (dati in 10 3).

||e ij || ∑e ij q j e io 0 j 0 - min j (e ij) massimo j (e ij) max j (e ij) - max j (e i 0 j)
-20,0 -22,0 -25,0 -23,33 0 -20,0 0
-14,0 -23,0 -31,0 -22,67 +6,0 -14,0 +6,0
0 -24,0 -40,0 -21,33 +15,0 0 +20,0

L'opzione E 3 (rifiuto della verifica) è accettata da questo criterio solo quando il rischio si avvicina a Epossible = 15⋅10 3 . Altrimenti E 1 risulta essere ottimale. In molti problemi tecnici e aziendali, il rischio accettabile è molto più basso e solitamente ammonta solo a una piccola percentuale dei costi totali. In questi casi, è particolarmente utile se il valore impreciso della distribuzione di probabilità non ha un impatto molto forte. Se risulta impossibile stabilire in anticipo il rischio accettabile E, indipendentemente dalla decisione presa, può essere utile calcolare il rischio atteso E possibile. Allora diventa possibile considerare se tale rischio è giustificato. Tale ricerca è solitamente più semplice.

I risultati dell'applicazione del criterio del prodotto per a = 41⋅10 3 e a = 200⋅10 3 hanno la forma:

UN ||e ij + a|| e ir = ∏ j e ij max i e ir
41 +21 +19 +16 6384 6384
+27 +18 +10 4860
+41 +17 +1 697
200 +180 +178 +175 5607
+186 +177 +169 5563
+200 +176 +160 5632 5632

Per questa matrice la condizione eij > 0 non è soddisfatta. Pertanto, prima a = 41⋅10 3 e poi a = 200⋅10 3 vengono aggiunti agli elementi della matrice (per arbitrarietà esterna).

Per a = 41⋅10 3 l'opzione E 1 risulta essere ottimale, e per a = 200⋅10 3 l'opzione E 3 risulta essere ottimale, quindi la dipendenza dell'opzione ottima da a è ovvia.

Teoria del gioco - una serie di metodi matematici per risolvere situazioni di conflitto (conflitti di interessi). Nella teoria dei giochi, viene chiamato un gioco modello matematico di una situazione di conflitto. Oggetto di particolare interesse nella teoria dei giochi è lo studio delle strategie decisionali dei partecipanti al gioco in condizioni di incertezza. L'incertezza deriva dal fatto che due o più parti perseguono obiettivi opposti e i risultati di qualsiasi azione di ciascuna parte dipendono dalle mosse del partner. Allo stesso tempo, ciascuna parte si sforza di prendere decisioni ottimali che realizzino al massimo gli obiettivi prefissati.

La teoria dei giochi è applicata in modo più coerente in economia, dove situazioni di conflitto sorgono, ad esempio, nei rapporti tra fornitore e consumatore, acquirente e venditore, banca e cliente. L'applicazione della teoria dei giochi può essere trovata anche in politica, sociologia, biologia e arte militare.

Dalla storia della teoria dei giochi

Storia della teoria dei giochi come disciplina indipendente iniziò nel 1944, quando John von Neumann e Oscar Morgenstern pubblicarono il libro “La teoria dei giochi e il comportamento economico”. Sebbene esempi di teoria dei giochi siano già stati incontrati in precedenza: il trattato del Talmud babilonese sulla divisione della proprietà di un marito defunto tra le sue mogli, i giochi di carte nel XVIII secolo, lo sviluppo della teoria degli scacchi all'inizio del XX secolo, la dimostrazione del teorema minimax dello stesso John von Neumann nel 1928, senza il quale non esisterebbe la teoria dei giochi.

Negli anni '50 del XX secolo, Melvin Drescher e Meryl Flood di Rand Corporation John Nash, il primo ad applicare sperimentalmente il dilemma del prigioniero, sviluppò il concetto di equilibrio di Nash nei suoi lavori sullo stato di equilibrio nei giochi a due.

Reinhard Salten pubblicò nel 1965 il libro "Il trattamento dell'oligopolio nella teoria dei giochi su richiesta" ("Spieltheoretische Behandlung eines Oligomodells mit Nachfrageträgheit"), con il quale l'applicazione della teoria dei giochi in economia ricevette un nuovo impulso. Un passo avanti nell’evoluzione della teoria dei giochi è associato al lavoro di John Maynard Smith, “Evolutionary Stable Strategy” (1974). Il dilemma del prigioniero è stato reso popolare nel libro di Robert Axelrod del 1984 The Evolution of Cooperazione. Nel 1994, John Nash, John Harsanyi e Reinhard Salten furono insigniti del Premio Nobel per i loro contributi alla teoria dei giochi.

La teoria dei giochi nella vita e negli affari

Soffermiamoci più in dettaglio sull'essenza di una situazione di conflitto (scontro di interessi) nel senso in cui è intesa nella teoria dei giochi per l'ulteriore modellazione di varie situazioni nella vita e negli affari. Lascia che un individuo sia in una posizione che porta a uno dei numerosi risultati possibili e che l'individuo abbia alcune preferenze personali riguardo a questi risultati. Ma sebbene possa in una certa misura controllare le variabili che determinano il risultato, non ha un potere completo su di esse. A volte il controllo è nelle mani di più individui che, come lui, hanno alcune preferenze in relazione ai possibili risultati, ma in generale gli interessi di questi individui non sono coerenti. In altri casi, l'esito finale può dipendere sia dal caso (che nelle scienze giuridiche viene talvolta chiamato disastri naturali) e da altri individui. La teoria dei giochi sistematizza le osservazioni di tali situazioni e la formulazione di principi generali per guidare azioni intelligenti in tali situazioni.

Per certi aspetti, il nome "teoria dei giochi" è infelice, poiché suggerisce che la teoria dei giochi si occupi solo di incontri socialmente insignificanti che accadono nei giochi di società, ma tuttavia la teoria ha un significato molto più ampio.

La seguente situazione economica può dare un’idea dell’applicazione della teoria dei giochi. Supponiamo che vi siano diversi imprenditori, ciascuno dei quali si sforza di ottenere il massimo profitto, pur avendo solo un potere limitato sulle variabili che determinano questo profitto. Un imprenditore non ha alcun potere sulle variabili che un altro imprenditore controlla, ma che possono influenzare notevolmente il reddito del primo. Trattare questa situazione come un gioco può sollevare la seguente obiezione. Il modello di gioco presuppone che ogni imprenditore faccia una scelta nell'area possibili elezioni e da queste singole scelte si determinano i profitti. Evidentemente ciò non può quasi accadere nella realtà, poiché in questo caso nell'industria non sarebbero necessari complessi apparati gestionali. Esistono semplicemente una serie di decisioni e modifiche di queste decisioni che dipendono dalle scelte fatte dagli altri partecipanti al sistema economico (giocatori). Ma in linea di principio si può immaginare che qualche amministratore anticipi tutte le possibili contingenze e dettaglii l’azione da intraprendere in ciascun caso, piuttosto che risolvere ogni problema man mano che si presenta.

Un conflitto militare, per definizione, è uno scontro di interessi in cui nessuna delle due parti ha il controllo completo sulle variabili che determinano l’esito, che viene deciso da una serie di battaglie. Puoi semplicemente considerare il risultato come una vittoria o una perdita e assegnargli i valori numerici 1 e 0.

Una delle situazioni di conflitto più semplici che possono essere scritte e risolte nella teoria dei giochi è un duello, che è un conflitto tra due giocatori 1 e 2, aventi rispettivamente P E Q colpi. Per ogni giocatore c'è una funzione che indica la probabilità che il giocatore abbia tirato io in un determinato momento T darà un colpo che sarà fatale.

Di conseguenza, la teoria dei giochi arriva alla seguente formulazione di una certa classe di conflitti di interessi: ci sono N giocatori, e ognuno deve scegliere un'opzione da un centinaio di set specifici e, quando fa una scelta, il giocatore non ha informazioni sulle scelte degli altri giocatori. L'area di possibile scelta del giocatore può contenere elementi come "giocare all'asso di picche", "produrre carri armati invece di automobili", o più in generale, una strategia che definisce tutte le azioni da intraprendere in tutte le circostanze possibili. Ogni giocatore si trova di fronte a un compito: quale scelta dovrebbe fare affinché la sua influenza privata sul risultato gli porti la massima vincita possibile?

Modello matematico nella teoria dei giochi e formalizzazione dei problemi

Come abbiamo già notato, il gioco è un modello matematico di una situazione di conflitto e richiede i seguenti componenti:

  1. parti interessate;
  2. possibili azioni da ciascuna parte;
  3. interessi delle parti.

Le parti interessate al gioco sono chiamate giocatori , ognuno di essi può compiere almeno due azioni (se il giocatore ha a disposizione una sola azione, allora non partecipa effettivamente al gioco, poiché è noto in anticipo cosa farà). Il risultato del gioco si chiama vittoria .

Non sempre esiste una vera situazione di conflitto, ma il gioco (nel concetto di teoria dei giochi) procede sempre di conseguenza certe regole , che determinano precisamente:

  1. opzioni per le azioni dei giocatori;
  2. la quantità di informazioni che ciascun giocatore ha sul comportamento del proprio partner;
  3. il profitto a cui porta ogni serie di azioni.

Esempi di giochi formalizzati includono il calcio, gioco di carte, scacchi.

Ma in economia, emerge un modello di comportamento dei giocatori, ad esempio, quando diverse aziende si sforzano di prendere una posizione più vantaggiosa nel mercato, diversi individui cercano di dividere tra loro una parte del bene (risorse, finanze) in modo che tutti ottengano il più possibile . I protagonisti delle situazioni di conflitto economico, che possono essere modellate come un gioco, sono aziende, banche, individui e altri agenti economici. A sua volta, in condizioni di guerra, il modello di gioco viene utilizzato, ad esempio, nella scelta dell'arma migliore (tra esistente o potenziale) per sconfiggere il nemico o proteggersi dagli attacchi.

Il gioco è caratterizzato dall’incertezza del risultato . I motivi di incertezza possono essere suddivisi nei seguenti gruppi:

  1. combinatorio (come negli scacchi);
  2. l'influenza di fattori casuali (come nel gioco "testa o croce", dadi, giochi di carte);
  3. strategico (il giocatore non sa quale azione intraprenderà il nemico).

Strategia del giocatore è un insieme di regole che determinano le sue azioni ad ogni mossa a seconda della situazione attuale.

Lo scopo della teoria dei giochi è determinare la strategia ottimale per ciascun giocatore. Determinare tale strategia significa risolvere il gioco. Ottimalità della strategia si ottiene quando uno dei giocatori ottiene la vincita massima, mentre il secondo si attiene alla sua strategia. E il secondo giocatore dovrebbe subire una perdita minima se il primo si attiene alla sua strategia.

Classificazione dei giochi

  1. Classificazione per numero di giocatori (gioco di due o più persone). I giochi a due occupano un posto centrale in tutta la teoria dei giochi. Il concetto centrale della teoria dei giochi per i giochi a due persone è una generalizzazione dell’idea molto significativa di equilibrio che appare naturalmente nei giochi a due persone. Per quanto riguarda i giochi N individui, allora una parte della teoria dei giochi è dedicata ai giochi in cui è vietata la cooperazione tra i giocatori. In un'altra parte della teoria dei giochi N gli individui presumono che i giocatori possano cooperare per un vantaggio reciproco (vedere più avanti in questo paragrafo sui giochi non cooperativi e cooperativi).
  2. Classificazione in base al numero di giocatori e alle loro strategie (il numero di strategie è almeno due, potrebbe essere infinito).
  3. Classificazione per quantità di informazioni relativo alle mosse passate: giochi con informazioni complete e informazioni incomplete. Lascia che ci sia il giocatore 1 - acquirente e il giocatore 2 - venditore. Se il giocatore 1 non dispone di informazioni complete sulle azioni del giocatore 2, allora il giocatore 1 potrebbe non distinguere tra le due alternative tra le quali deve fare una scelta. Ad esempio, scegliere tra due tipologie di un prodotto e non sapere quale, secondo alcune caratteristiche, sarà il prodotto UN prodotto peggiore B, il giocatore 1 potrebbe non vedere la differenza tra le alternative.
  4. Classificazione secondo i principi della divisione delle vincite : cooperativa, coalizione da un lato e non cooperativa, non coalizione dall'altro. IN gioco non cooperativo , o altrimenti - gioco non cooperativo , i giocatori scelgono le strategie simultaneamente senza sapere quale strategia sceglierà il secondo giocatore. La comunicazione tra i giocatori è impossibile. IN gioco cooperativo , o altrimenti - gioco di coalizione , i giocatori possono formare coalizioni e intraprendere azioni collettive per aumentare le proprie vincite.
  5. Gioco finito per due persone a somma zero o gioco antagonista è un gioco strategico con informazione completa, che coinvolge parti con interessi opposti. I giochi antagonisti lo sono giochi di matrici .

Un classico esempio della teoria dei giochi è il dilemma del prigioniero.

I due sospettati vengono presi in custodia e separati l'uno dall'altro. Il procuratore distrettuale è convinto che si siano impegnati crimine grave, ma non ha prove sufficienti per accusarli in tribunale. Dice a ciascun prigioniero che ha due alternative: confessare il crimine che la polizia ritiene abbia commesso o non confessare. Se entrambi non confessano, il procuratore distrettuale li accuserà di qualche reato minore, come piccoli furti o possesso illegale di armi, ed entrambi riceveranno una piccola condanna. Se entrambi confessano, saranno processati, ma lui non richiederà la pena più dura. Se uno confessa e l’altro no, a chi ha confessato verrà commutata la pena per l’estradizione di un complice, mentre a chi persiste verrà “il massimo”.

Se questo compito strategico è formulato in termini di conclusione, si riduce a quanto segue:

Pertanto, se entrambi i detenuti non confessano, riceveranno 1 anno ciascuno. Se entrambi confessano, ciascuno riceverà 8 anni. E se uno confessa e l'altro non confessa, chi ha confessato scapperà con tre mesi di prigione e chi non confessa riceverà 10 anni. La matrice sopra riportata riflette correttamente il dilemma del prigioniero: ognuno si trova di fronte alla questione se confessare o non confessare. Il gioco che il procuratore distrettuale propone ai detenuti è gioco non cooperativo o altrimenti - gioco non cooperativo . Se entrambi i detenuti avessero l’opportunità di cooperare (ad es. il gioco sarebbe cooperativo o altro gioco di coalizione ), allora entrambi non avrebbero confessato e sarebbero stati condannati a un anno di prigione ciascuno.

Esempi di utilizzo degli strumenti matematici della teoria dei giochi

Passiamo ora a considerare soluzioni ad esempi di classi comuni di giochi, per i quali esistono metodi di ricerca e soluzione nella teoria dei giochi.

Un esempio di formalizzazione di un gioco non cooperativo (non cooperativo) di due persone

Nel paragrafo precedente, abbiamo già visto un esempio di gioco non cooperativo (non cooperativo) (dilemma del prigioniero). Rafforziamo le nostre competenze. A questo scopo è adatta anche una trama classica ispirata a “Le avventure di Sherlock Holmes” di Arthur Conan Doyle. Si può, ovviamente, obiettare: l'esempio non viene dalla vita, ma dalla letteratura, ma Conan Doyle non si è affermato come scrittore di fantascienza! Classico anche perché il compito è stato portato a termine da Oskar Morgenstern, come abbiamo già stabilito, uno dei fondatori della teoria dei giochi.

Esempio 1. Verrà fornito un breve riassunto di un frammento di una delle "Avventure di Sherlock Holmes". Secondo i noti concetti della teoria dei giochi, crea un modello di una situazione di conflitto e scrivi formalmente il gioco.

Sherlock Holmes intende viaggiare da Londra a Dover con l'ulteriore obiettivo di raggiungere il continente (europeo) per sfuggire al professor Moriarty, che lo insegue. Salito sul treno, vide il professor Moriarty sulla banchina della stazione. Sherlock Holmes ammette che Moriarty può scegliere un treno speciale e sorpassarlo. Sherlock Holmes ha due alternative: proseguire il viaggio verso Dover oppure scendere alla stazione di Canterbury, che è l'unica stazione intermedia del suo percorso. Accettiamo che il suo avversario sia abbastanza intelligente da determinare le capacità di Holmes, quindi ha le stesse due alternative. Entrambi gli avversari devono scegliere una stazione in cui scendere dal treno, senza sapere quale decisione prenderà ciascuno. Se, come risultato della decisione, entrambi finiscono nella stessa stazione, allora possiamo sicuramente presumere che Sherlock Holmes verrà ucciso dal professor Moriarty. Se Sherlock Holmes raggiungerà Dover sano e salvo, sarà salvato.

Soluzione. Possiamo considerare gli eroi di Conan Doyle come partecipanti al gioco, cioè giocatori. Disponibile per ogni giocatore io (io=1,2) due strategie pure:

  • scendere a Dover (strategia Si1 ( io=1,2) );
  • scendere ad una stazione intermedia (strategia Si2 ( io=1,2) )

A seconda di quale delle due strategie sceglie ciascuno dei due giocatori, verrà creata una speciale combinazione di strategie in coppia S = (S1 , S 2 ) .

Ogni combinazione può essere associata a un evento: l'esito del tentato omicidio di Sherlock Holmes da parte del professor Moriarty. Creiamo una matrice di questo gioco con possibili eventi.

Sotto ciascuno degli eventi c'è un indice che indica l'acquisizione del professor Moriarty e calcolato in base alla salvezza di Holmes. Entrambi gli eroi scelgono una strategia contemporaneamente, non sapendo quale sceglierà il nemico. Pertanto, il gioco non è cooperativo perché, in primo luogo, i giocatori si trovano su treni diversi e, in secondo luogo, hanno interessi opposti.

Un esempio di formalizzazione e soluzione di un gioco cooperativo (di coalizione). N persone

A questo punto, la parte pratica, cioè il processo di risoluzione di un problema di esempio, sarà preceduta da una parte teorica, in cui conosceremo i concetti della teoria dei giochi per la risoluzione dei giochi cooperativi (non cooperativi). Per questo compito, la teoria dei giochi suggerisce:

  • funzione caratteristica (per dirla semplicemente, riflette l'entità del vantaggio derivante dall'unione dei giocatori in una coalizione);
  • il concetto di additività (la proprietà delle quantità, consistente nel fatto che il valore di una quantità corrispondente all'intero oggetto è uguale alla somma dei valori delle quantità corrispondenti alle sue parti in una determinata classe di partizioni dell'oggetto in parti) e superadditività (il valore di una quantità corrispondente all'intero oggetto è maggiore della somma dei valori delle quantità, corrispondenti alle sue parti) della funzione caratteristica.

La superadditività della funzione caratteristica suggerisce che aderire ad una coalizione è vantaggioso per i giocatori, poiché in questo caso il valore del payoff della coalizione aumenta con il numero di giocatori.

Per formalizzare il gioco, dobbiamo introdurre notazioni formali per i concetti di cui sopra.

Per il gioco N indichiamo l'insieme di tutti i suoi giocatori come N= (1,2,...,n) Qualsiasi sottoinsieme non vuoto dell'insieme N indichiamolo come T(compreso se stesso N e tutti i sottoinsiemi costituiti da un elemento). C'è una lezione sul sito " Insiemi e operazioni sugli insiemi", che si apre in una nuova finestra quando si fa clic sul collegamento.

La funzione caratteristica è indicata come v e il suo dominio di definizione è costituito da possibili sottoinsiemi dell'insieme N. v(T) - il valore della funzione caratteristica per un particolare sottoinsieme, ad esempio il reddito ricevuto da una coalizione, eventualmente inclusa quella composta da un giocatore. Questo è importante perché la teoria dei giochi richiede di verificare la presenza di superadditività per i valori della funzione caratteristica di tutte le coalizioni disgiunte.

Per due coalizioni di sottoinsiemi non vuoti T1 E T2 L'additività della funzione caratteristica di un gioco cooperativo (di coalizione) si scrive come segue:

E la superadditività è così:

Esempio 2. Tre studenti delle scuole di musica lavorano part-time in diversi club; ricevono il loro reddito dai visitatori del club. Determinare se è vantaggioso per loro unire le forze (se sì, a quali condizioni), utilizzando i concetti della teoria dei giochi per risolvere giochi cooperativi N persone, con i seguenti dati iniziali.

In media, le loro entrate per serata erano:

  • il violinista ne ha 600 unità;
  • il chitarrista ne ha 700;
  • il cantante ha 900 unità.

Nel tentativo di aumentare le entrate, gli studenti hanno creato vari gruppi nel corso di diversi mesi. I risultati hanno mostrato che, collaborando, avrebbero potuto aumentare le entrate serali di:

  • violinista+chitarrista hanno guadagnato 1500 unità;
  • violinista + cantante hanno guadagnato 1800 unità;
  • chitarrista + cantante hanno guadagnato 1900 unità;
  • violinista+chitarrista+cantante hanno guadagnato 3000 unità.

Soluzione. In questo esempio, il numero di giocatori nel gioco N= 3, quindi, il dominio di definizione della funzione caratteristica del gioco è costituito da 2³ = 8 possibili sottoinsiemi dell'insieme di tutti i giocatori. Elenchiamo tutte le possibili coalizioni T:

  • coalizioni di un elemento, ognuna delle quali è composta da un giocatore - un musicista: T{1} , T{2} , T{3} ;
  • coalizione di due elementi: T{1,2} , T{1,3} , T{2,3} ;
  • una coalizione di tre elementi: T{1,2,3} .

Assegneremo un numero di serie ad ogni giocatore:

  • violinista - 1° suonatore;
  • chitarrista - 2° musicista;
  • cantante - 3° giocatore.

Sulla base dei dati del problema, determiniamo la funzione caratteristica del gioco v:

v(T(1)) = 600 ; v(T(2)) = 700 ; v(T(3)) = 900 ; questi valori della funzione caratteristica sono determinati in base ai profitti rispettivamente del primo, secondo e terzo giocatore, quando non si uniscono in una coalizione;

v(T(1,2)) = 1500 ; v(T(1,3)) = 1800 ; v(T(2,3)) = 1900 ; questi valori della funzione caratteristica sono determinati dalle entrate di ciascuna coppia di giocatori uniti in una coalizione;

v(T(1,2,3)) = 3000 ; questo valore della funzione caratteristica è determinato dal ricavo medio nel caso in cui i giocatori si uniscano a tre.

Abbiamo quindi elencato tutte le possibili coalizioni di giocatori; ce ne sono otto, come dovrebbe essere, poiché il dominio di definizione della funzione caratteristica del gioco consiste esattamente di otto possibili sottoinsiemi dell'insieme di tutti i giocatori. Questo è ciò che richiede la teoria dei giochi, poiché occorre verificare la presenza di superadditività per i valori della funzione caratteristica di tutte le coalizioni disgiunte.

Come vengono soddisfatte le condizioni di superadditività in questo esempio? Determiniamo come i giocatori formano coalizioni disgiunte T1 E T2 . Se alcuni giocatori fanno parte di una coalizione T1 , allora tutti gli altri giocatori fanno parte della coalizione T2 e per definizione, questa coalizione è formata dalla differenza tra l'intero insieme di giocatori e l'insieme T1 . Allora se T1 - una coalizione di un giocatore, poi in una coalizione T2 ci saranno un secondo e un terzo giocatore se fanno parte di una coalizione T1 ci saranno il primo e il terzo giocatore, poi la coalizione T2 sarà composto solo dal secondo giocatore e così via.

Teoria del gioco come branca della ricerca operativa, è la teoria dei modelli matematici per prendere decisioni ottimali in condizioni di incertezza o conflitto di più parti con interessi diversi. La teoria dei giochi studia le strategie ottimali nelle situazioni di gioco. Questi includono situazioni relative alla selezione delle soluzioni di produzione più vantaggiose per un sistema di esperimenti scientifici ed economici, all'organizzazione del controllo statistico e alle relazioni economiche tra imprese industriali e altri settori. Formalizzando matematicamente le situazioni di conflitto, queste possono essere rappresentate come un gioco a due, a tre, ecc. giocatori, ognuno dei quali persegue l'obiettivo di massimizzare il proprio vantaggio, le proprie vincite a scapito dell'altro.

La sezione "Teoria dei giochi" è rappresentata da tre calcolatori on-line:

  1. Strategie ottimali dei giocatori. In tali problemi viene specificata una matrice di pagamento. È necessario trovare strategie pure o miste dei giocatori e, prezzo del gioco. Per risolvere è necessario specificare la dimensione della matrice e il metodo di soluzione. Il servizio implementa i seguenti metodi per risolvere una partita a due giocatori:
    1. Minimassimo. Se hai bisogno di trovare la strategia pura dei giocatori o rispondere a una domanda sul punto di sella di un gioco, scegli questo metodo di soluzione.
    2. Metodo del semplice. Utilizzato per risolvere giochi di strategia mista utilizzando metodi di programmazione lineare.
    3. Metodo grafico. Utilizzato per risolvere giochi di strategia mista. Se c’è un punto di sella, la soluzione si ferma. Esempio: data una matrice dei payoff, trova le strategie miste ottimali dei giocatori e il prezzo del gioco utilizzando il metodo grafico per risolvere il gioco.
    4. Metodo iterativo di Brown-Robinson. Il metodo iterativo viene utilizzato quando il metodo grafico non è applicabile e quando quello algebrico e metodi matriciali. Questo metodo fornisce un valore approssimativo del prezzo del gioco e il valore reale può essere ottenuto con qualsiasi grado di precisione desiderato. Questo metodo non è sufficiente per trovare strategie ottimali, ma permette di tracciarne le dinamiche gioco a turni e determinare il prezzo del gioco per ciascuno dei giocatori ad ogni passaggio.
    Ad esempio, il compito potrebbe sembrare “indicare le strategie ottimali dei giocatori per il gioco date dalla matrice dei payoff”.
    Tutti i metodi utilizzano un controllo per righe e colonne dominanti.
  2. Gioco bimatrice. Di solito in un gioco del genere vengono specificate due matrici della stessa dimensione di vincite del primo e del secondo giocatore. Le righe di queste matrici corrispondono alle strategie del primo giocatore e le colonne delle matrici corrispondono alle strategie del secondo giocatore. In questo caso, la prima matrice rappresenta le vincite del primo giocatore, e la seconda matrice – le vincite del secondo.
  3. Giochi con la natura. Viene utilizzato quando è necessario selezionare una decisione gestionale secondo i criteri di Maximax, Bayes, Laplace, Wald, Savage, Hurwitz.
    Per il criterio di Bayes sarà necessario inserire anche le probabilità di accadimento degli eventi. Se non vengono specificati lasciare i valori predefiniti (ci saranno eventi equivalenti).
    Per il criterio di Hurwitz, indicare il livello di ottimismo λ. Se questo parametro non è specificato nelle condizioni, è possibile utilizzare i valori 0, 0,5 e 1.

Molti problemi richiedono la ricerca di soluzioni utilizzando i computer. I servizi e le funzioni di cui sopra sono uno degli strumenti.