Website translation into 96 languages

Thursday 17 March 2022

Теория игр. Дилемма заключённого: или как ЗАКРЫТЬ НЕБО НАД УКРАИНОЙ - Ольга Азарова



Научное чтиво НЕ для всех, а для учёных и аналитиков, кто хочет понять экономику войны.
Кратко суть: Дружба выгодна всем, но она дорого стоит обеим сторонам. А предательство дёшево, поэтому, его используют чаще.
Дилемма заключённого (или «дилемма бандита») — фундаментальная проблема в теории игр, согласно которой рациональные игроки не всегда будут сотрудничать друг с другом, даже если это в их интересах. Суть проблемы была сформулирована Мерилом Фладом и Мелвином Дрешером, название ей дал математик Альберт Такер.

Рассмотрим ее абстрактно и на примере рф* и Украины.

Два человека (две стороны) попали в проблему и их поймала полиция. У них есть две стратегии: 

1. СОТРУДНИЧАТЬ = молчать и не предавать друг друга (и тогда оба получат наименьший срок, разделим минимальную дозу ответственности); 

2. ПРЕДАВАТЬ = атаковать первым, ни с кем не сотрудничая, обвинять своего "напарника" во всем, а с себя снимать вину полностью, потому что страх предательства толкает человека на предательство первым. Как мы и видим, как сейчас поступила рф, атаковав Украину первой безосновательно, потому что путин* боялся, что кто-то когда-то захочет его свергнуть за такое количество награбленного. И даже его ультиматумы по Крыму и Донбассу говорят только о стратегии бандитизма: отнял насильно и требую признать этот отъем! То есть его стратегия "предавать" Украину.

Если обе стороны выбирают "предать", то тогда каждый из игроков несет ответственность - платит максимальную цену убытками.

Полный текст:

В дилемме заключённого на примере игры мы видим, что предательство строго доминирует над сотрудничеством, поэтому единственное возможное равновесие — предательство обоих участников. Проще говоря, Украине тоже выгоднее предавать рф, тем более, что мы видим открытую агрессию и войну, и это уже не предательство, а ответ за нанесенные раны, за непризнание нашего суверенитета и непонимание в целом нашей нации.

Ведя себя по отдельности рационально, вместе участники приходят к нерациональному решению: если оба предадут, они получат в сумме меньший выигрыш, чем если бы сотрудничали (единственное равновесие в этой игре не ведёт к Парето-оптимальному решению). В этом и заключается дилемма.

То есть СОТРУДНИЧЕСТВО - самый выгодный вариант отношений для обеих сторон, но одна из сторон всегда нарушает равновесие и проигрывают все.

Вот такой сценарий нам сейчас навязывает путин, угрожая кнопкой.
Его психопортрет понятен: старость, деменция, рак.... то есть он умирает и хочет потянуть за собой весь мир...

Заборы о продолжении рф или мира у него нет - это болезненный эгоизм и страх смерти. Поэтому мы и видим такие дикие военные шаги, которые здоровому человеку даже трудно даются в понимании.

В повторяющейся дилемме заключённого игра происходит периодически, и каждый игрок может «наказать» другого за несотрудничество ранее. В такой игре сотрудничество может стать равновесием, а стимул предать может перевешиваться угрозой наказания (с ростом числа итераций равновесие Нэша стремится к Парето-оптимуму).

Во всех судебных системах кара за бандитизм (совершение преступлений в составе организованной группы) намного жестче, чем за те же преступления, совершённые в одиночку (отсюда название «дилемма бандита»).
В политическом реализме, к примеру, сценарий дилеммы часто используется для иллюстрации проблемы двух государств, вовлечённых в гонку вооружений. Оба государства будут заявлять, что у них есть две возможности: либо увеличить расходы на военные нужды, либо сокращать вооружения. При этом очевидным образом выполняются постулаты дилеммы заключённого (D > C > d > c):

  • D — «мы вооружились, а противник — нет» — наилучший исход, наибольшая безопасность;
  • C — «никто не вооружился» — следующий по предпочтительности исход;
  • d — «оба вооружились» — плохо, но не катастрофично;
  • c — «мы не вооружились, а противник вооружился» - катастрофический исход.

То есть "никто не вооружился" сегодня самый правильный вывод для мира. ЗАПРЕТИТЬ ЯДЕРНОЕ ВООРУЖЕНИЕ в каждой стране, а не только в Ираке и Иране - является главной целью мира.

С точки зрения стороны А, если сторона Б не вооружается, то для А выбор идёт между D и C — лучше вооружаться. Если же Б вооружается, то для А выбор идёт между d и c — опять-таки выгоднее вооружаться. Тем самым при любом выборе Б для стороны А выгоднее вооружаться. Ситуация для стороны Б совершенно аналогична и в итоге обе стороны будут стремиться к военной экспансии.

Теоретическое заключение дилеммы — одна из причин, почему во многих странах сделка о признании вины запрещена.

Часто сценарий дилеммы повторяется очень точно: в интересах обоих подозреваемых сознаться и свидетельствовать против другого подозреваемого, даже если оба невиновны.

Возможно, наихудший случай — когда только один виноват, в этом случае виновный пойдёт на предательство и даст показания против невиновного.

Как сейчас и происходит в Украине.

Чистый пример теории игр.

Анализируя стратегии, набравшие лучшие результаты, Аксельрод назвал несколько условий, необходимых, чтобы стратегия получила высокий результат:
  • Добрая. Важнейшее условие — стратегия должна быть «доброй», то есть не предавать, пока этого не сделает оппонент. Почти все стратегии-лидеры были добрыми. Поэтому чисто эгоистичная стратегия по чисто эгоистическим причинам не будет первой «бить» соперника.
  • Мстительная. Успешная стратегия не должна быть слепым оптимистом. Она должна всегда мстить. Пример прощающей стратегии — всегда сотрудничать. Это очень плохой выбор, поскольку «подлые» стратегии воспользуются этим.
  • Прощающая. Другое важное качество успешных стратегий — уметь прощать. Отомстив, они должны вернуться к сотрудничеству, если оппонент не продолжает предавать. Это предотвращает бесконечное мщение друг другу и максимизирует выигрыш.
  • Независтливая. Последнее качество — не быть завистливым, то есть не пытаться набрать больше очков, чем оппонент.


Таким образом, Аксельрод пришёл к утопично звучащему выводу, что эгоистичные индивиды во имя их же эгоистического блага будут стремиться быть добрыми, прощающими и независтливыми.

Рассмотрим снова модель гонки вооружений. Был дан вывод, что единственная рациональная стратегия — вооружаться, даже если обе страны хотели бы тратить ВВП на масло, а не пушки.

И это печальный вывод ограниченности ДУХОВНОГО ИНТЕЛЛЕКТА в наши дни, ибо люди и страны не строят сотрудничество, а выбирают страх, что на них нападут. Именно так и объясняет рф свое вторжение.

По сути на языке теории игр это звучит так: "Я предал (напал первым) потому, что я боюсь предательства с твоей стороны настолько, что я обвиняю тебя в несовершенных грехах и поэтому воюю."

Интересно, что попытки продемонстрировать, что вывод дилеммы работает на практике (делая анализ «высоких» и «низких» военных расходов между периодами, на основе предположений ПДЗ), часто показывают, что такого поведения не происходит (например, греческие и турецкие военные расходы меняются не в соответствии со стратегией «око за око», а, вероятнее всего, следуют внутренней политике). Это может быть примером рационального поведения, отличающегося от одноразовой и многоходовой игр.

Если в одноходовой игре в любом случае доминирует стратегия предать, то в многоходовой оптимальная стратегия зависит от поведения других участников. К примеру, если среди населения все друг друга обманывают, а один ведёт себя по принципу «око за око», он оказывается в небольшом проигрыше из-за потери на первом ходе. В такой популяции оптимальная стратегия — всегда предавать. Если же число исповедующих принцип «око за око» больше, то результат уже зависит от их доли в обществе.

Определить оптимальную стратегию можно двумя путями:

1. равновесие Байеса-Нэша: если определено статистическое распределение встречаемого поведения (например, 33 % «око за око», 33 % всегда обманывают и 33 % всегда сотрудничают), то стратегию можно вычислить математически. Этим детально занимается теория эволюционной динамики;

2. по методу Монте-Карло делались симуляции популяций, где индивиды с низкими результатами вымирали, а с высокими воспроизводились (использовался генетический алгоритм поиска оптимальной эволюционно стабильной стратегии). Структура поведения в конечной популяции зависит от структуры в начале.

Хотя стратегия «око за око» считалась самой удачной простой стратегией, команда университета Саутгемптона под руководством профессора Николаса Дженнингса представила новую стратегию на 20-ю годовщину Чемпионата по ПДЗ. Эта стратегия оказалась более успешной, чем «око за око». Она основывалась на взаимодействии между программами, чтобы получить максимальный счёт для одной из них. Университет выставил на чемпионат 60 программ, которые распознавали друг друга по ряду действий на первых 5—10 ходах. Узнав другую, одна программа всегда сотрудничала, а другая предавала, что давало максимум очков предателю. Если программа понимала, что оппонент — не саутгемптонский, она дальше всё время предавала его, чтобы минимизировать результат соперника. В результате эта стратегия заняла первые три места в соревновании, как и несколько мест подряд ниже.

Хотя эта эволюционно стабильная стратегия оказалась более эффективной в соревновании, это было достигнуто за счёт того, что в этом конкретном соревновании команда могла участвовать несколькими агентами. Если игрок может контролировать только одного агента, «око за око» оказывается лучшей. Она также соблюдает правило запрета на коммуникации между игроками. То, что саутгемптонские программы исполняли «ритуальный танец» в первые 10 ходов, чтобы узнать друг друга, только подтверждает, насколько важна коммуникация в сдвиге баланса игры.

Если ПДЗ играется ровно N раз (некая известная константа N), есть ещё один интересный факт. Равновесие Нэша — всегда предавать.

Доказываем по индукции: если оба сотрудничают, на последнем ходу выгодно предать, тогда у соперника не будет возможности отомстить. Поэтому оба предадут друг друга на последнем ходу.

Раз соперник предаст на последнем ходу в любом случае, любой игрок захочет предать на предпоследнем ходу, и так далее. Чтобы сотрудничество оставалось выгодным, необходимо, чтобы будущее было неопределённым для обоих игроков. Одно из решений — делать число N случайным и подсчитывать результаты по среднему выигрышу за ход.

Дилемма заключённого — фундаментальная для некоторых теорий о взаимодействии людей и доверии. Из предположения модели дилеммы, что транзакция между двумя людьми требует доверия, доверительное поведение в популяциях может быть смоделировано при помощи многоигроковой повторяющейся версии игры. Это годами вдохновляло многих учёных. В 1975 году Грофман и Пул оценивали число работ, посвящённых этой теме, в количестве около 2000.

Автор - Ольга Азарова 

*- здесь и далее слова рф или путин умышленно указаны с малых букв. Сами понимаете, почему.