26.04.2010, 00:01

Кнуты и пряники: Идеал управления

Как построить общество, в котором люди были бы законопослушны и помогали бы друг другу? Карать ли построже, или награждать пощедрей? Свой ответ дает теория игр.

Редакция сайта

Одной из основ успешно функционирующего человеческого сообщества является какая-либо форма договора, законодательства, исполнение норм которого подкрепляется разными видами стимулов. Стимулы эти могут быть как позитивными (награда), так и негативными (наказание), и каждый раз человечество отчаянно решает, каким же должно быть оптимальное сочетание того и другого, чтобы общество могло достичь максимального уровня кооперации при минимальных издержках.

Помощь в этой действительно нелегкой работе, которая до сих пор решалась исключительно неточными методами гуманитарных наук, может оказать математика — а еще точнее — та ее область, что зовется теорией игр.

Австрийские ученые Кристиан Хильб (Christian Hilbe) и Карл Сигмунд (Karl Sigmund), используя компьютерное моделирование, оценили, как различные виды стимулов влияют на поведение отдельных индивидуумов — и насколько эффективная социальная кооперация возникает из разных стратегий, с той или иной степенью использования «кнута» и/или «пряника».

Как отмечают ученые, эффективность той или иной политики в плане отношения затрат общества и полученных им от этого выгод зависит от обстоятельств и характера самого общества. Например, в социуме, где доминирует кооперативное поведение, массово награждать его чересчур невыгодно, а там, где «человек человеку — волк», наоборот, невыгодным оказывается слишком строгое и активное использование жесткой политики.

В основу построенной учеными модели легла известная «дилемма заключенного». Мы писали о ней в связи с другим, не менее интересным исследованием, посвященным бактериям: «Колония решила».

Напомним, что суть этой задачи состоит в выборе, сотрудничать ли со следствием, который ставится перед парой сообщников. Если да, то сотрудничающий преступник получает скидку и проведет в тюрьме 2 года, а его сообщник загремит на все 6 лет. Если оба расколются, то получат по 4 года, но если оба предпочтут запирательство, то их придется выпустить (допустим, у следователя недостаточно улик). Казалось бы, надо молчать — но преступник не знает о решении своего напарника, и если он будет молчать, а тот проговорится, то он получит «по полной». В рамках этой задачи оптимальное решение для индивидуума — рассказать все, а для коллектива — молчать.

Однако в данном случае математики слегка изменили условия игры: решение принимал лишь один из «заключенных», второй же использовался в качестве стимула. Его решение диктовали ученые, в зависимости от того, хотели ли они вознаграждать или наказывать первого игрока.

Иначе говоря, первый игрок имел возможность выбирать из четырех стратегий — постоянное сотрудничество; постоянное соперничество; сотрудничество, но лишь в том случае, если соперничество явно будет наказано; наконец, соперничество, если только сотрудничество не будет вознаграждено. Тем временем второй игрок либо не предлагал никакого стимула, либо предлагал сплошные наказания, либо только награды, либо те и другие в разной пропорции.

Различные сочетания стратегий, которые использовались игроками, приводили к различной динамике развития «отношений» между ними. Однако некоторые из форм этих «общественных отношений» оказывались куда более стабильными, чем другие, а одно из сочетаний и вовсе оказалось равновесием Нэша, то есть ситуацией, в которой ни один из игроков не будет в одностороннем порядке менять свою стратегию, поскольку это в любом случае не даст ему никакого выигрыша. Таким равновесным состоянием оказалось использование первым игроком тактики оппортунизма (т.е. сотрудничества, если предательство будет наказано) — в то время, как второй игрок, не стимулируя сотрудничество, непременно наказывает предательство.

В построенной учеными модели различные сочетания стратегий обоих игроков рано или поздно эволюционировали к такой равновесной позиции. И в эволюции этой Хильб и Сигмунд выделили ключевой шаг: момент перехода первого игрока от стратегии «буду соперничать, если только сотрудничество не награждается» к стратегии «буду сотрудничать, пока соперничество наказывается».

Так вот, согласно полученным математиками результатам скорость, с которой первый игрок приходит к этой фазе и проходит ее, может заметно возрастать, если второй игрок поначалу делает заметный акцент на вознаграждении за сотрудничество — а затем на наказании за соперничество.

Соответственно, по мнению математиков, способ превратить «волчье» общество в «овечье» очевиден: на первых порах активнее использовать стратегию «пряника», понемногу активизируя и «кнут», по мере того, как число асоциальных элементов будет уменьшаться.

«В последние годы наблюдается очень бурная дискуссия о том, может ли вообще (а если может, то — как именно) намеренное стимулирование (наказанием и вознаграждением) изменять общество в лучшую сторону», — говорит Кристиан Хильб. Заметим, что дискуссии этой куда больше лет, и во времена Советского Союза ее суть была широко известна в чеканной формулировке «Бытие определяет сознание» (из формулы очевидно и решение, которое давала этой проблеме тогдашняя официальная идеология).

Однако результат Хильба и Сигмунда далеко не столь однозначен. В различных условиях эффективными оказываются оба вида стимулов: награда оказывается эффективной в движении к более развитому обществу, но эффективность эта снижается, когда общество уже достигло определенного уровня законопослушности. Тут на сцену выступает наказание.

По публикации PhysOrg.Com