18. 파블로프의 승리 - 상호성이 우리에게 좋을까?
맞대응 규칙의 타협할 수 없는 상호성이 모세의 자식들에게는 효과가 있었을지도 모른다. 그러나 그것이 정말 문명사회의 기반이 될 수 있을까? 게임 이론은 홉스가 야만적이라고 두려워했고, 로크는 좋은 것이라고 생각했던 자연 상태를 연구하기에 가장 좋은 방법처럼 보인다. 그것은 야만적인 것으로부터 선이 등장할 수 있다는 희망적인 메시지를 전해준다. 그러나 모든 공격에 대해서 타협할 수 없는 보복이라는 비용이 필요한 것으로 보인다.
게임 이론의 의미를 초보적 수준 이상으로 이해하려면 맞대응을 엄격하게 살펴보아야만 한다. 그것이 바로 이 장의 목적이다. 그것이 바로 이 장의 목적이다. 이 전략의 장점을 분명히 하고, 단점을 확인해볼 것이다. 게임 이론을 사회에 적용해서 그 결과를 살펴볼 것이다. 사회물리학에서 언제나 그렇듯이 단순히 모델의 결과가 아니라 우리가 무엇을 바람직하다고 생각하고, 두 가지를 중재할 수 있는지를 알아볼 것이다. 결국 우리는 똑같은 질문으로 돌아간다. 우리에게 어떤 선택이 가능할까?
사고는 일어난다
맞대응 전략을 이겨낼 가능성이 없는 것처럼 보였다. 그러나 사실은 그렇지 않았다. 실제 세상에는 치명적인 문제가 있었다. 실수를 저지르기도 하고, 오해가 생기기도 한다.
맞대응의 경우에 실수의 문제는 단순히 한 번의 잘못된 변절이 같은 것을 되돌려주도록 자극하는 것이 아니다. 맞대응의 단순성은 똑같은 전략을 사용하는 두 사람 사이에 그런 일이 일어나면 양측 모두 서로 되받아치는 사이클에 빠지게 만든다.
그런 종류의 거동은 많은 문화와 사회에서 발생한다. 맞대응이 반드시 조화로운 세상을 보장해주지 않는 것은 확실하다.
혼란과 혼동으로 가득 찬 현실에서 그것이 최선의 전략도 아니다. 그런 사실은 액설로드의 토너먼트에서 선수들이 실수할 가능성이 있도록 해주면 분명하게 확인할 수 있다. 선수들은 가끔씩 자신들의 전략 대신 무작위적으로 반응을 선택한다. 오류의 가능성이 10퍼센트만 되더라도 맞대응 전략으로는 승자가 될 수 없다. 사실 맞대응 전략을 사용하는 선수는 두 가지 전략을 모두 쓰는 경우보다 똑같이 맞대응 전략을 사용하는 선수에게는 더 나쁜 결과를 얻게 된다. 가끔씩 저지르는 실수만으로도 아무런 이익이 없는 보복의 사이클이 시작될 수 있기 때문이다.
그런 상황에서 높은 점수를 얻으려면 맞대응 전략을 수정해야만 한다. 너그러운 맞대응 전략이라는 대안에서는 어느 정도 비율의 변절은 그냥 넘어간다. 회개하는 맞대응의 경우에는 자신의 변절에 뒤이은 상대방의 변절에 대해서는 보복을 하지 않는다. 스스로의 잘못을 "인정" 하는 셈이다.
액설로드의 두 번째 토너먼트에서는 "잡음"이 1퍼센트일 경우, 너그러운 맞대응 전략은 다른 어떤것보다 뛰어나고, 회개 맞대응은 6위가 된다. 잡음의 수준이 높아지면 회개하는 맞대응이 너그러운 맞대응보다 나아진다.
이중 맞대응 전략은 두 번의 연속적인 변절에 대해서만 보복을 하는 전략이다. 한 번의 변절이 상대방의 단순한 실수(잡음)가 아니라 정말 나쁜 의도 때문인지를 알아보기 위해서 기다리는 것이다. 이 전략은 두 번째 토너먼트에서는 24위를 했다. 첫 번째 토너먼트에 참가 했더라면 우승했을 것이다. 그 토너먼트에서 1위를 차지한 혼합 전략에는 (실수가 없더라도) 상호 보복에 묶여서 맞대응 전략을 못쓰게 만들어버리는 경우가 있기 때문이다. 결국 게임에서 이기는 최선의 방법은 없다는 사실을 다시 한 번 확인한 셈이다.
다윈의 알고리즘
완전히 한 바퀴를 돌고 나서는 선수들에게 전략의 성공률에 따라 새로운 전략을 사용하도록 한다. 그러면 더 성공적인 전략은 번성하고, 그렇지 못한 전략은 사라지게 된다. 그것이 바로 다윈적인 "적자생존" 시나리오라는 사실은 쉽게 알 수 있다. 그것은 유전정보가 확산되는 것을 흉내낸 것이다. 번식에서의 장점을 가지고 있는 돌연변이는 더 많은 후손을 남겨서 "적응적" 돌연변이가 더 번성하게 만든다.
칼 지그문트는 1992년에 게임 이론에서 그런 실험을 함으로써 획기적인 결과를 얻었다.
초기에는 진화적 모델은 가장 성공적이었던 맞대응 전략에 압도 될 것이라 생각했다. 그리고 초기에는 정말 그런 것처럼 보였다. 게임의 초기에는 변절자들이 우세하고, 협력적인 전략은 사라지는 것처럼 보였다. 전체의 평균적인 성과는 상호 변절에 의한 낮은 성과 쪽으로 기울어졌다. 그러나 어느 순간부터 적은 수의 맞대응 선수들이 빠르게 자라나서 전체를 지배하기 시작했다. 그런 변화와 함께 협력이 급격하게 늘어나면서 평균 성과도 상승했다.
TFT가 늘어나는 것은 선수들 사이의 수많은 상호작용의 결과로 나타나는 집단적 효과이다. 상호 변절은 결국 자기 파괴적일 수밖에 없기 때문에 일부 TFT 선수들은 상호 협력을 통해서 변절자들이 처음에 협력하려는 TFT 선수들을 착취하는 것보다 더 많은 것을 얻게 된다. 그러면 사정이 달라져서 과감한 TFT 집단과 협력하게 된다. 그런 집단은 협력이 전체로 확산시키는 씨앗이 된다.
그러나 TFT의 승리가 오래가지 않는다는 사실을 발견했다. 협력의 문화가 형성되면, TFT를 절대 용서하지 않는다는 아킬레스 건이 등장하기 시작한다. 모의 계산에는 반드시 그런 식으로 작용하는 잡음이 포함되어 있기 때문에 TFT는 점차 더욱 관용적인 너그러운 맞대응으로 대체된다. 결국 GTFT만이 살아남게 된다.
노왁과 지그문트의 결론에 따르면, "맞대응은 협력을 향한 진화의 목표가 아니라 축이다." 다시 말해서, 다양한 집단에서 협력의 분위기를 형성하기 위해서 필요하지만, 그런 목적이 달성되면 "더 부드러운" 협력 전략이 자리를 차지하게 된다. 사실 GTFT까짇 가끔씩 실수에 의한 비생산적인 보복에 밀려나기 때문에 보편적으로 협력적인 환겨ㅇ에서는 무조건적인 관용, 즉 완벽한 관용이 더 나은 전략이 된다.
그러나 무조건적으로 협력하는 사회에서는 순진한 사람들을 악랄하게 착취하는 무조건적인 변절이 최선의 전략이다. 협력하는 사람은 변절하는 사람보다 더 잘하지만, 악랄한 변절자에게는 지극히 위험하다. 소수의 변절자들이 협력적인 문화를 파괴시킬 수도 있다. 맞대응 전략에서는 협력자에게 보상을 하고, 변절자는 심하게 대하기 때문에 그런 일이 일어나지 않도록 막아준다.
게임 이론에서 TFT는 강력하게 협력을 요구하는 경찰력과도 같다. 언제나 변절에 대해서는 처벌하고 협력에 대한 착취를 절대 허용하지 않기 때문에 어떤 의미에서는 이상적인 경찰 전략이라고 할 수도 있다. 어느 수준의 변절을 어쩔 수 없는 것이라고 받아들인다면, 협력을 바탕으로 하는 일반적인 문화를 유지하기 위해서는 사회가 적어도 어느 정도의 TFT 선수를 필요로 한다는 사실을 인정할 수밖에 없다.
그러나 그것만으로도 공정한 사회를 보장하지는 못한다. 1993년에 노왁과 지그문트는 TFT의 극단적인 "정의감"이 언제나 좋은 결과를 가져오는 것은 아니라는 사실을 발견했다. 초기의 진화적 게임에서는 선수들이 상대방의 직전 움직임에 따라 다음 움직임을 결정하는 전략을 사용했다. 그러나 기회주의적인 입장에서 이기면 남고, 지면 바꾸는 파블로프 전략은 구 수준을 넘어서 자신의 직전 움직임까지도 고려한다.
초기의 전략을 파블로프와 비교해본 연구자들은 파블로프의 기회주의가 승리한다는 사실을 발견했다. 파블로프는 변절자에게는 성적이 좋지 않고, TFT처럼 변절하는 사람들에게 "침투해서" 협력을 확산시키지는 못한다. 그러나 협력의 정신에 젖어 있는 (약간의 잡음이 있는) 사회에서는 파블로프가 번성한다. 노왁과 지그문트는 그런 환경에서는 파블로프가 GTFT보다 더 뛰어나다는 사실을 발견했다.
파블로프와 GTFT는 모두 TFT와는 달리 어느 정도의 오류를 수용한다. 그러나 파블로프에게는 다른 장점이 있다. 모델에서 무작위적으로 새로운 형태로 돌연변이를 허용하는 전략을 허용하면, GTFT는 TFT에서 일시적으로 볼 수 있는 것처럼 더욱 무조건적으로 협력하는 전략 쪽으로 점진적으로 변하게 된다.
그러나 파블로프는 완고하다. 우연히 일방적인 변절이 허용된다는 사실을 발견하면, 계속해서 그렇게 한다. 양의 가죽을 쓴 늑대와 같은 셈이다. TFT의 확실한 권위 아래서 협동이 규범으로 된 경우에는 잘 행동하지만, TFT 경찰이 무조건적 협력자로 변환되면 협력하는 사람들을 착취하기 시작한다. 파블로프적 사회는 더 이상 "당신처럼 한다"가 아니라 "절대 기회를 주지 않는다"를 추구하게 된다.
파블로프가 승리하는 모의계산에서는 놀라운 역사가 드러난다. 양쪽 선수 모두의 직전 움직임을 근거로 다음 움직임을 선택하는 전략을 사용하기 때문에 초기의 모의계산에서보다 훨씬 더 복잡한 과정이 나타난다. 가장 놀라운 사실은, 시간에 따라 일어나는 변화에서 필연성이 크게 줄어든다는 것이다.
여기에 소개한 역사에서는 초기에는 협력을 하려고 시도하지만, 한동안의 혼란을 거치면서 그런 노력은 실패하고, 무조건적 변절자가 오랫동안 자리를 차지한다. 대략 9만2,000번 정도가 지나면 협력자가 승리하게 된다.
그러나 그런 승리는 오래가지 못하고 변절자에게 무너져버린다. 노왁과 지그문트는 전략이 TFT에서 GTFT로 전환되기 때문에 그런 변화가 나타난다는 사실을 발견했다. 더 쉽게 용서하는 전략이 "부드러운" 국가를 만들지만 그런 국가는 악한 변절자에 의해서 무너진다. 그러나 이번에는 변절자들이 그렇게 무조건적인 것은 아니다. 오히려 변절을 경험할 때까지는 협력에 대해서 협력으로 대응하는 냉혹한 방아쇠라고 부르는 것이 지배적인 전략이 된다. 냉혹한 방아쇠는 무조건적으로 변절한다.
약 22만 회가 지나면 다시 협력하는 과정이 나타난다. 초기의 조정 기간이 지나면 이번의 협력은 오랫동안 지속된다. 이런 변화도 역시 TFT에 의해서 일어나지만, GTFT 선수들이 활약하다가 결국에는 파블로프 선수들이나 파블로프와 가까운 선수들이 지배하게 된다. 그런 집단은 협력적이지만 기회주의적일 가능성이 높고, 변절자들의 공격에 대해서 훨씬 더 잘 견딘다. 그렇게 살기 나쁜 곳은 아니지만, 순진한 사람들이 겉으로만 "점잖은" 파블로프들에게 착취 당할 위험에서 완전히 안전한 곳은 아니다.
이런 모든 것에서 인류 역사의 비유를 쉽게 찾을 수가 있다. 마르크스는 사회주의 혁명은 필연이라고 믿었다. 게임 이론은 아무것도 그렇게 확실하지 않다고 말하는 것처럼 보인다. 모든 것이 특별한 방법으로 끝난다고 하더라도, 우리가 현재 진화의 경로 중에서 어디에 있는지를 확실하게 알아낼 수 없기 때문이다.
마법의 카펫
세계사는 경계선이 늘어나고 줄어드는 일이 반복되면서 만들어진 조각보와 같다.
죄수 딜레마가 국가나 국제적 경계가 움직이는 방법과 어떤 관계가 있지 않을까?
<계속 게임 이론 관련된 내용인데 이건 책을 직접 봐야할듯 정리 불가>
'내가 좋아하는 책들' 카테고리의 다른 글
#00 지위게임 : (서문) 지위, 우리의 무의식을 지배하는 (0) | 2025.02.23 |
---|---|
#end 물리학으로 보는 사회 : 낙원을 향하여 (0) | 2025.02.21 |
#17 물리학으로 보는 사회 : 에덴의 질서 - 협력의 학습 (0) | 2025.02.21 |
#16 물리학으로 보는 사회 : 사이버 공간의 모양 (0) | 2025.02.21 |
#15 물리학으로 보는 사회 : 우리를 결합시켜주는 네트워크 (0) | 2025.02.21 |