Teoria dos Jogos e da Cooperação para Filósofos: Seção II
DISCURSUS
TEORIA DOS JOGOS E DA COOPERAÇÃO (MAY, E. 'Ben Franklin leva Xeque-Mate de Lady Howe', sec.XIX)
Dilema dos Prisioneiros Iterado
Menu Geral
Curso
Serviço
Início
Serviço
Navegação
Script gratuito fornecido por JavaScript Kits
TEORIA DOS JOGOS E DA COOPERAÇÃO PARA FILÓSOFOS

SEÇÃO II

» 1ª Unidade: DPI

  • Simulações.
Por Antônio Rogério da Silva

Embora o uso de computadores não seja uma novidade para as ciências naturais - desde a II Guerra Mundial vinham sendo utilizados como ferramentas de cálculo ou como mecanismos de experimento virtual -, as simulações são uma inovação para as ciências sociais, sobretudo, depois dos torneios de Robert Axelrod. Estas têm servido para o exame das consequências das hipóteses trabalhadas em cada área de conhecimento. Nesse sentido, as simulações surgiram como um terceiro método de avaliação científica ao lado da indução empírica ou da dedução axiomática.

Em várias áreas das ciências sociais, da antropologia, economia, biologia evolutiva, direito até a política, foram produzidos artigos sobre o método da simulação publicados em mais de 50 jornais científicos diferentes. Axelrod destaca, em artigo dedicado ao avanço das técnicas de simulação - pelo menos até 2003 -, dos sete propósitos atribuídos a essa prática, a previsão, o fornecimento de provas e descoberta. As previsões através das simulações são realizadas por meio de dados que alimentam o sistema que os processa, gerando consequências relacionadas com a hipótese de trabalho. Tais consequências podem servir como provas quando os eventos observáveis ao final aparecem como efeitos esperados das regras simples que representam os princípios testados. Além de consolidarem os modelos de condutas pelos quais a simulação é baseada, esta nova técnica de averiguação de princípios científicos pode ser útil também para descobrir novas formas de relacionamento. A despeito das dificuldades de se moldar detalhadamente o movimento das pessoas em sociedade, as simulações têm servido para o encontro de estratégias e normas comportamentais que partem de um conjunto de instruções limitado.

Simulação vem se constituindo em uma terceira forma de fazer ciência. Como a dedução, parte de um conjunto de proposições explícitas. Mas diferencia-se desta por não provar teoremas. Ao invés disto, a simulação gera dados que podem ser analisados indutivamente. Diferente de uma indução típica, por outro lado, a informação simulada trabalha a partir de um conjunto de regras rigorosamente especificado que não envolvem medições diretas do mundo real. Enquanto a indução pode ser usada para encontrar padrões informativos, e a dedução pode ser usada para encontrar hipóteses consequentes, a simulação, se bem modelada, pode ser usada como ajuda à intuição (AXELROD, R. "Advancing the Art of Simulation in the Social Sciences", p. 5).

Assim, a simulação vem em auxílio aos tradicionais experimentos mentais realizados por filósofos como Thomas Hobbes, David Hume e Jean-Jacques Rousseau. Propriedades emergentes dos sistemas dinâmicos complexos surgem de umas poucas proposições simples. Através das simulações, pode-se questionar a necessidade dedutiva de se manter o pressuposto da escolha racional como princípio básico da teoria dos jogos, propondo em seu lugar a adaptação como processo principal nos estudos das populações que não agem de modo racional pleno. O postulado da racionalidade não é indispensável na modelagem do comportamento de agentes nas condições tratadas por jogos repetitivos como no Dilema dos Prisioneiros.

Metodologicamente, as simulações são baseadas em agentes autônomos. Portanto, se inscrevem na categoria do individualismo metodológico das ciências sociais que trabalha as instituições como mecanismos onde sujeitos são considerados "peças" e "engrenagens" fundamentais que explicam a montagem, a existência e o funcionamento de um sistema maior. Trata-se, então, de uma técnica ascendente de construção das propriedades características de um sistema a partir das interações dos agentes.

Os históricos dos resultados das simulações podem ser descritos, por conseguinte, de três maneiras diferentes. Pela ordem cronológica, as ações podem ser descritas como desenrolar de fatos relacionados causalmente uns com os outros. Da perspectiva do agente, suas decisões podem ser interpretadas como reveladoras dos efeitos do tempo sobre suas jogadas. Por fim, a visão geral de todo processo permite perceber os padrões em larga escala do comportamento de todos participantes. Com isso, as variações dos parâmetros da modelagem da simulação podem revelar a influência de cada fator no resultado geral do agente, do processo e de todos os participantes em conjunto. O que vale dizer que os resultados partilhados dependem de detalhes relativos à maneira como a simulação foi preparada.

Nesse sentido, pesquisadores de disciplinas distintas podem interferir na sua avaliação dos resultados das pesquisas de outros, perscrutando resultados sensíveis a sua área de atuação. Faz-se então necessário que o código fonte do programa utilizado seja também informado. Na prática, Axelrod recomenda a programação em Visual Basic para iniciantes em informática e a linguagem Java para programadores avançados. Entre esses dois processos, JavaScript é um recurso disponível para pesquisadores de nível intermediário, capazes de modelar jogos como o Dilema dos Prisioneiros Iterado. No quadro abaixo, apresenta-se um exemplo extraído da Rede Mundial de computadores que aplica esta programação para o DPI. Destarte, os testes podem ser repetidos em diversos lugares, onde hajam computadores disponíveis dotados de recursos mínimos de "navegação" e de reprodução de máquinas virtuais.

Críticas ao Modelo

Apesar das simulações terem uma vasta aplicação em diversas áreas de pesquisa, seu uso em contextos pedagógicos está sujeito a críticas como as levantadas por Howard Gardner acerca da desinformação que jogos, como o famoso SIM CITY, podem transmitir às crianças. Um dos preconceitos praticados pelas primeiras versões desse simulador do governo de uma cidade é revelado pela recorrente revolta da população da cidade fictícia sempre que os impostos são aumentados pelo prefeito virtual (1).

Por outro lado, a interpretação biológica da utilidade como a habilidade de uma estratégia reproduzir-se nas futuras gerações é filosoficamente problemática quando se analisa sob a ótica da influência cultural. Individualmente, a habilidade reflete na obtenção de ganhos superiores aos de outros jogadores. A acumulação quantitativa de bens talvez seja uma concepção limitada para o conceito de aptidão, nesses contextos. De fato, tais limitações estão vinculadas ao comportamento racional dos agentes culturais, que variam de indivíduo para indivíduo. No âmbito da comunidade, as habilidades, ou aptidões, do agente devem ser interpretada sempre como uma racionalidade restrita aos valores de cada sociedade.

Ademais, a história de uma cooperação ou constituição de um grupo social, quando modelada pelos jogos é irrelevante caso se compreenda tal processo como decorrente de uma sequência causal determinada pelas regras programadas. Para ser considerada válida, a simulação de jogos evolutivos teria de ser contraposta a testes empíricos que procurassem apontar ou não a alternativa virtual como mais uma entre as várias histórias passíveis de acontecer ou serem destacadas do pano de fundo cotidiano. Assim sendo, as simulações seriam irrelevantes, uma vez que teriam de passar sempre crivo da experiência histórica real, a fim de ter sua plausibilidade constatada (2).

Não obstante essas objeções, autores como Richard Dawkins tem feito uso da simulação da maneira prevista por Axelrod, para verificar a correção de suas intuições. As vantagens da simulação permanecem como a melhor forma da experimentar várias suposições uma após a outra, sem os custos de preparar muitos testes empíricos de campo.

(...) Há, evidentemente, bons e maus modelos do mundo, e mesmo os bens são apenas aproximações. Nenhuma simulação pode prever exatamente o que acontecerá na realidade, mas uma boa simulação é muito preferível à tentativa e erro cega (...) (DAWKINS, R. O Gene Egoísta, cap. 4, p. 82).

Um computador pode rodar em pouco tempo várias propostas que consumiriam uma grande quantidade de tempo se examinada por métodos tradicionais. Tentativas empíricas de testes de projetos custam muito tempo e energia. Se imaginar os efeitos devastadores dos testes nucleares, as vantagens da simulação desse tipo em computadores merecem o rótulo de ecologicamente corretas.

Notas
1. GARDNER, H. O Verdadeiro, o Belo e o Bom, cap. 3, p. 48.
2. ALEXANDER, J. McK. "Evolutionary Game Theory" § 4, pp. 9-11.

Dilema dos Prisioneiros Iterado

Este é um jogo interativo inspirado no Dilema dos Prisioneiros, criado em JAVASCRIPT por Wayne Davis, a partir da descrição existente no livro O Gene Egoísta de Richard Dawkins (1989 p. 205). Como se sabe, o Dilema dos Prisioneiros é um exemplo clássico de experimento montado por meio dos modelos de jogos estudados pela Teoria dos Jogos, desde 1950. A simulação iterada (DPI) ficou popularizada, depois de Robert Axelrod ter lançado dois torneios de programas de computadores, nos quais diversos pesquisadores foram convidados a apresentar estratégias que pudessem vencer um campeonato onde todas tomassem parte. Seu livro The Evolution of Cooperation (A Evolução da Cooperação, 1984) trouxe os resultados desses torneios e lançou a base da chamada Teoria da Cooperação.

O Dilema dos Prisioneiros foi assim batizado depois que Albert W. Tucker (1906-1995) ter usado a história de dois suspeitos presos pela polícia para explicá-lo a uma audiência de psicólogos da Universidade de Stanford. Originalmente, no entanto, o experimento fora inventado nos laboratórios da corporação RAND, em janeiro de 1950, pelos matemáticos Merrill Flood e Melvin Dresher como um contra-exemplo ao conceito de equilíbrio de Nash. Embora essa experiência tenha sido iniciada em 1950 e citada por centenas de artigos entre os anos 60 e 70, só em 1980, Tucker iria publicar sua monografia sob o título On Jargon: The prisoner's dilemma (Sobre o Jargão: O Dilema dos Prisioneiros). Trata-se da situação em que se encontram dois criminosos capturados pela polícia, mantidos em celas separadas, e que são interrogados isoladamente a fim de que um possa acusar o outro. O inspetor encarregado das investigações tem provas suficientes apenas para condená-los por um crime leve, mas sabe que ambos cometeram algo mais grave. No intuito de levá-los à confissão, propõe a cada um a liberdade, por auxiliar a justiça, desde que entregue o outro comparsa, que arcaria, caso ficasse calado, com a pena máxima. Ao se denuciarem mutuamente, os dois presos pegariam uma sentença dura, mas atenuada pela confissão. Ao contrário, no entanto, se permanecessem de boca fechada, os dois ficariam pouco tempo na cadeia. Jogado de uma só vez, o Dilema do Prisioneiro apresenta apenas a deserção geral como único equilíbrio de Nash dominante.

Não obstante, em 1984, Axelrod propôs dois torneios de computador nos quais era possível jogar o Dilema dos Prisioneiros, várias vezes, iterado. Para esses campeonatos, foi montada uma tabela de pontuação em que a tentação de denunciar era premiada com 5 pontos, a recompensa por ficar calado era de 3 pontos, a punição pela delação mútua pagava só 1 ponto, enquanto o pagamento simplório (sucker) de 0 ponto caberia a quem ficasse em silêncio sozinho. Os ganhos nesse jogo se reduzem a condenações que são consideradas muito boas, justamente boas, justamente más ou muito más, traduzidas no sistema de pontuação abaixo, onde R > (T+S)/2:

Pontuação das Estratégias Puras Jogador 2 Modelo Padrão do DPI
Calar
(Cooperar - C)
Denunciar
(Desertar - D)

Tentação (T) = 5

Recompensa (R) = 3

Punição (P) = 1

Simplório (S) = 0

Jogador 1 Calar
(Cooperar - C)
R, R S, T
Denunciar
(Desertar - D)
T, S P, P
CONDIÇÕES:
  1. T > R > P > S;
  2. R > ½(T + S).

Em cada célula da matriz, por convenção, o primeiro resultado é atribuído ao jogador 1, na linha, enquanto o segundo corresponde ao ganho do jogador 2, na coluna. Na versão interativa de Wayne Davis, você faz o papel do primeiro jogador e Máquina (o computador) atua como jogador 2. O DPI é jogado por um certo número de rodadas até o seu final (como se os prisioneiros fossem interrogados separadamente várias vezes). O placar é calculado a cada rodada. O objetivo é otimizar a pontuação antes do final do jogo. O jogo termina aleatoriamente entre a primeira e a centésima rodada. No final do jogo, o placar é apresentado em porcentagem do melhor resultado possível. A porcentagem de Resultado Mútuo representa o placar combinado obtido por ambos jogadores e comparado à melhor combinação possível. Inicie o jogo acionando os botões cooperar ou desertar abaixo e então faça sua melhor escolha conforme o resultado obtido. As figurinhas da serpente, da coruja, do asno e do pato simbolizam, respectivamente: a Tentação; a Recompensa da sabedoria; a Punição pela estupidez; e o Simplório!

As simulações de DPI podem apresentar dois tipos de cenários distintos: determinista ou indeterminista. Numa simulação determinista, as estratégias são jogadas puras, isto é, a probabilidade de cooperar é de 0 ou 100 por cento. Ao passo que, no cenário indeterminista (com ruído), a cooperação pode variar de acordo com uma taxa aleatória ou mistura de estratégias ótimas. Existem tão somente 16 tipos de estratégias deterministas. As estratégias indeterministas, no entanto, são infinitas, sendo variações das estratégias puras originais. Abaixo, à direita da tabela de resultados, estão listadas todas as estratégias deterministas - as mais estudadas têm o nome assinalado - e a RANDOM (que varia sempre a uma taxa de 50%). Algumas estratégias puras podem ter versões gentis ou não, respectivamente, cooperando ou desertando na primeira rodada, como por exemplo OLHO POR OLHO, cuja versão pura não gentil é SUSPEITOSO OLHO POR OLHO.

símbolo da ação Você X Máquina símbolo da ação

Resultado:

   

Intervenção Aleatória (%):             1   2   5   10   20   30   40  

Velocidade (segundos/rodada):0.05 0.2  0.5 2   10 30

Número de Rodadas:     50   100   200   500   1.000   10.000      

Estratégia Personalizada 1:   R= S= T= P= I=
Estratégia Personalizada 2:   R= S= T= P= I=

Média dos Resultados (%)
Seu Resultado Resultado de Máquina
Resultado Mútuo
Médias das Estratégias de Máquina (%)
Olho Por Olho Olho por Olho/
Random
Olho por 2 Olhos/Random Olho por 2 Olhos
Provador Ingênuo Provador Arrependido
Pacificador Ingênuo Pacificador Verdadeiro
Random Sempre D
Sempre C Retaliador Permanente
Pavlov Pavlov / Random
Adaptativo Gradual
Suspeitoso Olho por Olho Retaliador Suave
Personalizada 1 Personalizada 2
R S T P 16 ESTRATÉGIAS DETERMINISTAS
+ 1 RANDÔMICA
E0 0 0 0 0 SEMPRE "D"
E1 0 0 0 1 só coopera após P
E2 0 0 1 0 só coopera após T
E3 0 0 1 1 coopera após T ou P
E4 0 1 0 0 só coopera após S
E5 0 1 0 1 ANTI-OLHO POR OLHO
E6 0 1 1 0 coopera após S ou T
E7 0 1 1 1 só deserta após R
E8 1 0 0 0 RETALIADOR PERMANENTE
E9 1 0 0 1 PAVLOV
E10 1 0 1 0 OLHO POR OLHO
E11 1 0 1 1 FIRME, MAS JUSTO
E12 1 1 0 0 coopera após R ou S
E13 1 1 0 1 só deserta após T
E14 1 1 1 0 só deserta após P
E15 1 1 1 1 SEMPRE "C"
E16 0,5 0,5 0,5 0,5 RANDOM
« Antes: Recapitulação da Seção I
A seguir: A Família TIT FOR TAT
Referências Bibliográficas

ALEXANDER, J. McK. "Evolutionary Game Theory", in Stanford Encyclopedia of Philosophy. 2002. Disponível na Internet via http://plato.stanford.edu/entries/game-evolutionary/.

AXELROD, R. The Evolution of Cooperation. - Nova York: Basic Books, 1984.

_______.Advancing the Art of Simulation in the Social Sciences. Agosto de 2003. Disponível na Internet via http://www-personal.umich.edu/~axe/.

BREMBS, B. Chaos, Cheating and Cooperation, in Oikos, 76, pp. 14-24. - Copenhagen, 1996. Disponível na Internet via http://www.brembs.net/ipd/ipd.html.

DAWKINS, R. The Selfish Gene. Segunda edição. - Oxford: Oxford University Press, 1989.

GARDNER, H. O Verdadeiro, o Belo e o Bom; trad. Álvaro Cabral. - Rio de Janeiro: Objetiva, 1999.

NASAR, S. Uma Mente Brilhante; trad. Sergio M. Rego. - Rio de Janeiro: Record, 2002.

Outros Recursos Externos

Informações sobre a teoria do jogo Dilema dos Prisioneiros, quando ele ocorre na natureza e na sociedade:
Undecidability in the Spatialized Prisoner's Dilemma: Some Philosophical Implications

Jogos do Dilema dos Prisioneiros, simulações e programas relacionados:
Genetic Algorithm for Iterated Prisoners Dilemma - Simulação Espacial em Java.
Prisoner's Dilemma - Jogo baseado em CGI.
DiamondThief - Jogo interativo em Java.
Iterated Prisoner's Dilemma Code - Simulador espacial simples em código C.
Artificial Life Online - Programas disponíveis de Vida Artificial.
Kasprzyk's ALife Page - Programa de Vida Artificial.