sexta-feira, 21 de junho de 2013

Metodologias de treino - segunda parte: os erres e os pês do condicionamento operante

(continuação)

Lembremo-nos da ideia mitificada que está em causa: achar-se que a atitude mais conveniente e menos dogmática é aquela que usa um pouquinho de cada método para atender às necessidades individuais do seu cão e à situação concreta.

Para desmistificá-la, teremos de continuar a esclarecer em que consiste o condicionamento operante. Vimos, ontem, o seu ABC, ou seja, vimos que o comportamento (B) do cão varia consoante as consequências (C); e a melhor forma de controlar o comportamento e as respectivas consequências é estipular um adequado antecedente (A). Os tipos de antecedente, como sugerimos, são vários (um comando, um gesto, uma buzina, umas chaves colocadas na fechadura, o motor do carro, um clique, tudo isto pode despoletar comportamentos); os comportamentos, esses são tantos quanto a sua imaginação quiser dar forma. Já os tipos de consequências são apenas quatro. Materialmente, há muitas consequências possíveis, claro; mas, em termos de efeito para o comportamento (torná-lo mais provável ou menos provável de acontecer no futuro), aí só há quatro possíveis. Quando falamos de consequências para o comportamento falamos de reforço positivo, reforço negativo, castigo positivo e castigo negativo. Como se vê, desde logo, reforço positivo não é, em rigor, um método, mas um tipo de consequências para o comportamento. Um de quatro tipos. Entremos em definições:

  • Reforço (seja positivo ou negativo) é tudo aquilo que torna o respectivo comportamento mais provável de acontecer no futuro. 
  • Castigo (seja positivo ou negativo) é tudo aquilo que torna o respectivo comportamento menos provável de acontecer no futuro.
  • Positivo (seja reforço ou castigo) é tudo aquilo que envolve ou incide sobre uma acção do animal.
  • Negativo (seja reforço ou castigo) é tudo aquilo que implica uma prevenção ou um evitar de uma acção do animal.

Um dos maiores problemas na compreensão real destas noções tem a ver com a carga semântica que a maioria destes termos possui. O único termo que eu considero perfeitamente feliz, porque isento de conotações deturpadora, é o termo 'reforço'. Ao evitar-se o uso de palavras como "recompensa", e usarmos a palavra 'reforço' estamos a ir ao fundo da questão: tudo de quanto se trata é de reforçar uma determinada acção, um determinado comportamento, e, como tal, torná-lo mais provável de voltar a acontecer. 
O mesmo não se passa com os outros três termos, carregadíssimos de conotações que desviam o sentido da nossa compreensão. Quando falamos em castigo, neste contexto de ciência da aprendizagem, devemos evitar toda aquela acepção punitiva que o termo 'castigo' transporta. Existe uma forte noção de justiça por detrás da noção de castigo. E isso tem tremendas implicações na forma como educamos os nossos cães. Quando um cão tem um determinado comportamento que consideramos inadequado, tendemos a castigá-lo por razões de justiça: "não é justo que um cão tenha feito uma asneira e eu continue aqui como se nada fosse". É esta a mentalidade que perpetua certas aberrações do ponto de vista da aprendizagem canina como, por exemplo, o famoso 

"ah, deixa-o estar aí; não brinques com ele porque ele está de castigo"
"então, o que é que ele fez?"
"fez xixi ali na cozinha, hoje de manhã".

Apenas um sentimento, mais ou menos inconfessado, de equidade jurídica permite este tipo de procedimentos por parte dos donos. É extremamente urgente deixar cair o moralismo com que estabelecemos parâmetros de justiça para o comportamento animal, e que definitivamente procedamos de acordo com as leis de aprendizagem. Segundo esta perspectiva, o castigo não é mais do que uma forma de fazer com que o comportamento em causa (a castigar) se repita menos e menos vezes no futuro. Devemos encarar a noção de 'castigo' mais de acordo com a forma como um pai castiga o filho quando este faltou a uma aula para ir jogar bilhar para o café. Este pai sabe que um tal comportamento nada tem de grave nem sequer de anormal; ele próprio tê-lo-á feito quando tinha a mesma idade; mas esse pai também sabe que não fala "a mesma língua" que um jovem adolescente, e sabe que a melhor forma de evitar repetições ou mesmo eventuais escaladas de mau comportamento do seu filho é castigar aquele primeiro comportamento. Não por uma questão de justiça, mas por uma questão de aprendizagem: em vez de achar que um jovem adolescente é capaz de discernir o que é o certo e o errado, tornar o comportamento menos provável de ocorrer no futuro e, ao mesmo tempo, ir definindo e construindo, passo por passo, o sentido de responsabilidade pelos próprios actos. No caso concreto dos cães, esse "sentido de responsabilidade" será obtido por uma correcta aprendizagem do jogo das consequências: certos comportamentos têm certas consequências, logo...
Também os termos 'positivo' e 'negativo' padecem do mesmo mal. Muito facilmente estabelecemos uma equivalência entre positivo e bom, e entre negativo e mau. Mais uma vez, o problema está na forma moralista como vemos as coisas. É comum, por exemplo, depararmo-nos com pessoas que julgam que um castigo positivo é uma forma de castigar exemplarmente, enquanto um castigo negativo seria uma forma demasiado rude de castigar. É também comum a ideia de que uma correcção é uma forma de reforço negativo (como se fosse uma oposição ao reforço positivo). Estas ideias são tão comuns quanto erradas. É melhor pensarmos em termos matemáticos e gramaticais, onde o moralismo não chega a contaminar as ideias. Positivo, em termos matemáticos, tem a ver com adição, com acrescento, com construção. Positivo é afirmação, é algo que se impõe por si. Negativo, por seu lado, tem a ver com a subtracção, com o retirar algo a uma grandeza já formada. Negativo não é mais do que o plano em que se nega algo que, de outra forma, seria afirmativo.

Vejamos, então, as quatro consequências possíveis.

  • A mais fácil de compreender é a consequência que se denomina como reforço positivo (positive reinforcement, ou R+). Reforço positivo é o tipo de consequência que torna o respectivo comportamento mais provável de acontecer e incide directamente sobre uma acção do cão. Reforço, porque aumenta a probabilidade do comportamento; positivo, porque diz respeito ao comportamento efectivamente realizado, diz respeito à acção, propriamente dita.
  • Reforço negativo (negative reinforcement, ou R-) é o tipo de consequência que torna o comportamento em causa mais provável de acontecer, mas lida com um comportamento negado. Ou seja, o comportamento que é reforçado negativamente é, na verdade, uma ausência de comportamento. Aquilo que se pretende reforçar é a ausência de um determinado comportamento. Daí que se denomine negativo.
  • Castigo positivo (positive punishment, ou P+) é uma forma de reduzir as probabilidades de um determinado comportamento vir a ser repetido, e incide sobre o comportamento propriamente dito. Isto é, aquilo que é positivamente castigado é um comportamento que se verifica efectivamente. O objectivo do castigo positivo é, pois claro, evitar que um comportamento efectivamente verificado se repita no futuro.
  • Por fim, castigo negativo (negative punishment, ou P-) é uma forma de reduzir as probabilidades de um determinado comportamento ser repetido, mas, em rigor, incide sobre um não-comportamento, ou melhor, um comportamento ainda não ocorrido totalmente. O objectivo do castigo negativo é fazer com que um determinado comportamento considerado desajustado venha a ser reforçado por si mesmo, sendo, por isso, evitado, negado, impedido antes que aconteça tal reforço.

Tal como na física, termos da mesma valência repelem-se e termos de valência oposta atraem-se. O reforço positivo funciona juntamente com o castigo negativo; o reforço negativo funciona em par com o castigo positivo. Porquê? Simples. Vamos ver as várias combinações possíveis, 

Reforço positivo com reforço negativo: simplesmente, não podem ser combinados, pois implicam dois comportamentos diferentes a serem reforçados. É só um comportamento (ou uma sequência de comportamentos, o que, para o efeito, é a mesma coisa, pois é apenas UMA coisa a ser reforçada) que pode ser reforçado; é impossível reforçar um comportamento positivamente e negativamente. Até porque, como vimos, o reforço negativo implica que o comportamento reforçado não esteja a ocorrer, enquanto o reforço positivo incide directamente sobre um comportamento que tenha acabado de acontecer. 

Castigo negativo e castigo positivo: pelas mesmas razões, são incompatíveis.

Reforço positivo e castigo positivo: como é óbvio, não podemos estar a reforçar e a castigar o mesmíssimo comportamento; e seria isso que uma situação de R+ com P+ suporia. 

Reforço negativo e castigo negativo: como é óbvio, não podemos estar a reforçar e a castigar a mesma ausência de comportamento. 

Reforço positivo com castigo negativo: aqui sim, faz sentido. Reforça-se o comportamento desejado, mas sempre com auxílio do castigo de eventuais comportamentos indesejados. Tomemos como exemplo o ensino de andar à trela: fazê-lo com recurso ao reforço positivo implica recompensar/reforçar os momentos em que o cão está a ter o comportamento adequado (andar sem puxar), mas implica também um extremo cuidado em não deixar que o cão seja reforçado por comportamentos desadequados (puxar na trela). De cada vez que um cão puxa a andar à trela e, efectivamente, prossegue na marcha, a acção de puxar na trela é reforçada por si mesma (reforço positivo), pois existe uma boa consequência para essa acção (o cão ficou mais perto do ponto que está a visar). Para evitar que o cão seja reforçado por um comportamento que não queremos de todo reforçar, então temos de abrir mão do castigo negativo sempre que o cão começar a puxar na trela. A forma mais usual será, neste caso, parar de andar. Simplesmente, parar. Não há nada de justo nem moral; é simplesmente uma forma operante de ajustar o comportamento. Paramos para evitar que a acção indesejada se torne menos provável de se repetir no futuro. Mas, no sentido inverso, só faz sentido fazermos isto se usarmos reforço positivo nas situações em que o cão não está a puxar na trela, de forma a que seja este o comportamento mais reforçado, logo, mais provável de ocorrer no futuro.
Esta combinação de consequências é aquela usada pelo método que vem sendo denominado como "método do reforço positivo", "método positivo", "positivismo", ... Eu prefiro chamá-lo "método com recurso ao reforço positivo", embora compreenda a conveniência de se usar um nome mais curto. (Só não acho nada ajustado chamar-se-lhe, simplesmente, "positivo", "positivista" ou "positivismo", na medida em que o método contrário também usa algo no quadrante positivo, o castigo)

Reforço negativo com castigo positivo: este também faz sentido. Um funciona como complemento do outro. A diferença deste caso em relação ao par anterior é que vai acontecer um quadro operativo completamente inverso. Tomemos o mesmo exemplo de andar à trela. Se optarmos por ensinar este comportamento através da combinação R- e P+, iremos proceder deste modo: sempre que o cão estiver a puxar na trela, castigamos. Até aqui, nada de novo; só que o castigo, ao ser positivo e não negativo, já não se limita a impedir que o "mau" comportamento continue e seja reforçado; castigar positivamente um cão que puxa na trela implica fazer-lhe alguma coisa de forma a que este comportamento lhe traga más consequências. O procedimento mais habitual: dar um (ou mais) esticão na trela. A ideia é castigar o cão de forma a que este não pretenda continuar a ter o comportamento; depois, quando o cão pára de puxar, surge o reforço negativo. Aqui, o reforço negativo surge pela simples paragem do castigo, ou seja, surge quando o dono deixa de dar esticões na trela. Sinteticamente: o comportamento inadequado acontece: o dono castiga positivamente, promovendo uma consequência má para tal comportamento; tendo em conta este quadro de consequências, o cão pára o comportamento, e o dono deixa de castigar. A consequência de parar de puxar na trela é boa, pois significa o final do castigo.
Esta combinação de consequências é aquela usada pelo método a que podemos, genericamente, denominar como "Método tradicional".

Em termos formais, quer num caso (R+ com P-) quer noutro (R- com P+) faz-se um trabalho muito semelhante de controlo das consequências para cada comportamento. Isto é, em vez de deixar que seja o ambiente ou as circunstâncias a providenciarem as consequências para o comportamento (no caso de puxar na trela, se nada fizermos, o comportamento vai ser auto-reforçado, ou melhor, reforçado pelas consequências fornecidas pelo próprio ambiente...) está-se a usar as relações entre comportamento e consequência a nosso favor. Mas há um detalhe que torna um caso bem distinto do outro. A pergunta a fazer é "o que é que foi realmente ensinado"? No primeiro caso, a resposta será: "o cão aprendeu a andar sem puxar". No segundo caso, a resposta será: "o cão aprendeu a não puxar". Ou seja, no primeiro caso, o cão aprendeu por promoção do comportamento desejado (e impedimento do comportamento indesejado); no segundo caso, o cão aprendeu por repulsão (primeiro) e ausência (depois) do comportamento indesejado. Ora, o par R+P- trabalha sobre o comportamento que se pretende ver repetido; o par R-P+ trabalha sobre o comportamento que se pretende ver extinguido. 
Uma pergunta muito pertinente poderá levantar-se, neste momento: mas e então eu não posso castigar o meu cão com um esticão na trela quando ele estiver a puxar, e depois recompensá-lo com uma bolacha quando ele estiver a andar sem puxar? Traduzindo esta pergunta para os termos formais: será que não podemos, mesmo, usar primeiro o castigo positivo e, depois, o reforço positivo? Esta é a grande rasteira que assombra o pensamento de demasiada gente, incluindo muitos profissionais. É que é extremamente atractivo (uma vez mais, por questões também moralistas) colocarmo-nos no (pretenso) meio termo e descomprometermo-nos com qualquer facção (pretensamente) ideológica ou extremista. Repare no que foi dito acima acerca da combinação eventual entre reforço positivo e castigo positivo: quando temos estes dois tipos de consequências, temos já dois comportamentos a ocorrer, pois não podemos reforçar positivamente e castigar positivamente o mesmo comportamento. Ora, quando o caro leitor castiga (positivamente) o seu cão com um esticão na trela (ou afim) por este puxar, e, quando o cão deixa de puxar, o caro leitor o recompensa, na verdade está a fazer um processo faseado em que está a lidar com dois comportamentos. Isto pode parecer um preciosismo, mas, conforme se verá, não é. É que, na verdade, o simples facto de deixar de dar esticões já é um reforço; é o puro reforço negativo. O seu cão puxa na trela -> o dono castiga-o (com um esticão, por exemplo) - > o cão cessa o comportamento inadequado -> o dono deixa de castigar. O "deixar de castigar" é uma forma de reforço; é, como disse, o reforço negativo. Se o caro leitor decidir, depois disso, recompensar o seu cão por estar a andar sem puxar, então vai estar a usar reforço positivo, é certo, mas não como par do castigo positivo. O par do castigo positivo é, sempre, o reforço negativo. Neste caso, castigou positivamente o puxar na trela; reforçou negativamente o deixar de puxar; e completou reforçando positivamente o andar sem puxar. É uma via legítima, claro. Mas estão em causa dois processos e não um só. Na verdade, não existe um uso "misturado" ou "conciliado" ou "balanceado" de métodos. Existe o uso de um método seguido do uso do outro método. 
E qual é o mal? Toda esta lengalenga de erres e pês tem dois objectivos:

a) Tal como se disse na primeira parte, este tema é chato e estéril - não é por saber distinguir um R+ de um R- que o meu cão vai saber andar à trela sem puxar. Mas é extremamente conveniente que saibamos a estrutura e os fundamentos da aprendizagem animal para que saibamos o que estamos a fazer quando tentamos moldar o comportamento do nosso cão. Assim, é muito importante que saibamos que existem dois e só dois tipos de conjugação de consequências: reforço positivo com castigo negativo e reforço negativo com castigo positivo. É possível, tal como no último exemplo, castigarmos positivamente um cão e depois reforçar positivamente? É, mas teremos de ter a consciência de que estamos a castigar positivamente (e reforçar negativamente) um comportamento, e estaremos de seguida a reforçar positivamente um OUTRO comportamento. 

b) Voltemos questão: posso castigar o meu cão (com um esticão) quando ele está a puxar à trela, e depois recompensá-lo (com comida, por exemplo) quando ele está a andar sem puxar? Pode, sem dúvida. Mas a pergunta que eu coloco é a seguinte: se o objectivo é que o seu cão ande à trela sem puxar, por que é que não começa logo por aí? Por que é que não começa logo com o reforço positivo do comportamento desejado? "ah, porque o meu cão puxa bastante, e ele passa mais tempo a puxar do que a andar sem puxar; logo, não posso abrir mão de castigar o comportamento incorrecto; não posso simplesmente esperar pelo bom comportamento para recompensá-lo". Pois não! Tem toda a razão o leitor se pensar assim. Mas por isso é que existe uma coisa chamada castigo negativo. Sempre que o seu cão estiver a puxar, simplesmente pare. Isso já é castigo: é castigo negativo, na medida em que evita que o seu cão seja reforçado indevidamente. E tudo aquilo que pretende não passa disso: impedir que o seu cão seja reforçado pelo comportamento errado; promover que o comportamento certo seja repetido no futuro. Se der consigo a perguntar-se: "mas qual é mal de dar uma correcção (castigo positivo)?", eu aconselho que pense assim: porquê usar castigo positivo se obtém aquilo que deseja apenas usando o castigo negativo? 
Aquilo que devemos perguntar num caso destes, realmente, é o seguinte: o que é que eu pretendo reforçar (isto é, fazer com que o meu cão faça mais vezes no futuro)? andar na trela sem puxar, ou parar de puxar quando anda à trela? Pode parecer exactamente a mesma coisa, e, no limite, o efeito prático até pode ser o mesmo. Mas a maneira como formulamos aquela questão define perfeitamente a forma interpretamos o comportamento e a educação dos nossos cães: se eu escolher a resposta "quero que o meu cão pare de puxar quando anda à trela", estou implicitamente a pressupor que existe uma forma correcta natural do meu cão, e que é andar à trela sem puxar, e que existe, por contrapartida, um desajuste comportamental, que consiste em puxar na trela. Se, ao invés, eu escolher a resposta "quero que o meu cão ande na trela sem puxar", então estou a aceitar que o meu cão não sabe andar à trela, por defeito e por natureza, e que é preciso que seja ensinado. 

Uma palavra acerca do valor e das intensidades das consequências. 
O reforço positivo apenas funciona se for realmente reforçante, isto é, se tiver um valor alto para o cão de modo a ser uma consequência que torne o comportamento mais apetecível, mais susceptível de ser repetido. Quando o nosso cão faz o seu primeiro xixi na rua, existe uma diferença enorme entre fazer uma festinha e dar cinco pedaços de fígado cozido; lembre-se que o objectivo é tornar o comportamento mais provável no futuro, e não um qualquer concurso de integridade de carácter. 
O castigo negativo só funciona se, efectivamente, impedir que o cão conclua uma determinada acção cuja consequência fosse tornar essa acção mais provável no futuro. Ao mesmo tempo, o castigo negativo só funciona se o reforço positivo que lhe está associado for efectivamente forte; caso contrário, o comportamento que foi castigado negativamente poderá conhecer novos ensaios, pois não foi dada uma razão suficientemente forte para que essas novas tentativas não surgissem.
O castigo negativo só funciona se for realmente aversivo. Nenhum cão deixa de puxar na trela ou de ladrar se sentir uma pequena vibração ou um ligeiro toque no pescoço. O castigo positivo só o é se se afirmar como uma má consequência para o comportamento em causa; não há castigos positivos sem aversão; tal coisa seria apenas uma consequência neutra e, como tal, não levaria o cão a abandonar o respectivo comportamento.
O reforço negativo só funciona se o castigo positivo associado for realmente aversivo, fazendo do reforço negativo um alívio claro e inequívoco. Se o castigo positivo não tivesse sido realmente aversivo, o reforço negativo perderia toda a sua força reforçante, pois o cão não sentiria qualquer alívio ou sensação recompensadora pelo fim do castigo. 

Voltemos a colocar a perguntar enunciada acima: posso castigar (positivamente) o meu cão e depois reforçar (positivamente) quando ele se portar bem? Pode, mas se o objectivo é chegar à parte em que se usa o reforço positivo (recompensa pelo bom comportamento) por que razão começar o processo por algo que é necessária e inevitavelmente aversivo? "Porque não chega recompensar; o cão também tem de ser castigado quando tem um comportamento inadequado". Claro, mas para isso é perfeitamente suficiente o castigo negativo, que, aliás, é o par indissociável do reforço positivo.

A conclusão onde quero chegar é a seguinte: a mistura entre métodos não existe, propriamente. Ou se usa um, ou se usa outro. Poderemos, eventualmente, complementar um método com o outro. É materialmente possível. Só que não só não é necessário, como é até altamente desaconselhável e, sobretudo, sem sentido. Um método tem já as ferramentas todas para funcionar, por si só. Se se torna necessário recorrer ao outro método, como complemento, então é sinal de que o primeiro método não foi suficiente e, em todo o caso, era completamente desnecessário ter-se recorrido a esse primeiro método se se acabou por ter de se recorrer ao outro. No caso, e a insistência é propositada: se se vai acabar por recompensar as boas acções, então era completamente desnecessário o recurso ao castigo de tipo aversivo. O castigo negativo chegava bem.


Sem comentários:

Enviar um comentário