domingo, 1 de setembro de 2013

Aprendizagem contínua e reforços diferenciais

Mas, então, que outra forma de abordar a educação dos nossos cães existe? Que alternativa ao paradigma de "ensinar" o cão até saber um comando?

A aprendizagem tem de ser contínua. Não deveria haver sequer dúvidas em perceber o alcance desta ideia. Quando achamos que o cão já sabe isto ou aquilo, deixamos de providenciar boas consequências para o comportamento, e este, com o tempo, acaba por se extinguir. Afinal, não é justamente o processo que faz com que os maus comportamentos se extingam? Não é justamente por deixarmos de fornecer boas consequências para o mau comportamento que este se vai apagando? Pois bem, o mesmo se passa com os bons comportamentos. Se os tomarmos como garantidos e não continuarmos a fornecer boas consequências para eles, esses bons comportamentos vão desaparecendo, ou, pelo menos, vão perdendo solidez.
E não é só isso. Como se vem defendendo ao longo dos textos do Abacaxi, ensinar o nosso cão é a melhor forma de comunicarmos e de nos relacionarmos com ele. Ensinar um cão é estimulá-lo; é dar-lhe cada vez maior intimidade com a linguagem dos seus donos; é tornar a sua vida repleta de novidades; é enriquecer o ambiente em que ele vive. Mesmo quando nos limitamos a "cuidar" de um cão, sem, aparentemente, lhe estar a ensinar nada em concreto, a verdade é que estamos continuamente a transmitir-lhes informações. Quer queiramos, quer não, os nossos cães estão em permanente aprendizagem. Sendo assim, não faz sentido não nos integrarmos, activamente, nesse processo de aprendizagem.

Claro que isto em nada contradiz o paradigma do "o meu cão já sabe sentar". Quem segue essa linha de educação do seu cão pode sempre seguir para novos comportamentos, depois de já ter "adquirido" um outro. Pode sempre ir acumulando novos e novos comportamentos. 
Mas quando falo em aprendizagem contínua, refiro-me também, e sobretudo, à aprendizagem de um só comportamento. E isto qualquer pessoa compreende. Ensinem o vosso cão a ladrar ao comando; e, assim que ele começar a responder, passem dois anos sem praticar o comando. Depois peçam-no novamente como se o tivessem ensinado ontem. Por certo ele não responderá, ou, no melhor dos cenários, responderá com enormes dificuldades. Ou seja, toda a gente sabe que é preciso ir praticando os comportamento (pretensamente) adquiridos.
Mas existe uma enorme diferença de atitudes e de efeitos entre (i) praticar um comportamento adquirido e (ii) manter o processo de aprendizagem em contínuo. Desde logo, como já dissemos nesta semana, quando assumimos um determinado comportamento como adquirido, reagimos de forma muito mais "reactiva" quando o cão não responde ao pedido. Mas não só. Muitas vezes, descuramos as consequências para os comportamentos. Um exemplo. Treinamos o nosso cão a responder à chamada. Despendemos vários meses a solidificar o comportamento. Até ao dia em que, contabilizando, o comportamento atinge um grau satisfatório para o dono. Bom, o que se segue? O comportamento é dado como adquirido, então, o dono limita-se a chamar o cão, sem fornecer consequências adequadas. O dono chama, o cão vem, e o dono nada faz de especial (quando muito, lá sai uma festinha ou uma palavra afectuosa). E porquê? Justamente, porque o comportamento é interpretado como sendo adquirido. Pouco tempo depois, todavia, aquilo que se considerara adquirido demonstra ser muito frágil e volátil; em outras palavras, o cão deixa de responder à chamada. Simplesmente, não podemos deixar de fornecer consequências positivas para os comportamentos desejados. E isto implica uma difícil mudança de paradigma na forma de encarar a educação dos nossos cães; implica pôr de lado a ideia de comportamentos adquiridos, e enveredar por uma educação contínua.
Só que, claro, não podemos manter o mesmo tipo de feedback para empre. Não podemos usar sempre as mesmas recompensas, e não deveremos recompensar sempre um comportamento que consideramos "entranhado". Se recompensarmos sempre que o nosso cão se senta, e se o fizermos sempre da mesma forma, não só estaremos a tornar todo o procedimento previsível e monótono, como estamos a selar a sentença para que esse comportamento fique completamente estagnado. E quando um comportamento estagna, isso não significa que se solidifique e se mantenha fiável; significa que as motivações para esse comportamento deixarão de ter significado. 
Como resolver este aparente paradoxo? Como ultrapassar a aparente contradição que há entre (i) termos de dar constante e contínuo feedback aos comportamentos dos nossos cães e (ii) não podermos recompensar um comportamento para sempre, indefinidamente? De facto, à primeira vista parece mesmo haver uma incompatibilidade entre as duas "exigências". A chave para a resolução do problema está na noção de diferencial. Como se sabe, os sinais de que uma dada economia local está "de boa saúde" num determinado momento não têm a ver com a riqueza gerada em termos absolutos, mas em termos relativos, isto é, têm a ver com o crescimento que houve em comparação com um outro momento determinado. Da mesma forma, para que haja produção de energia, é necessário que haja um diferencial de potências entre dois pólos. Quando um professor fica entusiasmado quando um seu aluno sobe de um 13 para um 16, e fica desapontado quando um outro desce de um 18 para um 16, tudo isto faz imenso sentido, e tem a ver com a lógica diferencial: não importa tanto o conhecimento e as capacidades adquiridos que um aluno demonstrou num determinado dia; importa sim acompanhar e promover a evolução desse aluno, gerando níveis de motivação que o levem a manter-se interessado. 
Na aprendizagem dos nossos cães, a coisa não é distinta. Manter um cão motivado e fazê-lo entrar num processo de aprendizagem contínua implica que adoptemos a lógica diferencial para a comunicação que encetamos com os nossos cães. Assim, em vez de estipularmos um ponto definido que, uma vez atingido, significaria que o nosso cão "saberia", em termos de aquisição, um determinado comportamento, talvez fosse preferível inventar novas formas de melhorar o comportamento. Se o nosso cão já senta em casa sem distracções, aumentamos as distracções. Se já senta com distracções, repetimos os exercícios fora de casa. E depois incluímos distracções. E depois aumentamos as distracções. E depois aumentamos a distância a que proferimos a deixa verbal. E depois aumentamos ainda mais. E depois pedimos que o nosso cão permaneça sentado durante mais dois segundos do que o normal. E depois mais quatro. E depois mais distância. E ainda mais segundos... e mais distracções. Depois, integramos o 'senta' numa série de comportamentos diferentes, e recompensamos apenas a série de comportamentos, e não apenas o comportamento isolado. Depois variamos a série, e modificamos a sequência, tornando-a imprevisível. E depois... e depois... O que importa é que estipulemos uma regra essencial para a educação do nosso cão: a regra do n+1. Por cada patamar n que atinjamos, haverá sempre um superior a atingir. 
Assim, vemos que a aprendizagem contínua não significa aprendizagem estável; em ordem a manter a aprendizagem num processo contínuo, é necessário providenciar consequências diferenciais. Deste modo, é possível estipular formas de avaliar o comportamento do nosso cão segundo parâmetros distintos do "sabe ou não sabe": tais parâmetros são "melhor do que a média, igual à média, inferior à média". Se um cão obteve desempenho das últimas vezes, o objectivo no próximo exercício será que ele atinja x+1, isto é, um melhor desempenho. É a isto que se refere Ian Dunbar quando fala de reforços diferenciais: quando o nosso cão tem um desempenho igual ao normal, não vale a pena recompensar com algo superior a uma simples palavra de apreço, uma espécie de "gesto de cortesia" que dê a saber ao nosso cão que reparamos e agradecemos o comportamento, mas sem fazer dessa resposta o máximo que o nosso cão nos poderá dar; quando o nosso cão tem um desempenho melhor do que o normal, aí sim, reforçamos significativamente! Sendo que este "melhor do que o normal" em breve se tornará "o normal", e deixará de ser reforçado dessa forma: o reforço significativo surge apenas quando surge o +1, isto é, o melhor do que a média
No fundo, usamos a mesmíssima lógica que toda a gente usa para recompensar um cão quando começa a aprender um comportamento. Reforçamos quando ele tem o comportamento correcto para que ele se torne "a norma". A diferença é que não estabelecemos um ponto final no processo de aprendizagem. Mantemos esse processo para sempre, reforçando os comportamentos melhores do que a média e nunca dando como adquirido e solidificado um comportamento. Não conheço forma melhor de manter um comportamento activo e um cão motivado para o realizar.
Outra regra de ouro. Tudo isto pode soar a algo muito desgastante, para o dono e especialmente para o cão. Tudo isto pode parecer uma forma de forçar os nossos cães a tarefas indesejadas por eles. Não tenho dúvidas de que todo este discurso parecerá, para muitos, um exagero ou mesmo um certo abuso. Em relação a essas reticências possíveis, eu relembro que, mediante este processo de aprendizagem contínua com reforços diferencias, nunca obrigamos o cão a nada. Na verdade, é justamente a melhor forma que conheço de evitar recorrer a formas de aprendizagem "forçada" ou "por obrigação". Trata-se simplesmente de manter o cão motivado. Haverá cães cuja evolução seja mais lenta, e cuja motivação seja mais difícil. Tudo bem. Já se sabe que todo o processo terá de ser adaptado a cada cão. Mas isso não muda uma vírgula à forma geral do processo. Haverá cães que levarão uma vida toda a alcançar um patamar inicial de dificuldade, e haverá outros para os quais o grande desafio consiste em imaginar níveis de dificuldade cada vez maior. Mas nenhum cão pode ser considerado inapto para cumprir um plano de aprendizagem de tipo n+1. A regra a adoptar deverá ser sempre, então, usar o treino como forma de motivar a continuidade do treino, e nunca forçar nada. 

A grande vantagem deste método, já a referi: acabam-se as desculpas para se iniciar a fase dos castigos premeditados, acabam-se os pretextos para encetar a fase da "pressão activa", acaba-se o ressentimento perante os cães que, pretensamente, já sabem um comportamento só que, do alto da sua "teimosia", insistem em não cumprir. Numa palavra, acabam-se as razões para mantermos uma relação conflituosa com os nossos cães, e sublinham-se os motivos para fortificar uma relação baseada na cooperação. 
Muitas vezes ouvimos falar numa inevitabilidade de uma fase de pressão, na qual o cão deverá conhecer um certo nível de obrigação. Isto talvez seja legítimo se estivermos num esquema de treino que estipule um determinado comportamento como adquirido (os tais 80% ou 90%). Aí, como se dá um determinado comportamento como adquirido, torna-se muito difícil ultrapassar a fasquia a que se chegou, desde logo porque o nível de recompensas já não consegue motivar mais o cão. Então, torna-se necessário iniciar uma nova fase de "motivações", agora baseadas em castigos e pressões.
Mas, mediante o tipo de treino a que vimos denominando como n+1, ou diferencial, essa fase de pressões e castigos torna-se desnecessária. Por definição, desnecessária. Ao aumentarmos a fasquia do desempenho, o cão permanece motivado para realizar os comportamentos. Esta é a grande diferença.