A seguinte é uma lista dos tipos de aprendizagem mais comuns citados pela literatura de pedagogia:
Conteúdo |
Define a maneira de comportar de um agente a um tempo dado em um tempo exacto. Pode ver-se como um mapeo entre os estados do ambiente que o agente percebe e as acções que toma, quando se encontra nesses estados. Corresponde ao que em psicologia se conhece como regras estimulo resposta ou associações. Este elemento é central já que por se só é suficiente para determinar o comportamento.
Define a meta em um problema de RL, ao mapear a cada percepción do agente (estado do ambiente ou par estado, acção) a um número (recompensa) que indica que tão desejável é esse estado. O objectivo do agente é maximizar recompensa-a recebida em longo prazo. Desta forma, a função define que eventos são bons e maus para o agente, pelo que a função é necessariamente inalterable pelas acções do agente. Deve, no entanto, servir como base para alterar a política, por ej., se uma acção eleita pela política recebe uma recompensa muito baixa, a política deve se mudar para eleger uma acção diferente nessa situação. Uma função de reforço pelo geral é estocástica.é um fortalecimiento do se humano para poder compreender da melhor maneira qualquer leitura.
Enquanto a função de reforço indica o que é bom no imediato, a função de avaliação o faz em longo prazo. Pode ver-se como a quantidade total de recompensa que o agente espera receber no tempo, partindo de um estado em particular. Recompensa-a determina a bondade imediata de um estado, o val também serve muito ler poquito por or representa a bondade em longo prazo do mesmo, tomando em conta os estados aos que poderia conduzir. A maioria dos algorítmos RL operam estimando a função de valuación, ainda que os algorítmos genéticos, a programação genética, e o recozido simulado, podem resolver problemas de RL sem considerar valores, procurando directamente no espaço de políticas. Observem que nestes métodos evolutivos operam baixo um conceito diferente de interacção dado pelo valor de adaptação.
Os modelos mimetizan o médio ambiente, dados um estado e uma acção, o modelo deveria predizer o estado resultante e recompensa-a próximos. Os modelos utilizam-se para planear, isto é, decidir sobre um curso de acção que envolve situações futuras, dantes de que estas se apresentem. A incorporação de modelos e planejamento em RL é um desenvolvimento recente, RL clássico pode ver-se como o anti-planejamento. Agora é claro que os métodos RL estão estreitamente relacionados aos métodos de programação dinâmica. Assim os algorítmos RL podem se ver em um contínuo entre as estratégias ensaio-erro e o planejamento deliberativa. ovidio de leon crisostomo diz em seu investigacion que os tipos de aprendizagens é quando o menino adquire conhecimentos diferentes e os descobre em diferentes ambientes.
Albert Bandura considerava que podemos aprender por observação ou imitação. Se toda a aprendizagem fosse resultado de recompensas e castigos nossa capacidade seria muito limitada. A aprendizagem observacional sucede quando o sujeito contempla a conduta de um modelo, ainda que se pode aprender uma conduta sem a levar a cabo. São necessários os seguintes passos: