Aprendizado por reforço
André Felipe Rodrigues1, Adauto Mendes1, Wesley Ferreira de Carvalho1
1Departamento de Ciência da Computação – Universidade Federal de Lavras (UFLA)
Caixa Postal 3037 – 37200-000 – Lavras – MG – Brasil
{afelipe@hotmail.com, , wesley.fc@bol.com.br}
Resumo. Este artigo descreve uma visão geral sobre umas das mais importantes áreas da Inteligência Artificial (IA): a Aprendizagem por Reforço (AR). A Aprendizagem por Reforço preocupa-se com o problema de um agente aprender, por tentativa e erro, a atingir um objetivo interagindo com o seu ambiente. O ambiente lhe fornece um reforço (recompensa ou punição). A AR utiliza algoritmos, dentre os quais se destaca o Q-Learning. Dentre as inúmeras aplicações da AR, será explanado neste artigo os resultados obtidos por (Horewicz et al., 2006) e (Coelho, 2008) em jogos, mais especificamente no Jogo Da Velha e no Futebol de Robôs, respectivamente. Para um melhor entendimento da IA aplicada à jogos será feita uma breve descrição do conhecido algoritmo MiniMax.
Abstract. This article describes a....
1. Introdução
Conforme [1], o aprendizado é a aquisição de conceitos e de conhecimentos estruturados. O estudo do aprendizado pela máquina é uma área fundamental da Inteligência Artificial (IA). O aprendizado pode ocorrer com ou sem a presença de um tutor, ou seja, de um professor. O aprendizado supervisionado caracteriza-se pela orientação de um tutor na aquisição dos conceitos e de conhecimentos estruturados enquanto que o aprendizado não-supervisionado ocorre apenas em função dos estímulos primitivos, não existindo a figura do tutor na aprendizagem. Um dos mecanismos empregados no processo de aprendizagem é o de punição e recompensa, onde as tentativas e os erros são disciplinados por um supervisor, que fornece ao aprendiz um sinal de retorno na forma de punição ou recompensa dependendo das ações certas ou erradas executadas pelo