Q-learning入门例程及Python实现

摘要:Q-learning算法是一种以马尔科夫决策作为理论基础与模型无关的强化学习算法。本文中会描述一个入门级强化学习例程,即房间连通性问题:根据房间的连通性与否及房间出口构建回报矩阵R。并通过python语言利用强化学习算法获得该场景下的评估矩阵Q,最后利用Q矩阵寻找最优路径。

pythonmatlab强化学习