现代机器人学习技术的两大主要研究方向为强化学习和模仿学习。强化学习技术最早由加拿大计算机科学家Richard S. Sutton 和其博士阶段导师Andrew G. Barto 所倡导,强化学习的基本模型构建在人类的认知心理学和行为科学的研究基础之上。通过观测人类和其他动物基于反馈的技能学习机制,强化学习将学习目标设定为最大化环境给予智能体特定行动的奖励。智能体通过在环境中进行不断的探索,逐步发现奖励回报较高的区域,并在该区域附近进行更多的进一步的探索。如此反复,最终习得目标任务上的执行策略。经过数十年的发展,强化学习技术逐步演变出了基于值函数的方法,基于策略搜索的方法,基于模型的方法等子方向。
|
版权所有 © 上海昀景智能科技有限公司 地址:上海市闵行区颛兴东路1331号706室 沪ICP备20012629号-1 |