按照不同学习模式,机器学习又可分为监督学习、无监督学习、半监督学习、强化学习等分支。其中,强化学习聚焦于智能体与环境的动态交互——智能体通过观察环境状态、执行动作,获得即时或延迟的奖励信号,逐步优化自身策略,最终学会在复杂、不确定的环境中自主做出最大化长期累积回报的决策。