本文摘要:
入门,直观的强化学习系列用简朴的英语应用马尔可夫决议历程的温和指南 Photo by Philippe Murray-Pietsch on Unsplash自从使用强化学习训练的AlphaGo模型在庞大的围棋角逐中击败其时的卫冕世界冠军以来,您震惊了世界。在一系列文章中,我将先容强化学习(RL)的基础知识以及用于解决RL问题的一些最受接待的算法和深度学习架构。 我们将只管集中精神以尽可能直观的方式明白这些原理,而不必过多地研究数学理论。
入门,直观的强化学习系列用简朴的英语应用马尔可夫决议历程的温和指南> Photo by Philippe Murray-Pietsch on Unsplash自从使用强化学习训练的AlphaGo模型在庞大的围棋角逐中击败其时的卫冕世界冠军以来,您震惊了世界。在一系列文章中,我将先容强化学习(RL)的基础知识以及用于解决RL问题的一些最受接待的算法和深度学习架构。
我们将只管集中精神以尽可能直观的方式明白这些原理,而不必过多地研究数学理论。在第一篇文章中,我将先容RL的许多基本观点和术语,以便在以下文章中我们可以使用它们来构建解决方案。
RL概述RL在机械学习领域中适合什么地方?通常,当人们提供ML概述时,他们首先要解释的是,它可以分为两类,监视学习和无监视学习。可是,存在第三类,即。RL,只管没有像它的另外两个迷人兄弟姐妹那样经常被提及。> Machine Learning can be categorized as Supervised Learning, Unsupervised Learning and Reinforcement Learning (Image by Author)监视学习使用标志的数据作为输入,并预测效果。
它从充当"主管"的损失功效吸收反馈。无监视学习使用未标志的数据作为输入,并检测数据中的隐藏模式,例如聚类或异常。它没有收到主管的反馈。强化学习通过与外界互动来收集输入并吸收反馈。
它输出与世界互动时需要接纳的最佳行动。RL与有监视(或无监视)学习有何差别?· 没有主管来指导训练· 您无需使用大型(标签或未标签)预先收集的数据集举行训练。相反,您的"数据"是通过与您互动的现实情况中的反馈动态地提供应您的。
· 您可以根据一系列时间步长重复举行决议,例如。在分类问题中,您对数据输入运行一次推断以发生输出预测。使用强化学习,您可以重复运行推理,并在实际情况中导航。
RL解决了哪些问题?RL不是典型的ML问题(例如分类,回归,聚类等),而是最常用于解决差别种别的实际问题的,例如控制任务或决议任务,您可以在其中操作与之交互的系统现实世界。· 例如。机械人或无人机必须学习从一个盒子中拾取设备并将其放入容器的任务它对种种应用法式很有用,例如:· 操作无人机或自动驾驶汽车· 利用机械人来导航情况并执行种种任务· 治理投资组合并做出生意业务决议· 玩围棋,国际象棋,视频游戏等游戏通过重复试验举行强化学习使用RL,学习是通过重复试验的履历举行的,类似于人类。
婴儿可以接触火或牛奶,然后从负面或正面强化中学习。· 婴儿接纳一些行动· 从情况吸收有关该操作效果的反馈· 重复此历程,直到相识哪些操作发生了良好的效果以及哪些操作发生了倒霉的效果。> A baby learns from positive and negative reinforcement (Image by Author)要使用RL,请将您的问题结构为马尔可夫决议历程假设您想训练机械人。您将如何使用RL解决此类问题?要应用RL,第一步是将问题结构为称为Markov决议历程(MDP)的工具。
如果您以前从未使用过RL,则很可能您对MDP唯一相识的就是听起来很吓人。因此,让我们实验相识什么是MDP。一个MDP有五个组件,它们以明确的方式协同事情。
署理商:这是您所使用的系统,例如 机械人。这是您要使用RL构建和训练的模型。情况:署理在其操作历程中与之交互的现实情况。
例如。机械人必须导航的地形,其周围情况,风,摩擦,光照,温度等因素。
> An MDP has an Agent, Environment, States, Actions and Rewards (Image by Author)状态:在任何时候都代表当前的"世界状态"。例如。它可以捕捉机械人相对于其地形的位置,周围物体的位置以及风的偏向和速度。
可能存在一组有限或无限的状态。行动:这些是署理与情况交互所接纳的行动。例如。
机械人可以向右,向左,向前,向后,弯曲,举起手等等。可能存在有限或无限的可能行动集。奖励:是署理商因其行动而从情况中获得的正面或负面的强化。这是一种评估特定行动的"好"或"坏"的方法。
例如。如果沿特定偏向移动会导致机械人撞墙,那将带来负面的回报。
另一方面,如果向左转使机械人找到需要拾取的工具,它将获得努力的回报。界说MDP时应牢记什么?署理和情况:显然,第一步是确定署理的角色和规模以及要解决的问题的情况。状态:接下来,您必须界说状态包罗的数据点以及它们的表现方式。
重要的是,它可以捕捉代表问题的所有信息以代表当前的世界情况,以便业务代表可以对未来举行推理,而无需有关已往的信息或任何其他知识。换句话说,状态的界说应该是独立的。因此,例如,如果您需要相识有关如何到达此状态的某些信息,则应将历史记载封装在状态界说自己中。
行动:您的署理可以接纳哪些潜在行动?奖励:这是署理从履历中学习的方式。因此,这是您需要深思熟虑的事情,因为至关重要的是,以一种能够真实反映您希望署理学习的行为的方式来界说奖励。
MDP如何事情?现在我们已经相识了什么是MDP,接下来我们将先容它的事情原理。让我们以井字游戏(又名Noughts and Crosss)为例。两个玩家通过将令牌放置在3x3网格上来玩游戏。一个玩家放置Nought(甜甜圈形状),而其他玩家放置Crosss。
目的是通过将您的三个代币排成一行来赢得角逐。> (Image by Author)您可以如下界说MDP:· 署理与情况竞争,因此情况充当其对手。
· 状态在任何时候都是署理人和情况中所有令牌在板上的当前位置。· 署理可以将其令牌放置在网格中9个可用正方形中的每个正方形上,有9种可能的操作。· 如果署理获胜,则获得+10分的正奖励;如果署理获胜,则将获得-10分的负奖励。
每其中间程序给出0分的中性奖励。现在让我们来看一下MDP在玩游戏时的操作。署理在一系列时间步骤中与其情况举行交互。在每个时间步中都市发生一组设定的操作流程,然后在每个时间步中重复该流程。
该序列以初始状态开始,初始状态变为当前状态。例如,您的对手,情况已将其令牌放置在特定位置,这就是游戏的开始状态。
> How the MDP works (Image by Author)现在,从第一个时间步开始,在每个时间步上执行以下步骤:· 情况的当前状态已输入到署理。· 署理使用应当前状态来决议应接纳的措施。它不需要影象所有之前的状态和行动的历史。署理决议将其令牌放置在某个位置。
有许多可能的行动可供选择,那么它如何决议要接纳的行动呢? 这是一个很是重要的问题,我们稍后再讨论。· 该行动作为输入通报到情况。· 情况使用当前状态和选定的行动并输出两件事-将世界过渡到下一个状态,并提供一些回报。例如,它通过将令牌放置在某个位置来接纳下一步行动,并为我们提供了奖励。
在这种情况下,由于还没有人赢得角逐,因此它会提供0分的中立奖励。情况如何做到这一点对于署理是不透明的,而不是我们的控制规模。· 然后,作为先前操作的效果,未来自情况的奖励作为反馈提供应署理。这样就完成了一个时间步,并将我们移至下一个时间步。
现在,该下一个状态变为当前状态,然后将其作为输入提供应署理,并重复该循环。在整个历程中,署理商的目的是最大化其在给定状态下接纳行动所获得的酬劳总额。它不仅希望最大化即时回报,还希望最大化其随着时间的推移所获得的累计回报。我们将很快返回该主题。

MDP在一系列时间步长上举行迭代这是MDP操作的另一视图,显示了时间步长的进度。> An MDP iterates over a sequence of time steps (Image by Author)在每个时间步中,都市发生三件事-状态,行动和奖励,它们充实形貌了该时间步中发生的事情。轨迹形貌了多个时间步骤上的执行因此,可以将MDP的执行形貌为一系列时间步长上的发生轨迹(就状态,行动,奖励而言),如下所示。
(s3,a3,r4,s4,a4,r5,s5,a5,r6,s6)情景任务以终端状态竣事对于具有明确界说的竣事或终端状态的RL任务,从开始状态到竣事状态的完整序列称为情节。例如。游戏的每一轮都是一集。
· 因此,在情节竣事时,您可以重置为开始状态(或从一组开始状态中随机选择一个)并播放另一个完整情节,然后重复。· 每个情节与下一个情节无关。因此,RL系统的操作会重复多次。
在每个情节中,它会重复多个时间步长。> Each Episode ends in a Terminal State (Image by Author)连续的任务永远连续下去另一方面,没有止境的RL任务称为"继续任务",可以永远继续下去(或者直到您停止系统为止)。例如。
连续治理制造或堆栈自动化的机械人。署理和情况控制状态-行动转换正如我们所看到的,MDP通过在每个时间步长之间交替举行署理和情况来举行操作:> Given a state, the Agent decides the action. Given an action (and state), the Environment decides the next state. (Image by Author)· 给定当前状态,下一步操作由署理决议。实际上,那是署理商的唯一事情。
例如,从当前状态,署理可以选择行动a 1或a 2来放置其令牌。· 给定当前状态,以及署理选择的下一个行动,到下一个状态和奖励的过渡受情况控制。例如,如果署理人选择了行动a 1,则情况可以通过举行差别的行动而转变为状态S 2或S 4。另一个视频游戏示例可能是,从给定状态(例如,角色站在屋顶上)开始,相同的署理行动(角色跳跃)可能以某种概率竣事于多个下一个状态(例如,降落在地面上)。
周围的屋顶,或跌落到地面),由情况控制。情况如何过渡到下一个状态?给定当前状态,以及署理接纳的行动,情况如何确定效果,即 下一个状态和奖励?对于我们将要处置惩罚的最现实的RL问题,谜底通常是"确实如此"。
大多数情况具有庞大的内部动力学,可以控制从特定状态接纳行动时它们的行为方式。例如,在股票生意业务RL应用法式中,股票市场情况具有决议股票价钱走势的一系列未知因素。还是无人机导航RL应用法式中的情况取决于在种种地形和微天气条件下控制气流,运动,热力学,能见度等的物理定律。我们的重点是训练署理,我们通常可以将情况视为外部黑匣子。
请注意,此外部黑匣子可能是情况的模拟器。在许多情况下,构建模拟器可能不切实际,我们将直接与真实情况举行交互。
可是,为了完整起见,让我简要地提及一下,如果我们确实构建了这样的情况模型,则MDP会将其表现为大型过渡概率矩阵或函数。> (Image by Author)该矩阵将给定的状态和操作对映射到:· 下一个状态具有一定的概率,因为我们可能以差别的概率最终进入差别的状态。
这称为过渡概率。· 奖励。署理如何选择行动?另一方面,我们对署理如何决议在给定状态下要接纳的操作很是感兴趣。
实际上,这就是我们要解决的RL问题。为此,它使用了三个观点,接下来我们将举行探讨:· 回报· 政策· 值回报是所有时间步骤的总奖励随着署理执行时间步长,它会在每个时间步长上累积奖励。
可是,我们真正体贴的是累积奖励,而不是任何小我私家奖励。我们称此为回报。它是署理在任务连续时间内累积的总酬劳。
> The Return is the total of the rewards received at each time-step (Image by Author)退货使用折扣奖励盘算当我们盘算回报时,我们不只是简朴地将所有奖励加起来,而是应用折现系数γ来加权一段时间后的奖励。这些被称为折扣奖励。返回值=r₀+γr₁+γ²r2而且,更一般而言:返回值=r₀+γr₁+γ²r²+…。
+γⁿrₙ这样,累积的奖励不会随着时间步长的增加而无限增长(例如对于一连任务或很是长的情节)。与厥后的奖励相比,它还勉励署理人更多地关注立刻的奖励,因为以后的奖励将获得更大的折扣。特工的最终目的是获得最大的回报,不仅仅是在一个情节中,而是在许多许多情节中。
基于此折扣,我们可以看到署理商在评估奖励时思量两个因素。立刻奖励比以后奖励更有价值第一点是,如果署理必须在现在获得一定的奖励与以后获得一定的奖励之间举行选择,则即时奖励更有价值。由于折扣因子γ小于1,因此我们对以后的奖励的折扣要比立刻奖励的折扣多。> Immediate Reward is more valuable than Later Reward (Image by Author)给予我们最高总回报的奖励会更好第二点是,如果署理商必须在现在获得一些奖励与以后获得更大的奖励之间举行选择,则更大的奖励是最可取的。
这是因为我们希望署理商检察总回报而不是单个奖励。例如。在下棋游戏中,署理商必须选择两条路径中的优势者。
首先,它可以通过努力发挥来尽早杀死一些碎片。这给了它一些立刻的回报。可是从久远来看,这使它处于劣势,而且输了角逐。因此,最终它会获得很大的负面奖励。
或者,它可以玩一组差别的行动,起初发生的奖励较低,但最终会赢得角逐。从而获得丰盛的努力回报。显然,第二种方法更好,因为它提供了更高的总回报,而不是更大的立刻回报。
> We want to get a higher Total Reward (Image by Author)政策是接纳行动的计谋我们要涵盖的第二个观点是政策。早些时候,我们推迟了一个很是重要的问题,即署理如何决议在给定状态下应接纳哪种行动。署理可能使用许多差别的计谋:· 例如。总是随机选择下一个行动· 例如。
总是选择给出最高已知奖励的下一个状态· 例如。抓住时机,探索新的状态,希望找到一条更好的门路。
· 例如。始终保持宁静,制止获得负面奖励的时机。署理用来决议在给定状态下接纳哪种操作的任何计谋都称为计谋。
只管听起来很抽象,可是计谋只是将给定状态映射到要执行的操作的某种工具。> The Policy tells the Agent which action to pick from any state (Image by Author)计谋就像一个(庞大的)查询表您可以将计谋视为(庞大的)查找表,该表将状态映射到操作。> (Image by Author)因此,给定当前状态,署理将在表中查找该状态以查找应接纳的操作。> The Policy is like a (huge) Lookup Table (Image by Author)在实践中,对于现实世界中的问题,有太多的状态和太多的行动,因此使用了一个函数而不是将状态映射到行动的查找表。
可是,直觉是一样的-将函数视为"庞大的查询表"。确定性和随机性计谋计谋可以是确定性计谋,也可以是随机计谋。确定性计谋是指署理在到达特定状态时始终选择相同的牢固操作的计谋。
> (Image by Author)或者,随机计谋是一种计谋,在该计谋中,署理凭据每个行动的某种概率来更改其为状态选择的行动。例如,它可能会在玩游戏时这样做,以至于无法完全预测。例如,在玩铰剪石头布时,如果它总是以相同的程序前进,则对手可以弄清楚这一点并轻松击败它。> (Image by Author)署理如何获得政策?我们一直在谈论该政策,就似乎该署理商已经可以使用它一样。
可是事实并非如此。就像人类婴儿一样,署理人一开始就并没有真正有用的政策,也不知道在任何给定状态下应该接纳什么行动。然后,通过使用强化学习算法,它会逐步学习它可以使用的有用计谋。
可能有太多的计谋,署理应使用哪个计谋?署理从给定状态接纳的操作确定了它获得的奖励,因此随着时间的流逝,最终将获得总回报。因此,署理的目的是选择使回报最大化的行动。换句话说,署理人的目的是遵循最大限度地提高回报的政策(即接纳行动的方式)。因此,在署理可以遵循的所有计谋中,它希望选择最佳计谋。
给予最高回报的谁人。为此,署理需要比力两个计谋来确定哪个更好。为此,我们需要相识价值的观点。
该值通过遵循一些政策告诉您预期收益假设署理处于特定状态。另外,假设署理人以某种方式获得了政策π。现在,如果它从该状态开始,而且始终凭据该计谋选择操作,那么它可以期望获得什么回报?这就像是在说,如果署理从该状态开始,而且始终凭据该计谋选择操作,那么其多次发生的平均收益将是几多?在计谋π下,该平均恒久回报或预期回报被称为该特定州的价值。
> The State Value (V) or the State-Action Value (Q) is the expected Return obtained from a particular state or state-action respectively, by following the given Policy over many episodes (Image by Author)替代地,署理可以从状态-行动对开始。它已经从特定状态接纳了特定行动。如果从该状态行动继续前进,它总是凭据给定的计谋π选择行动,它可以期望获得什么回报?正如前面针对计谋表所讨论的,我们可以将值视为一个(庞大的)查找表,该表将一个状态或一个状态-行动对映射到一个值。
因此,我们有两种类型的价值:· 状态值-从给定状态开始执行基于给定计谋π的操作,从给定状态返回的预期收益。换句话说,状态值函数将状态映射到其值。
> The State Value Function maps a State to its Value (Image by Author)· 状态行动值(又称Q值)-从给定状态接纳给定行动,然后基于给定计谋π执行行动的预期回报。换句话说,状态-行动值功效将状态-行动对映射为其值。

> The State-Action Value Function maps a State-Action pair to its Value (Image by Author)奖励,回报和价值之间的关系· 奖励是单次行动获得的立刻奖励。· 回报是该剧集竣事前获得的所有折扣奖励的总和。· 值是许多情节的平均收益(也称为预期收益)。将奖励视为即时的愉悦,将价值视为持久的幸福。
凭直觉,人们可以认为价值如下。署理人像人一样,从履历中学习。
当它与情况交互并完成情节时,它将获得每个情节的退货。随着它积累更多的履历(即获得越来越多的情节的回报),它可以相识哪些状态以及这些状态中的哪些行动发生的回报最大。它将"履历"存储为"价值"。
为什么价值取决于我们遵循的政策?显然,我们获得的回报(以及回报和价值)取决于我们从给定状态接纳的行动。而且由于操作取决于所选择的计谋,因此值取决于计谋。例如。
如果我们的政策是选择完全随机的行动(即从匀称漫衍中抽取样本行动),那么状态的价值(预期回报)可能会很是低,因为我们绝对不会选择最佳行动。例如。相反,如果我们的政策是从抽样时会发生最大回报的概率漫衍中选择行动,那么一个州的价值(预期回报)会更高。
使用价值功效比力政策现在我们相识了价值,让我们回到前面的比力两个政策比力的讨论中,看哪个更好。我们如何评估"更好"的寄义?给定两个计谋,我们可以通过遵循该计谋并评估退货来为每个计谋确定相应的State-Value或State-Action Value函数。> (Image by Author)一旦有了各自的价值功效,就可以使用这些价值功效来比力政策。
价值函数较高的计谋会更好,因为这意味着它将发生更高的回报。"最佳"政策称为"最佳政策"由于我们现在可以比力计谋以找出哪些计谋是"好"计谋,哪些计谋是"坏"计谋,因此我们也可以使用该计谋找到"最佳"计谋。
这称为最佳计谋。最佳计谋是比所有其他计谋都能为署理带来更多回报的计谋。> The Optimal Policy is the one that is better than all other policies (Image by Author)通过找到最佳计谋来解决RL问题因此,现在我们有相识决RL问题的方法。我们将问题结构为MDP,然后可以通过构建署理来解决此问题。
MDP的大脑,可以决议要接纳的行动。它应该以最大化回报的方式来做到这一点。换句话说,我们需要找到署理的最佳计谋。一旦有了最佳计谋,它就简朴地使用该计谋从任何状态中选择行动。
我们将应用强化学习算法来构建署理模型,并对其举行训练以找到最佳计谋。找到最佳计谋从基础上解决了RL问题。> (Image by Author)在本系列的下一篇文章中,我们将研究这些RL算法使用的解决方案方法。
(本文由闻数起舞翻译自Chris Lovejoy的文章《Reinforcement Learning Made Simple (Part 1): Intro to Basic Concepts and Terminology》,转载请注明出处,原文链接:https://towardsdatascience.com/reinforcement-learning-made-simple-part-1-intro-to-basic-concepts-and-terminology-1d2a87aa060)。
本文关键词:图解,强化,学习,第,1部门,基本观点,和,开云体育APP下载,术语
本文来源:开云体育APP下载-www.hnsumei.com