从具身智能再谈强化学习,为什么需要强化学习,以及强化学习的应用场景 原创
“ 学习的过程,是一个不断产生偏差和调整的过程 ”
学习的过程是一个学习——验证——再学习——再验证的过程。
在此之前也有写过关于强化学习的文章,但那时更多的是停留在概念描述和名称解释的阶段,简单来说就是知道有强化学习这个概念,但不知道它是用来解决什么问题,以及怎么来解决这些问题。之前的文章大模型的训练与调优,SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么?
学习一门新技能或技术的最好方式,就是从应用场景中学习,发现问题然后学习。
关于强化学习
大模型技术中有多种学习方式,比如监督学习,无监督学习,强化学习等;但对刚开始学习大模型技术的人来说,虽然网络上有各种各样的解释,但对我们来说终究只是一个概念,并不是自己亲自体验的东西。
因此,很多时候学习这些概念都处于懵懵懂懂的阶段,感觉自己好像懂了,又好像什么都没懂,特别是过了一段时间之后就忘记了,这就说明我们肯定没懂。
所以,接着学习具身智能这个概念的机会,又加深了自己对强化学习的理解和应用,虽然可能最终发现这个理解并不是准确的,但也算是自己学习过程的记录。
首先,我们还是从概念开始,什么是强化学习?
强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
上面是百度百科关于强化学习的定义,Ok看了这个定义是不是还是觉得一脸懵。
所以,现在我们从应用场景或者说从问题开始,来理解强化学习。
以我们人类自身来说,我们接触一个新事物或者新环境是怎么做的?
比如说某一天你突然见到一个之前没见过的事物,这时好奇心驱使你想了解一下它是什么。这时你有哪些办法?
首先,第一就是如果你身边有了解的人,那么最简单的办法就是问他,然后对这个事物有一个初步的了解,比如它会不会攻击人,能不能摸,能不能吃,会不会有毒等等,这个就叫做经验。
而在几千年之前的古人,他们那时候对世界了解甚少,很多东西都不知道,那他们是怎么做的?
首先,就是观察看看这玩意有什么外貌特征,是动物还是植物,慢慢靠近它会不会被攻击,然后会尝试用手碰它,到最后可能会试试能不能吃。
从上面这段你能看出什么?
上面这段就是一个典型的人与环境交互的场景,也是一个不断根据反馈调整交互方式的场景。比如说第一次见到一头牛,你不认识它然后观察它的时候,它也没什么反应;但如果你突然靠近它的时候,可能就会引起牛的敌意,甚至是攻击。
这时如果牛攻击你,那么你就会明白这玩意不能随便靠近;而如果它不攻击你,你就会逐渐尝试接近它。那如果是狮子老虎呢?又或者是鸡鸭鹅呢?
所以,根据不同的环境人类会做出不同的反应。
现在再来看强化学习的定义,描述和解决智能体在与环境交互中通过学习策略达到最优或实现特定目标。
因此,强化学习的应用场景是什么?或者说强化学习要解决的问题是什么?
智能体与环境交互,获得反馈,然后获得最优解或达到某个目的。
那又一个问题出现了,怎么才知道是不是最优解?
大家应该都听过一个麦穗理论,相传苏格拉底带着他的学生到一块麦田,让他们找到一个最大的麦穗,并且不能回头,只能摘一只。
麦穗理论最难的一点是什么,你不知道最大的麦穗是在前面还是在后面,也就是说你不知道那个麦穗才是最优解。
而强化学习是怎么做的呢 ?
还是那两个字——反馈。
强化学习的过程并不是苏格拉底要求的那种不可以走回头路,强化学习是可以走回头路的;它可以一次一次的尝试,然后找到其中最大的麦穗。
而在强化学习的应用实践中,强化学习会通过获得正反馈的方式来进行优化;比如,给你一个草莓,你吃了一口很甜,然后还想再吃一个,这个叫正反馈;而如果给你一碗中药,喝一口很苦以后都不想喝了,这个叫负反馈。
而强化学习就是通过不断加强某方面的正反馈,来让大模型在某个方面变得更加强大。
比如说在自动驾驶领域,可以让大模型采用强化学习的模式,通过不断的对路面环境进行感知,增强其在道路行驶中对复杂环境的判断能力。
再比如,在围棋领域谷歌开发的阿尔法狗就是利用强化学习的方式来提升棋艺,通过模拟与世界顶尖棋手的对弈,让阿尔法狗不断学习人类棋手的下棋方式和技艺,最终达到战胜人类棋手的目的。
而在强化学习中,这个过程被叫做奖励机制;比如说你考试考一百分,妈妈就给你买玩具,也是这个道理。
前面理解了强化学习的概念以及应用场景,那么到底怎么才能实现强化学习呢?就类似于,妈妈说你考一百分就给你买玩具,那么怎么才能考一百分呢?
这就要了解一下强化学习的实现方式了,强化学习的模型非常的简单,大脑就是智能体(大模型),地球就是外部环境,大脑通过与地球的交互获得不同的反馈。
强化学习的原则
强化学习基本按照两个原则进行分类:
- 基于策略和价值的分类
- 基于环境的分类
在这两种原则之下,还细分为多种方法:
基于策略和价值分类
- 基于价值的方法: 没有策略但有价值函数
- 基于策略的方法:有策略但没有价值函数
- 参与评价的方法:既有策略也有价值函数
基于环境分类
- 无模型的方法: 有策略和价值函数,没有模型
- 基于模型的方法: 有策略和价值函数,也有模型
总结
以上是个人对强化学习的一些理解和学习的过程记录,可能是对的,也可能是错的,或许随着对大模型技术的深入,某一天会发现现在对强化学习的理解还是台浅显了。
本文转载自公众号AI探索时代 作者:DFires