动态规划
本文参考《挑战程序设计竞赛》,通过01背包问题,引出动态规划,争取把它的原理阐述清楚,话不多说,直接开始吧。
问题描述
Problem:
给定n种物品和一背包。物品i的重量是wi,其价值为vi,背包的容量为C。问应如何选择装入背包的物品,使得装
入背包中物品的总价值最大?
Example:
输入:
n = 5
(w,v) = {(77,92),(22,22),(29,87),(50,46),(99,90)}
C = 100
输出:
133
先说说一种最暴力的方法吧,对于每一件物品,我们可以选择(选or不选),那么n件物品就会有2n种选法,我们就从这2n中选法中,挑出符合背包容量c,但价值最大的那个组合就好了。代码如下:
public static int solve(int[] w, int[] v, int c){
return select(0, w, v, c);
}
//start 从第一件物品开始
private static int select(int start,int[] w, int[] v, int c){
int value = 0;
//终止条件,没有物品可选时,价值为0
if (start == w.length){
value = 0;
}
//如果当前物品的容量已经超过背包,则不用选择
else if (c < w[start]){
value = select(start+1, w, v, c);
}
//符合容量的情况下,有两种状态(选or不选),取其中最大
else{
value = Math.max(select(start + 1, w, v, c),select(start+1, w, v, c-w[start])+v[start]);
}
return value;
}
上述代码运用了递归的手段来进行破解,相比以前的递归式,有很多不一样的地方,如递归分了状态,如value = Math.max(select(start + 1, w, v, c),select(start+1, w, v, c-w[start])+v[start]);
,这种递归式对状态是有选择性的,也是真正时间复杂度为O(2n)的罪魁祸首,当前状态为了得到全局信息,需要递归遍历后续的所有状态才能进行决策,这种策略何等的落后。
曾困惑我的一点在于它的准确性,我始终不理解为什么递归最后能引向正确答案。这里简单解释下,因为递归的本质在于数学归纳,我们假设的始终是前一个状态的准确性,如果能找到状态间唯一的性质来构建当前状态,那么它就能随着状态的累加逐步得到正确解。这就好比多米诺骨牌,一个骨牌可以代表一个状态,而骨牌与骨牌之间的距离是状态变动的条件,假设骨牌1能被推倒,且能够击打到第2个骨牌,而状态变动条件始终不变(骨牌间的距离始终不变),那么就能从第1个骨牌推倒第n个骨牌。它是一种数学证明公理,所以形象理解数学归纳法即可。
就拿这个问题来说,我们是假设知道如何选择下一状态的物品,由下一状态来得到当前状态。所以理解代码准确性的关键点在于,假设我们拿到了下一状态的两个value(背包容量分别为c和c-w[now]),如果当前容量不够容下此物品,那么就直接返回value,而当前容量足够容下此物件,那么一定选择下一状态中较大的那个value。
关注这句话value = Math.max(select(start + 1, w, v, c),select(start+1, w, v, c-w[start])+v[start]);
,以后看到这样的递归形式一定要敏感,它是我们可以优化的重点考虑对象。刚才说了,每次都有两个状态的递归,那么一次递归2个分支,2个分支产生的递归有4个分支,而终止条件是start == w.length
,这表明递归的深度为n
,计算一下,它有2n种情况。而在这么多种情况下,难道就没有重复的吗!!!(感性的认识)
动态规划思想来源
重复子问题对我来说有点难以分析,这要看具体的问题场景,但在分析重复子问题相对复杂的情况下,我们不管三七二十一,可以在它的搜索路径上记录状态,而为了记录状态,我们需要【标识】出到达每一个状态!
重点来了,递归是无状态的,或者说对于计算机而言,它无法区分每个状态。那么如果我们能在递归过程中用某些唯一变量来标识递归状态,那么当遇到相同状态时,我们可以直接在函数顶返回!
所以,现在有了一个可行的优化手段,在上述代码中,找寻到变量能区分递归状态即可。
static int[][] dp = null;
public static int solve(int[] w, int[] v, int c){
dp = new int[w.length+1][c+1];
return select(0, w, v, c);
}
private static int select(int start,int[] w, int[] v, int c){
if (dp[start][c] > 0){
return dp[start][c];
}
int value = 0;
if (start == w.length){
value = 0;
}
else if (c < w[start]){
value = select(start+1, w, v, c);
}
else{
value = Math.max(select(start + 1, w, v, c),select(start+1, w, v, c-w[start])+v[start]);
}
return dp[start][c] = value;
}
很明显,如果单纯的只考虑状态数,算一算dp数组的大小就可以了,因为现在每个dp都表示一种状态,所以时间复杂度为O(nc)。这也就说明了另外一件事情,重复子问题的状态范围只能在0-n,0-c
,而如果范围没有约束,dp可能就无助于问题求解。
动态规划正解
刚才是从递归的角度,为了解决状态的记录来推得动态规划,建立dp数组是为了记录中间变量,也就是我们经常听到的一个概念,记忆化搜索。
但从上述问题的优化过程,它能给我们其它的思路,原本O(2n)的复杂度,降低到了O(nw),说明该问题在暴力搜索时,已经证明了状态的重复性。所以,我们可以从数学归纳法的角度反过来求解该问题,刚才的递推式如下:
dp[n][j]=0
dp[i][j]={dp[i+1][j],j<w[i]max(dp[i+1][j],dp[i+1][j−w[i]]+v[i])
关键问题就在于找状态转移和初始状态,所以有了这玩意,我们就可以直接写迭代代码了,正确性在前文已经阐述过了,当然你也可以自己脑海中过一遍,01背包问题还是容易理解的。我在初学时,总喜欢跟着代码想把状态转移搞清楚,这没有必要,我们应该从问题本身来理解状态转移递推式。一个技巧就是,假设第n-1阶段的所有状态你已经知道了,而此时你去考虑需要加些什么条件能够构建第n阶段的解,基本上如果你有思路了,问题也就被你解决了。
public static int dpSolve(int[] w, int[] v, int c){
int[][] dp = new int[w.length + 1][c + 1];
for (int j = 0; j <= c; j++){
dp[w.length][j] = 0;
}
for (int i = w.length-1; i>= 0; i--){
for (int j = 0; j <= c; j++){
if (w[i] > j){
dp[i][j] = dp[i+1][j];
}
else{
dp[i][j] = Math.max(dp[i+1][j], dp[i+1][j-w[i]] + v[i]);
}
}
}
return dp[0][c];
}
为了代码的可读性,我还是做了初始化操作,其实数组本身在new出来后为0,所以可以省略这部分代码。
这是反向选择,正向选择就不可以么?同样的,代码如下:
public static int dpSolve2(int[] w, int[] v, int c) {
int[][] dp = new int[w.length + 1][c + 1];
for (int i = 0; i < w.length; i++) {
for (int j = 0; j <= c; j++) {
if (w[i] > j) {
dp[i + 1][j] = dp[i][j];
} else {
dp[i + 1][j] = Math.max(dp[i][j], dp[i][j - w[i]] + v[i]);
}
}
}
return dp[w.length][c];
}
这里采用的思路和以上所有的解决方案是一样的,只是遍历方向性变了。背包中的物件拿取顺序不影响答案,容易理解。总结一下,从问题的初始态一步步求解的方法就叫动态规划。解决问题时既可以按照如上方法从记忆化搜索出发推导出递推式,也可以直接得出递推式。
另一种搜索思路
在看另一种搜索思路时,我们再来回顾下之前的递归解法,注意如下判断语句:
int value = 0;
if (start == w.length){
value = 0;
}
这有什么特别的么,终止条件value为0的,这就意味着当搜索到最底层时,在往上构建解的时候要对value值进行累加,所以起初value随着递归层数的增加没有变化,而在返回时,value的解开始发生变化了。如下:
value = Math.max(select(start + 1, w, v, c),select(start+1, w, v, c-w[start])+v[start]);
好了,我们直接看一种value在往下搜索过程中不断更新的情况。代码如下:
private static int select2(int start, int[] w, int[] v, int c, int sum){
int value = 0;
if (start == w.length){
value = sum;
}
else if (c < w[start]){
value = select2(start + 1, w, v, c, sum);
}
else{
value = Math.max(select2(start + 1, w, v, c, sum), select2(start + 1, w, v, c-w[start], sum + v[start]));
}
return value;
}
发现一个明显的区别了么,终止条件返回的是sum,而sum是在递归过程中不断更新的,当递归返回时,value选择较大的sum作为当前层的结果,直到第一层。
此时,如果你和第一种递归方式一样采取记忆化措施,会发现答案是错的。这是为什么?容易想象,当你一路记录sum值后,sum的变化跟路径相关,这就意味着,到达每个状态sum是唯一的,如果你此时对sum做记忆化,那么竞选的结果就和路径无关了,很显然与这种求解方法矛盾了。所以,如果对记忆化搜索不熟练的话,容易犯以上错误。
总结
简单总结一下我所理解的动态规划。就拿01背包问题来说,它的解法可以非常暴力,直接用递归,对每种情况进行遍历,但我们看到。我们代码并不像刚开始人为求解的思路一样,而是在选择和不选择之间做了一些判断。但它的时间复杂度却没有发生质的变化,为O(2n),但我们发现,这种递归结构会存在重复子问题,可以参考《挑战程序设计竞赛》P52页的递归调用图。
既然存在重复子问题,我们需要在递归时把这些状态给区分出来,所以我们有了dp数组,也就是第二种记忆化方案,而这才是我认为动态规划的雏形或者叫精髓,用唯一标识表示状态(唯一标识变量需要我们去寻找)。
既然有了递归,而递归本质上是数学归纳法的逆向过程,而且很大程度上记忆化搜索依赖递归的解法,如果对递归不熟悉容易出现记忆化搜索失灵,与其这样,我们不如由递归式写出递推式,建立初始态,和状态转移递推式,以迭代的方式一步步求解正确解,这种过程就叫动态规划。
最后推荐一则知乎关于动态规划的回答【什么是动态规划?动态规划的意义是什么?】,在这些回答中,关于动态规划的理解更加深刻与全面,待补足一些知识后,我再补充。
上述所有代码可以fork下Github上leetcode项目,不定期更新leetcode刷题进度。链接地址:https://github.com/demonSong/leetcode