我对强化学习是新手。所以这个问题可能看起来很简单
假设有3个状态 {x,y,z} 和2个动作 {a,b}
为什么总策略数/搜索空间是2^3 = 8呢?
考虑这些情况,
x - y - z (动作 a,b)x - z - y (动作 a,b)y - x - z (动作 a,b)y - z - x (动作 a,b)z - x - y (动作 a,b)z - y - x (动作 a,b)
这只会给我6个策略?然后考虑到动作 (b,a) 乘以2,会得到12个策略。
我是不是遗漏了什么?
回答:
假设一个确定性策略(这正是你的情况),策略决定了在每个状态下应执行的动作。在你的例子中,你有3个状态 (x,y,z)
和两个可能的动作 (a,b)
。那么,这些是你的可能策略:
+---+---+---+| x | y | z |+---+---+---+| a | a | a || a | a | b || a | b | a || a | b | b || b | a | a || b | a | b || b | b | a || b | b | b |+---+---+---+
我希望现在你更清楚为什么总策略数/搜索空间是2^3 = 8了。