我一直在尝试MIT DeepTraffic Challenge,同时也在观看讲座和阅读幻灯片。
在对架构有了大致了解后,我开始好奇环境提供的奖励函数到底是什么。
- 它是否与网格单元的输入(最大可行驶速度)相同?
- 他们是否使用了奖励裁剪,还是没有?
我还找到了这个javascript的代码库,但这并没有真正帮助我理解。
回答:
奖励是在区间[-3, 3]内的平均速度的缩放值。
deeptraffic环境的实现位于这个文件中:https://selfdrivingcars.mit.edu/deeptraffic/gameopt.js
我正在尝试使其更易读。这里是正在进行中的版本:https://github.com/mljack/deeptraffic/blob/master/gameopt.js
var reward = (avgSpeedMeasurement - 60) / 20;