我的问题如下:
在每个状态下,智能体需要调整发电厂锅炉的水流量和风扇速度,以获得双重状态的反馈:当前温度和排放量。
如果我的智能体有一组动作和一组状态,这是否意味着我应该将Q-learning问题分成两个部分,其中一个智能体拥有水流/温度环境的Q和R矩阵,另一个智能体拥有风扇速度/排放量环境的Q和R矩阵?还是有办法为最初描述的智能体表示一个R和Q矩阵?
回答:
状态和动作是多维的,这是正常的。你需要让你的智能体学习水流量和风扇速度的所有组合在当前温度和排放量的所有组合下的值。如果这使得表格变得难以处理,那么你将需要进行近似,这本身就是一个完整的领域。