COMP9417项目-交通灯控制器
为了使用该程序,第462行的compressions_style可以是“ default”,“ greedy”或“ average”,以生成不同的状态表示形式以进行Q学习。 线路463上的“方案”可以是“默认”或“ max_stopped”,以更改奖励状态的方式。 在线464上的学习可以是“默认”或“固定”的,以在允许程序决定何时切换灯与以每10个时间步长一次的固定速率切换灯之间进行切换。 可以在第21-23行中更改Q学习参数gamma,alpha和epsil