研究一类多品种工件到达的传送带给料加工站系统(CSPS)的前视距离(Look-ahead)优化控制问题,以提高系统的工作效率.在工件品种数增加的情况下,系统状态规模会呈现指数性增长,考虑传统$ Q $学习在面对大规模离散状态空间所面临的维数灾难,且难以直接处理前视距离为连续化变量的问题,引入了RBF网络来逼近$ Q $值函数,网络的输入为状态行动对,输出为该状态行动对的$ Q $值.给出RBF-$ Q $学习算法,并应用于多品种CSPS系统的优化控制中,实现了连续行动空间的$ Q $学习.针对不