王德才的方案中规中矩,使用的依然是传统的非线性规划方法,当他讲到一半的时候,工业互联网实验室负责人托马斯已经听得有些不耐烦了。
他划了划手中的平板电脑,看看下一个汇报人是谁。
哦,马上轮到这小子了。
下一个人正是尚斌。
托马斯十分信任自己的老友尼古拉,因此对尼古拉推荐的尚斌也很感兴趣,于是邀请了尚斌参加本次交流会。
他耐着性子听完王德才的汇报,迫不及待地想看看尚斌会拿出怎样的方案。
不一会儿,尚斌走进会议室,他打开汇报材料,首先介绍起智能机器人调度系统的研究现状:
“目前,主流的机器人调度系统采用的方法是,建立非线性规划模型,然后求解得到任务调度策略,并为每台机器人进行路径规划。”
“而在冲突解决方面,这些年来的流行方法依然是最为保守的滑动时间窗法。
“也就是说,当一台机器人进入某单行路段之后,接下来即将进入该路段的其他机器人必须原地等待,直到前面的机器人离开。”
“上述方法存在两个问题:”
“第一,非线性规划模型忽视了多台机器人之间的相互影响,因此,按照此模型得到的任务调度策略和路径对整个系统搬运效率的提升并不能到达预设的性能。”
“第二,滑动时间窗法虽然保证了机器人的安全,也易于实现,但终究太过保守。以目前的技术,完全可以考虑更加激进一些的冲突解决方案。”
台下的评审专家在不断点头,这些确实是系统开发过程中遇到的问题。
托马斯听到尚斌的分析之后安心了一些,这个小伙子肯定不会采用王德才那套过时的方法。
他摸了摸下巴上的胡子,眼中露出期许的目光。
尚斌右手一挥,全息投影台上展示出一幅使用栅格法建模的机器人作业环境电子地图。
他面带微笑地对台下专家说道:
“接下来,我将介绍自己的解决方案。”
“首先,我们把每一台机器人看作是智能体,使用随机博弈描述多机器人之间的交互,以此建模多机器人之间的相互影响,再使用多智能体强化学习方法对随机博弈进行求解。”
“任务调度和路径规划采用分别建模的方式,任务调度的状态定义为机器人位置和运行状态,而路径规划的状态定义为每台机器人的任务分配情况。”
“如此一来,任务调度策略优化和路径规划可以同时进行。”
“至于所采用的的算法,我们曾进行过较为广泛的调研,并有一定的研究基础。”
“为了缓解多智能体强化学习算法中的动作空间维数灾问题,我们使用了独立式学习和深度学习这两种方法。”
“为保证算法的收敛性和最优性,我们使用演化博弈对所提方法进行建模,然后使用李雅普诺夫直接法和间接法分析算法模型的渐近稳定性,使用迭代的方法设计出具有收敛性和最优性的算法。”
“其次,机器人的冲突解决方案,我们不再采用滑动时间窗方法,而是拟将现有机器人进行升级改造,通过加装传感器,并使用强化学习和滑模控制技术来完成更为精细的运动控制,从而提高路段的使用效率。”
“最后,在新的作业场景中部署系统时,针对强化学习泛化性能不佳的问题,我们提出使用迁移强化学习加以解决。”
“这样,当作业场景的布局发生变动后,可以利用之前收集到的数据和学习到的策略、价值函数来帮助在新作业场景中进行学习和优化,从而提高系统的启动效率。”
紧接着,尚斌对所提方案的可行性进行了详细的分析。