孙勇：Combining Spatial Optimization and Multi-Agent Temporal Difference Learning for Task Assignment in Uncertain Crowdsourcing

作者：发布时间：2021-06-28浏览次数：439

空间群智协同计算聚焦于求解以人为中心的泛在地理信息计算问题，通过整合地理分布全球的自发人类智慧资源，处理计算机难以自动化处理的大规模城市协作任务。时空序列任务匹配决策问题是空间群智协同计算的基础研究之一。现有的时空匹配研究认为匹配过程是静态可知的。然而，在实际的空间信息智能感知平台中，在线请求任务和自发参与者总是动态出现的。而且，由于空间任务和自发参与者的地理位置总在不断的移动变化，以及自发参与者的非专业特点，空间群智感知平台的解决方案可能存在着噪音、错误、不一致性、歧义等问题，引起了极大的不确定性。

课题组针对时空序列任务匹配的不确定问题，将周期内时空任务分配动作序列形式化为马尔科夫过程决策过程模型，以刻画时空匹配过程的不确定性，通过深入探索时空序列二分图匹配的演化过程及其演化机理；通过建立基于强化学习的时空二分图匹配效用函数在线估算机制，学习马尔科夫决策过程最优策略，进而获取时空二分图匹配效用函数值。

同时，为解决大规模任务状态空间的时空匹配效用函数在线学习效率问题。课题组提出了一种新型的基于多智能体的协同学习模型，引入了分级空间格网索引数据结构，对时空匹配的学习区域样本数据划分方法，将复杂时空序列匹配任务数据的进行有效划分，进而优化了协同学习与并行采集样本数据的效率。多智能体协同学习模型通过多个计算单元的探索复杂不确定时空序列任务匹配环境，采用并行采样方法，快速收集统计不确定动态信息；充分地探索一段时间后才切换到利用阶段，有效地改进和平衡了并行计算单元中强化学习算法的不确定探索和利用问题。

上述工作得到了安徽省自然科学基金（1908085MF191）和国家基金科学基金（61272036）项目的资助。

论文链接：https://link.springer.com/article/10.1007/s10796-019-09938-6

通讯员：；初审：；终审人：蔡永晨