光明实验室于非院士团队及合作者:分布式智能共享
  • 发布时间:2022-08-24
  • 作者:光明实验室
  • 浏览:1933次

近日,光明实验室于非院士团队同紫金山实验室未来网络研究中心和北京邮电大学未来网络理论与应用实验室合作,在IEEE Transactions on Mobile Computing上发表一篇题为“Collective Deep Reinforcement Learning for Intelligence Sharing in the Internet of Intelligence-Empowered Edge Computing”的文章,针对边缘智能中由于大规模的重复性模型训练及有限数据样本导致的训练效率和服务质量低下问题,在边缘网络中引入“互联智能(Internet of Intelligence)”创新理念,并基于集体深度强化学习(Collective Deep Reinforcement Learning,CDRL)设计了分布式智能共享方案,使分布式边缘计算节点通过共享学习到的智能从而快速且经济地提高学习性能。


边缘智能作为一项新兴技术,正受到国内外学者的广泛关注,其将人工智能学习从云计算中心下沉到网络边缘,有望促进了人工智能技术在各行业的部署,加速产业智能化进程。然而,边缘智能的广泛部署也带来了新的挑战。在边缘网络中,用户不可避免地会产生类似的机器学习任务,这可能需要相同类型的数据,甚至期望相同的训练结果。大量重复的模型训练导致网络中存在大量冗余计算,严重浪费了有限的边缘资源。此外,数据样本的不足也会导致模型的过拟合。因此,无效和无意义的模型训练盛行,导致训练效率和服务质量低下。


针对这些问题,在“互联智能”的驱动下,课题组提出了一种分布式边缘智能共享方案,该方案允许分布式边缘节点通过共享其学习到的智能来快速、经济地提高学习性能。


在典型的机器学习设置中,对于具有多维输入特征xₙ的数据样本{xₙ,yₙ},目标是找到模型参数向量ω并使用损失函数fₙ(ω)来表征和标记输出yₙ。因此,本研究中使用训练模型的模型参数向量ω作为一种可以传递和共享的智能。边缘计算节点利用其传感器收集数据样本,并使用这些数据样本进行模型训练。本研究中使用模型的精度来衡量经过训练的智能模型的性能,其与训练所用数据、训练迭代水平、计算节点的计算能力、训练所用算法等密切相关。此外,考虑到分布式异构的边缘计算节点可能由于传感器故障、计算机病毒感染甚至自私的目的而共享虚假智能,以及它们还可能相互提供不相关的智能。为了防止这种情况,在本研究中采用主观逻辑模型来根据交互历史制定个体声誉评估。为了获得更准确的声誉,每个边缘计算节点将其本地声誉意见与同网络中其他边缘计算节点推荐的声誉意见相结合,生成综合声誉值。


分布式智能共享被制定为多智能体马尔可夫决策过程。然后,设计了一种新颖的CDRL算法来获得最优的智能共享策略,该策略由每个边缘节点的本地软行为者-评论者(Soft Actor-Critic,SAC)学习和不同边缘节点之间的集体学习组成。每个边缘节点的本地SAC学习过程如图1所示。每个边缘计算节点作为一个决策者,决定如何通过智能共享来训练智能模型,从而最大化训练的智能模型效用,其被定义为智能模型的性能、智能共享/请求的收益/代价以及智能训练/传输的能耗之间的加权。系统状态包括收集数据的数量、收集数据的质量、边缘计算节点的计算能力、边缘网络的通信条件以及边缘计算节点之间的声誉。智能共享决策包括训练迭代水平、智能请求决策和频谱资源分配。


图1. 基于SAC的边缘本地智能共享学习过程



通过本地SAC学习算法,每个边缘计算节点可以通过不断地迭代找到最优的智能共享策略,从而在未知环境中通过自身的经验发挥最大效用。本地SAC学习包括探索和利用两部分,因此边缘计算节点需要具有本地智能共享环境的海量预定义数据集。为了利用有限的数据集实现更高质量的探索,将“集体智能”的思想与提出的基于SAC的本地深度强化学习(Deep Reinforcement Learning,DRL)算法相结合,本研究使用一种新的学习概念,即CDRL,工作在不同的边缘计算节点之间工作,并通过执行实际模型与理想模型的KL散度来调整DRL算法的效用函数。即使探索创造了采取“竞争”行动的机会,边缘计算节点也很难适应具有有限预定义训练元组的新环境。因此,CDRL引入了扩展的概念,使边缘计算节点能够主动与其他边缘计算节点合作进行智能共享决策。图2是基于CDRL的智能共享方案的数值实验结果。


图2. 基于CDRL的智能共享方案的数值实验结果



本研究创新性地将“互联智能”引入到边缘网络中,并设计了一种高效的智能共享方案,从而在保障智能模型服务质量的同时有效地提升了智能训练效率和边缘资源的利用率。北京邮电大学博士后唐琴琴是本文的第一作者,北京邮电大学、紫金山实验室未来网络研究中心谢人超教授是本文的通讯作者。该工作得到了国家自然科学基金委、北京市自然科学基金委、人工智能与数字经济广东省实验室(深圳)以及中国博士后科学基金会的资助。

参考文献

[1] B. Yang, X. Cao, K. Xiong, C. Yuen, Y. L. Guan, S. Leng, L. Qian, and Z. Han, “Edge intelligence for autonomous driving in 6G wireless system: Design challenges and solutions,” IEEE Wireless Communications, vol. 28, no. 2, pp. 40–47, 2021.


[2] X. Li, L. Cheng, C. Sun, K.-Y. Lam, X. Wang, and F. Li, “Federated learning-empowered collaborative data sharing for vehicular edge networks,” IEEE Network, vol. 35, no. 3, pp. 116–124, 2021.


[3] Q. Tang, F. R. Yu, R. Xie, A. Boukerche, T. Huang, and Y. Liu, “Internet of intelligence: A survey on the enabling technologies, applications, and challenges,” IEEE Communications Surveys & Tutorials, pp. 1–1, 2022.


原文:


Qinqin Tang, Renchao Xie, Fei Richard Yu, Tianjiao Chen, Ran Zhang, Tao Huang, and Yunjie Liu. Collective Deep Reinforcement Learning for Intelligence Sharing in the Internet of Intelligence-Empowered Edge Computing [J]. IEEE Transactions on Mobile Computing, 2022.

扫码关注我们


人工智能与数字经济广东省实验室(深圳)

官方网站:http://ailab.szu.edu.cn

招聘联系:hr_office@gml.ac.cn