光明实验室学术沙龙成功举行丨大数据计算新范式--非MapReduce计算框架
  • 发布时间:2022-11-11
  • 作者:光明实验室
  • 浏览:1893次


为拓展实验室各团队的学术视野,促进团队间学术交流,2022年11月9日下午3点,人工智能与数字经济广东省实验室(深圳)(以下简称光明实验室)在科润大厦11楼大会议室举办了第5期学术沙龙。本次学术沙龙主题为“大数据计算新范式--非MapReduce计算框架”,汇报人由深圳大学特聘教授、大数据技术与应用研究所所长、大数据系统计算技术国家工程实验室副主任黄哲学教授担任,对Non-MapReduce的计算范式进行深入研讨。学术沙龙由光明实验室何玉林老师主持,实验室各团队老师均踊跃参与。


为方便更多学术爱好者参与,本次学术沙龙继续沿用线上线下相结合的理念形式,通过腾讯会议平台进行了全程直播,实验室及各高校师生线上线下积极参会交流,收获热烈反响。



讲座期间,黄哲学教授从大数据概念、如何破解大数据的“大”带来的计算挑战、大数据多样本分析方法、RSP大数据分析平台等相关方面对大数据智能计算进行了深入的剖析。黄教授表示,大数据智能计算是指用智能算法分析大数据的计算过程。当前,大数据分布式计算绕不过MapReduce计算框架。由于其简单、易用和广泛流行,MapReduce已经成为了大数据分布式计算的代名词。但是,采用高迭代复杂智能算法对超大规模大数据做分布式计算的任务时,MapReduce分布式计算系统也面临着不小的挑战,如:并行算法通信成本高,迭代算法运行效率低;数据大了,内存放不下时无法做内存计算;数据扩展性差,难以跨数据协同计算;占用资源多,时间长,耗电等。


为突破这一瓶颈,黄教授团队研究了一种新的Non-MapReduce 计算框架。Non-MapReduce的logo计算范式可分为local operation 和global operation两个步骤,称之为logo计算框架。Local operation首先从存储入手,改变大数据分布式存储方式,将大数据存储成随机样本块,将大数据集表示成一组与大数据整体保持概率分布一致性的规模较小的随机样本数据集(称作RSP数据块)分布式地存储在集群的节点上,每个随机样本集在局部操作步骤独立计算,产生独立的运算结果。Global operation对局部分布式并行计算生成的大量随机样本估计值做集成,得到大数据计算的近似结果。



讲座结束后,黄哲学教授与参会人员进行了问答互动,共同就大数据分析的应用等方面进行了探讨交流,并及时给出了宝贵建议。整场学术沙龙气氛热烈,与会师生通过此次学术沙龙对大数据的不同计算范式有了深刻的认识和见解,促进了思想碰撞,启发了学术思路。



光明实验室自成立以来,定期邀请顶尖科学家前来开展学术沙龙活动,分享各领域优秀科研成果及创新型技术。实验室执行主任于非院士期望通过交流科研进展,能够做到夯实技术基础,拓宽技术能力,使得光明实验室从起步阶段就处于技术领域前沿的站位高度。


实验室简介


人工智能与数字经济广东省实验室(深圳)(以下简称光明实验室)为省政府批准筹建的第三批广东省实验室之一,经市政府批准已设立为事业单位。实验室面向人工智能与数字经济的重大战略需求,由广东省政府统筹规划及顶层设计,深圳市政府主导建设、运营与管理,深圳大学作为牵头建设单位。实验室致力于打造人工智能与数字经济全链条创新平台、数字经济区域开放产学研合作平台、创新人才聚集和培养的基地以及核心技术成果转化和孵化平台。在此建设目标下,实验室遵循“创新、责任、进取、合作”的核心价值观,主要围绕区块链与金融科技、智能传感与精准医疗、机器学习与智能系统、泛在感知与智慧城市四个方向展开研究。


文丨李沛昱


图丨李沛昱