光明实验室学术沙龙丨大数据计算新范式--非MapReduce计算框架
  • 发布时间:2022-11-06
  • 作者:光明实验室
  • 浏览:2148次


01


实验室简介


人工智能与数字经济广东省实验室(深圳)(以下简称光明实验室)为省政府批准筹建的第三批广东省实验室之一,经市政府批准已设立为事业单位。实验室面向人工智能与数字经济的重大战略需求,由广东省政府统筹规划及顶层设计,深圳市政府主导建设、运营与管理,深圳大学作为牵头建设单位。实验室致力于打造人工智能与数字经济全链条创新平台、数字经济区域开放产学研合作平台、创新人才聚集和培养的基地以及核心技术成果转化和孵化平台。在此建设目标下,实验室遵循“创新、责任、进取、合作”的核心价值观,主要围绕区块链与金融科技、智能传感与精准医疗、机器学习与智能系统、泛在感知与智慧城市四个方向展开研究。


02


讲座内容简介


当前,大数据分布式计算绕不过MapReduce计算框架。由于其简单、易用和广泛流行,MapReduce已经成为了大数据分布式计算的代名词。但是,面对用高度迭代的复杂智能算法对超大规模的大数据做分布式计算的任务,MapReduce分布式计算系统面临计算效率低、数据扩展性差和复杂算法无法用MapReduce编程模型实现的窘境。其核心瓶颈是重复的Reduce操作产生巨大的数据shuffle和通信开销。本报告介绍一种新的非MapReduce 计算框架来突破这一计算瓶颈。新的计算框架将分布式计算分成两个步骤:local operation 和global operation,称之为logo计算框架。


实现logo计算框架的核心技术是随机样本划分大数据表达模型,即RSP数据模型。该模型将大数据集表示成一组小的随机样本数据集(称作RSP数据块)做分布式存储,每个随机样本集在局部操作步骤独立计算,产生独立的估计值。全局操作将局部分布式并行计算生成的大量随机样本估计值做集成,得到大数据计算的近似结果。logo计算框架可以解决大数据计算的许多问题,包括:算法约束,内存约束,计算效率,计算成本等。同时可以实现多集群协同的分布式计算。


03


汇报人简介


黄哲学教授,深圳大学特聘教授、大数据技术与应用研究所所长、大数据系统计算技术国家工程实验室副主任,瑞典皇家理工大学博士,首批广东省领军人才,深圳孔雀计划高层次人才。




符号值和混合值数据快速聚类算法研究的开拓者,发表了k-modes等一系列著名聚类算法,被纳入国内外教科书和专著,进入软件产品。荣获亚太地区知识发现和数据挖掘国际会议首个最有影响论文奖。发表学术论文250多篇,主要论文被引用超万次,单篇独立作者论文最高引用超3000次,入选斯坦福大学2020年全球前2%顶尖科学家“终身科学影响力排行榜”。




近年来主要研究大数据并行与分布式计算技术,提出了随机样本划分(RSP)分布式大数据表达模型,创新性地融合了分布式计算、统计抽样和近似计算方法,有效地解决了超大数据计算的内存约束问题,研究成果荣获多个创新大赛奖,成功用于实际应用。


04


讲座信息


讲座时间:2022年11月9日 下午15:00-16:00


讲座地址:光明区科润大厦11楼 光明实验室 1106会议室


腾讯会议:285 473 272