“天才新星”姜文浩:AI大模型的新机遇
  • 发布时间:2023-09-16
  • 作者:光明实验室
  • 浏览:2332次
光明实验室首位“天才新星”姜文浩




梦开始的地方

姜文浩本科毕业于山东大学计算机科学与技术专业,硕士研究生就读于哈尔滨工业大学大学深圳研究生院,博士期间在香港理工大学开展迁移学习的研究;2014年,赴得克萨斯大学阿灵顿分校跟随黄恒教授从事博士后研究,探索机器学习及其应用。


回国后,姜文浩于2016年加入知名头部互联网企业AI Lab,从事 Vision & Language、多模态方面的研究;并于2021年加入该知名头部互联网企业数据部门,主要负责包括广告文案生成、广告理解等在内的广告相关业务,实现了科研与业务的融洽结合。


图1-来自ECCV2018 Recurrent Fusion Network for Image Captioning,一个融合多种特征的图像描述生成模型。



回想起来,姜文浩从博士期间就开始关注机器学习理论如何应用,那时候主要还是基于统计的机器学习。博士期间除了自己的研究课题之外,他时常关注机器学习在业界应用和落地,尤其是机器学习在搜索、广告、推荐方面的应用,并以此为契机探索机器学习在工业界应用的进展,了解其他领域的知识。通过不断探索新领域以及学习新知识,姜文浩在机器学习的相关领域总是能够同步最新消息和进展。


2010年,加州大学伯克利分校 AMPLab 主导的快速、通用、可扩展的大数据分析引擎Spark开源,使得在大数据规模上训练机器学习模型更快、更方便,进一步推动了机器学习在企业的应用。2012年基于神经网络的模型以巨大优势取得ImageNet比赛冠军,展示了数据驱动的端到端模型的威力。也是从这一年开始,在应用领域,基于统计的机器学习慢慢被基于深度神经网络的模型取代。姜文浩密切关注业界工具(生态)以及科研领域新的进展,但具体如何将自己所学以及所关注的内容运用于工业界,姜文浩准备用自己的实际经验去探索。也正是如此,姜文浩回国后首先考虑头部企业的研究机构,希望可以针对公司真实需求从事研究工作。


AI大模型的力量

姜文浩在知名头部互联网企业的8年说长不长,说短不短。前5年围绕CV和NLP交叉方向开展研究,后3年则更为关注技术的实际应用。但不变的是姜文浩始终关注如何把模型做大的问题。 姜文浩提到:“科研基本上是探索和实验,是不断地和最新、最好方法PK的过程。”这一理念也贯彻他开展AI大模型研究和技术开发工作。


图2-姜文浩参加ECCV会议



提起从科研部门到业务部门的转变,姜文浩用一个简单的比喻为我们解答了:在科研部门主要是针对长远问题研究,并且多方寻找落地,比较长远、节奏相对慢一点,侧重技术深度,是一个研究好用的锤子然后去找钉子的过程;而在业务部门主要是针对业务指标优化,节奏快,需要为业务问题寻求快速、灵活的解决方案,是一个有了钉子要去寻找合适锤子的过程。


早在2012年,开创性神经网络AlexNet以比亚军低了10.8%的错误率一举夺得ImageNet竞赛冠军,开启了AI-1.0(主要是深度学习)的序幕,标志着深度学习开始改变整个AI领域。也正是从那时候开始,姜文浩就对深度学习、大型网络的分布式优化算法有非常高的研究兴趣。后续,随着针对深度神经网络训练的基础设施TensorFlow、PyTorch、Caffe等的出现,神经网络迅速发展,模型和进入模型的数据都在增大。2020年,DeepSpeed的出现为大模型开发提供了基础设施保障,DeepSpeed提供了分布式训练简单的接口,使得多机多卡训练更加轻松。在这之后,姜文浩开始推动项目成员使用DeepSpeed并在相关理解类任务上持续推动增大模型规模,进一步提升业务指标。也正是从这之后,姜文浩与生成式大模型有了较为密切的交集,负责大模型核心产品的技术方面工作。


“AI 2.0是绝对不能错过的一次革命”,正如李开复在创新工场“AI 1.0 到AI 2.0的新机遇”的趋势分享会上所言,当前基于GPT的大模型是AGI的开始,无论是技术上还是生态上未来都需要长期的发展。姜文浩希望在提升GPT的插件能力、推理能力、规划能力等方面运用技术切实解决,但这并不是单个人的力量所能做到的。姜文浩强调要做出有影响力的成果,需要依靠团队的力量,否则光凭借单人力量,无法形成合力,所带来的影响力将大打折扣。而要让团队所有人员形成合力,就必须有非常明确的技术努力方向。基于OpenAI和DeepMind的探索,当前AI方面的方向越来越清楚,这也是姜文浩致力于带领团队开展生成式大模型开发的原因。


重新开始的挑战

离开工业界,选择来到光明实验室,姜文浩主要看重实验室自由的科研环境。与头部互联网企业内部出现的阻力不同,光明实验室作为一家新型科研机构,贯彻“科技引领、开放合作、统筹协同、辐射带动”的原则,立足于实际产业需求,支持各位研发人员开展针对应用的科研工作。在这里,可以从事前沿的AI大模型全链路研究,进行更加深入系统的思考,并通过实际应用检验生成式大模型开发的问题与改进措施,让生成式大模型的输出成果更加符合实际场景需求。


图3-姜文浩在实验室开展组会



“大模型开启了AGI时代,但是当前仅仅是个开始。”


未来,姜文浩将带领其在实验室的团队成员围绕“如何更低成本训练更大的模型”、“如何降低服务成本”、“如何提升大模型的推理能力和规划能力”,“如何针对长远AGI设计更好的自监督学习方式”、“如何利用LLM帮助机器人更快更好适应更多环境和任务”等方面进行深入研究,聚焦于瞄准当前和未来的应用场景优化大模型,立足发展技术,探索更多产业应用。


图/文 丨 姜文浩 许颖佳

编 辑 丨李沛昱