许骏:云深不知处—我们团队的云计算研究与工程实践

团队的云计算研究,坚持以基础研究引领工程实践、以工程实践倒逼基础研究,科研成果不止于出版专著和发表论文,还努力将科研成果转化为实际应用、产生效益。

许骏:云深不知处—我们团队的云计算研究与工程实践

作者简介:许 骏,理学博士,计算机科学与技术教授,享受国务院特殊津贴专家,全国优秀教师,获广东省“南粤杰出教师”奖。 长期从事计算机系统与网络技术研究,具有在大型企业(集团)负责技术研发以及在“双一流”高校领导国家重点学科建设的跨界工作经历,曾任广州电子集团公司总工程师、华南师范大学教育信息技术学院院长。现任华南师范大学二级教授、博士生导师、广东高校计算机网络工程技术研究中心主任,兼任中国人工智能学会智能信息网络专委会副主任、广东省计算机学会常务理事、广州市电子行业协会副会长。上世纪八十年代至九十年代,带领团队在计算机控制系统与工业机器人技术研究取得多项重大成果并实现产业化,《气流纺纱计算机控制系统》《工业(喷涂)机器人控制技术及系统》和《超高亮度LED平板显示技术及产业化工程》是这一时期的代表性成果; 2000年至今,带领团队主要从事计算机网络与分布式系统研究,在移动自组织网络及车载自组网系统取得重要进展,主持研发国家远程教育网格计算示范工程,被评价为“我国网格计算应用研究取得的重大进展”;近年来,带领团队主要从事云计算、大数据与人工智能技术研究,在网络计算若干关键技术及云操作系统等基础软件自主创新取得重要成果,担任广东省教育厅专家组组长兼首席专家,组织领导了“粤教云”工程;担任首席科学家,主持了深圳教育大数据应用技术工程实验室建设。合著出版《从网格计算到云计算》等学术专著6部,主编出版《计算机系统原理与应用》等高校教材6部。

近十多年来,我带领团队专注于云计算相关的研究,这一工作开始于2007年,这一年也是国内云计算的元年,那时云计算刚刚兴起。如今云计算已是人尽皆知,但发展初期一直伴随着各种挑战和质疑,当初人们并不看好云计算,这从2010年深圳IT领袖峰会上,马化腾、李彦宏和马云的对话可见一斑。我们关注云计算,并非赶时髦追热点,而是顺势而为,因为有比较扎实的工作基础和研究积累。2002至2005年,在清华大学计算机科学与技术系,我带领团队承担了国家自然科学基金重大研究计划项目,在网格计算支撑环境与中间件技术研究取得重要成果,相关工作被评价为“我国网格计算应用研究的重大进展”。2006年,我们团队引进到华南师范大学工作,《对等科研协作网络研究》当年获国家自然科学基金资助,提出融合对等计算、自组织网络和网格计算的新型网络计算模式,清华的研究工作在新单位得到延续和发展,机缘巧合下,我们开始涉足云计算这一领域,实现了从网格计算到云计算的研究重心迁移,成为国内最早一批从事云计算研究的团队之一。2009年,我和柳泉波博士合著的《面向服务的网格计算:新型分布式计算体系与中间件》在科学出版社出版,其中就有专门章节讨论云计算。

作为布局云计算研究的一项重要举措,2009年,我牵头组建广东高校计算机网络工程技术研究中心,选择云计算作为主要研究方向,获广东省教育厅立项建设,并得到广东省高等学校科技创新平台项目的资助。工程中心成立之初,我带领团队论证云计算方面的重大科研项目,当时,国内云计算产业“空中楼阁”现象非常突出,应用落地已成为当务之急,我向广东省教育厅提出建议:“十二五”期间,广东在国内率先建设教育云公共服务体系,取名“粤教云”工程。这个建议被采纳并写进了《广东教育信息化发展“十二五”规划(2010-2015年)》。2012年5月,我牵头的项目《云计算若干关键技术及产业化与“粤教云”工程》获广东省重大科技专项支持。2012年7月,广东省人民政府发布《关于加快推进我省云计算发展的意见》,将电子政务云、粤教云等列为重点示范应用项目。

2012年前后,以容器、微服务和DevOps为代表,云计算发展进入云原生阶段,加速了应用与基础设施之间的解耦,推动了以应用为中心的多云/混合云架构的到来,云计算的本质发生了根本改变,从服务化资源交付向云原生价值赋能升华。我们团队抓住这一发展机遇,聚焦云操作系统等新型基础软件研发及产业化,是国内最早从事容器云及云原生计算研究的团队之一。

我们的云计算研究,传承了高校重视基础研究的基因,围绕大规模分布式计算系统的重大科学问题——灵活高效、安全可靠的资源管理和应用管理,我们提出大规模分布式节点失效检测方法、共享状态容器调度算法和有状态容器服务迁移方法,突破跨地域大规模集群管理、高效并行应用编排、有状态应用在线迁移和零信任认证与授权等共性关键技术,取得《支持混合异构运行时的云边资源管理调度方法及系统》等近10项发明专利。相关工作得到国家自然科学基金、广东省重大科技专项和应用型科技研发重大项目的支持。

我们团队的云计算研究,比较自豪的方面,就是坚持以基础研究引领工程实践、以工程实践倒逼基础研究,让科研成果不止于出版专著和发表论文,也就是“上书架”,还要“上货架”,将科研成果转化为实际应用、产生效益。基于基础理论和共性关键技术研究取得的突破,我们与产业界合作,研发了云操作系统等基础软件,牵头组织实施了广东省“粤教云”工程[1]和深圳教育大数据工程[2]。我们之所以看重这些,理由很简单,技术创新的真正价值在于落地应用。

2022年10月,我牵头的广东省重大科技专项计划项目《容器云关键技术及产品研发与示范应用》通过省科技厅组织的验收,我担任首席科学家主持建设的深圳教育大数据应用技术工程实验室,也通过了深圳市发展和改革委员会组织的验收,这标志着我们团队云计算研究第一阶段圆满收官。现在回过头看,当初选择云计算作为主要研究方向,并重点发力云操作系统等基础软件研发,这是完全正确的。发展数字经济已成为国家战略,以云操作系统为基石的新兴平台软件,关系到构建自主可控的数字经济生态,《国家“十四五”规划和2035年远景目标纲要》将云计算列为数字经济重点产业之一,提出加快云操作系统迭代升级,布局下一代云计算软件体系,以混合云为重点培育行业解决方案等云服务产业。

我们团队从涉足云计算的第一天起,就明确提出云计算、大数据和AI三位一体协同发展的技术路线,并坚定不移地执行至今,这为我们近年来从事大模型的相关研究打下了坚实的基础。

以大模型为代表的生成式人工智能已成为全球科技创新的前沿领域。云计算特别是云原生理念和技术,在大模型发展进程中发挥了关键作用,大模型的成功,彰显了云计算对推动人工智能跨越式发展的重大价值。当然,人工智能的发展也对云计算提出了新的挑战,为了更好地满足大模型训练和推理服务的需求,亟须以智能化为内核重塑云计算系统,推动云计算平台从服务传统计算任务向服务智能计算转变,从2023年起,我们团队聚焦与此相关的研究,在基础软件与大模型融合创新方面取得重要进展。

数据是大模型训练的基础要素,也是制约大模型能力提升的核心瓶颈,数据的型态、质量与规模直接决定智能系统的能力边界。超越自然语言的局限、发展“自然语言+形式化语言”的数据生态,并以数据创新引领算法创新,是破解大模型推理能力提升技术瓶颈的有效途径之一。在教育行业,不论是国家课程数字教材,还是教育考试测评场景的问题-解答类数据,都属于“自然语言+形式化语言”的混合数据,可望为大模型创新发展提供高质量的数据支撑。因此,我们主张既要重视人工智能技术如何赋能教育的问题,更要思考教育能够为人工智能技术进步带来什么,即教育数字化能否主动牵引而不只是被动跟随人工智能技术变革?我们团队此前在“粤教云”工程、深圳教育大数据工程和国家课程数字教材工程的成功实践,为大模型数据创新打下了扎实的基础。从2023年初开始,我的同事柳泉波博士和博士研究生陈浩牵头组织实施《大模型数据创新工程及关键基础软件与行业示范应用》重大项目,得到张景中院士等著名专家学者的关心和支持,以及行业领军企业的积极参与和紧密合作,取得的阶段性成果令人鼓舞。

[1]“粤教云”是《广东省云计算发展规划(2014-2020年)》社会服务领域重点项目;《广东省“互联网+”行动计划(2015-2020年)》提出加快“粤教云”公共服务平台建设;《广东省“数字政府”建设总体规划(2018-2020年)》提出持续完善“粤教云”公共服务平台建设,推进教育数据资源整合。从2013年起,许骏教授担任广东省教育厅“粤教云”工程专家组组长,2015年,许骏教授又被省教育厅聘为“粤教云”工程首席专家,牵头负责“粤教云”总体设计、技术架构、标准体系及实施方案研究,为省教育厅提供决策咨询。许骏教授团队在网络计算关键技术及云操作系统等基础软件自主创新取得的系列成果,为“粤教云”工程奠定了坚实的技术基础,有效支撑了“粤教云”公共服务体系建设,推动了“云-边-端”协同计算架构的新型基础设施建设和“大平台、泛终端、富生态”应用新格局的形成,《广东教育发展“十三五”规划(2016-2020)》提出以“粤教云”为总抓手,加强全省教育信息化统筹规划和顶层设计。2018年8月,许骏教授团队完成的成果《云计算关键技术及新型云应用引擎与“粤教云”工程》在广州通过中国人工智能学会主持的科技成果鉴定,总体达到国际先进、国内领先水平;2019年,《从网格计算到云计算:“粤教云”工程起源与发展》(许骏/柳泉波著)在科学出版社出版。

[2]深圳教育大数据应用技术工程实验室,2018年1月获深圳市发展和改革委员会批准立项建设,并入选深圳市战略性新兴产业(互联网产业类)重点扶持计划,2022年5月通过深圳市发展和改革委员会组织的验收。许骏教授担任深圳教育大数据应用技术工程实验室的首席科学家,主持了工程实验室建设,亲历并见证了工程实验室从申请立项到工程竣工验收的整个过程,许骏教授团队在云计算、大数据与人工智能等相关领域取得的成果,为深圳教育大数据应用技术工程实验室建设提供了关键技术和核心基础软件支撑。