许骏:2005,我们在清华园的网格计算研究

从清华园的网格计算研究起步,我带领团队一直从事计算机网络与分布式系统研究,历经北京、广州两个时期,从网格计算到云计算、从大数据到大模型,一起走过20多年。

许骏:2005,我们在清华园的网格计算研究

作者简介:许 骏,理学博士,计算机科学与技术教授,享受国务院政府特殊津贴专家,全国优秀教师,获广东省“南粤杰出教师”奖。长期从事计算机系统与网络技术研究,具有在大型企业(集团)负责技术研发,以及在“双一流”高校领导国家重点学科建设的跨界工作经历,曾任广州电子集团公司总工程师、华南师范大学教育信息技术学院院长。现任华南师范大学二级教授、博士生导师、广东高校计算机网络工程技术研究中心主任,兼任中国人工智能学会智能信息网络专委会副主任、广东省计算机学会常务理事、广州市电子行业协会副会长。近年来带领团队主要从事云计算、大数据与人工智能技术研究,担任广东省教育厅专家组组长兼首席专家,组织领导了“粤教云”工程;担任首席科学家,主持了深圳教育大数据应用技术工程实验室建设。出版《移动自组织网络》等学术专著6部、《计算机系统原理与应用》等高校教材6部。


下周二(4月1日)上午,我要给2024级博士研究生讲一次课,周末这两天都在办公室加班,除了与项目团队讨论问题,更多时间是在准备下周二的讲课内容。在翻阅材料的过程中,不经意间,一个醒目的标题“我国网格技术教育应用取得重大进展”映入眼帘,这是发表在2005 年4 月1 日《中国教育报》第1版的一个新闻稿(记者余冠仕),我注视着这张略显发黄的旧报纸,看得很认真,当然也很感慨,勾起了一段往事的回忆,我的思绪一下子跨越了20年。

640.png

2002至2005年,我在清华大学计算机科学与技术系从事博士后研究,在合作导师史美林教授的支持下,带领团队承担了国家自然科学基金重大研究计划项目,在网格计算支撑环境及中间件技术研究取得重要成果,专著《网格计算与e-Learning Grid:体系结构•关键技术•示范应用》(许骏,史美林等著)和《协作社群形成与演化机制:理论与算法》(许骏,柳泉波等著)在科学出版社出版,团队核心成员还在《计算机学报》《清华大学学报》等发表论文近10篇。

科研创新不止于专著和论文,让科研成果既上书架又上货架,我们团队一直在努力。

经历过2003年那场突如其来的“非典”疫情,我开始关注计算机网络技术在教育行业的应用,面向全球最大的远程教育体系—中央广播电视大学系统的重大应用需求,带领团队研发了国家远程教育网格计算示范工程LAGrid,开创了大规模在线学习形成性评价的先河,通过评价反馈促进学习与发展,实现从考试文化 (Test Culture) 到评价文化(Assessment Culture)的迁移,成果应用创造了显著的社会经济效益。2004年12月23日,教育部科技司在清华大学主持召开该项科技成果鉴定会,总体达到国际先进水平,这是对我们团队的肯定,但更多的是鼓励与鞭策。会后,《中国教育报》记者余冠仕(现任中国教育报刊社副社长)以“我国网格技术教育应用取得重大进展”为题在《中国教育报》上报道了我们的工作(2005年4月1日第1版)。

网格计算(Grid Computing)与e-Learning的交叉融合形成了e-Learning Grid这一新的研究方向,我们团队完成的国家远程教育网格计算示范工程LAGrid,也算是e-Learning Grid研究领域的一项标志性成果。2005年初,《中国电化教育》杂志社向我们团队约稿,团队核心成员撰写了《网格计算与e-Learning Grid》等系列文章,并在该杂志上发表,引起学术界的广泛关注。值得一提的是,杂志社在刊发这一组文章时,还以编辑部的名义加了编者按,这是学术期刊给予作者的很高荣誉了,这何其有幸!

640-1.png

特别感谢曾祥翊博士(时任《中国电化教育》杂志社副主编、现任社长)对我们团队研究工作的大力支持!

转眼20年过去了,弹指一挥间,不禁感叹人生苦短。

2005年,我离开清华大学回到广州,担任广州电子集团公司总工程师,负责企业技术研发工作。一年多以后,我重回学术界,受聘华南师范大学一类岗特聘教授,并担任教育信息技术学院院长,领导教育技术学国家重点学科建设。

2008年是国内云计算元年,我带领团队布局云计算研究,牵头组建广东高校计算机网络工程技术研究中心,获广东省教育厅立项建设,并得到广东高等学校科技创新平台项目的支持。工程中心聚焦网络计算关键技术及云操作系统等基础软件自主创新,是国内最早从事云原生计算研究的团队之一,相关成果为广东省“粤教云”工程[1]和深圳教育大数据应用技术工程实验室[2]建设提供关键技术及核心基础软件支撑。

以云操作系统为基石的新兴平台软件关系到构建自主可控的数字经济生态,《国家“十四五”规划和2035年远景目标纲要》提出加快云操作系统迭代升级,以混合云为重点培育行业解决方案等云服务产业。现在回过头看,当初我们选择云计算作为主要研究方向,并重点发力云操作系统等基础软件研发,这是完全正确的。当前,以大模型为代表的生成式人工智能已成为全球科技创新的前沿领域,同时也是大国竞争的战略焦点。刚刚过去的这个蛇年春节假期,几乎每个人都在谈论 DeepSeek,许多企业节后返工就在自己的公司用上了 DeepSeek R1。其实, DeepSeek 和 ChatGPT的成功,云计算特别是云原生理念和技术,在其中发挥了关键作用。AI 产业有清晰的层级结构,最底层是以 GPU 为核心的计算硬件层,向上是云计算层,再往上是基础大模型层和应用层等。正是云计算让算力资源变得触手可及,中小企业可以通过按需付费模式从云服务提供商那里获得算力用于训练和部署大模型。 近期,以宇树科技、Deepseek等人工智能企业为代表的杭州“六小龙”出圈,引起了海内外的高度关注,多地官方媒体发出“为何是杭州”“向杭州学什么”的追问,其中的答案自然有很多,但有一点可以肯定,这与杭州拥有阿里云这样的云计算领军企业和浙江大学等高水平大学不无关系。

大模型将现代人工智能的算法、数据和算力这三大要素推向了前所未有的高度。首先,大模型的训练与推理依赖于弹性可扩展的计算能力、高效的分布式计算框架以及大规模的数据存储。以云操作系统为基础构建满足这些需求的人工智能云平台,已成为行业的标准做法。然而,云操作系统最初是为通用计算设计的,而大模型训练与推理主要属于智能计算,它们在资源管理、运行时、作业调度、自动扩展以及监控调试等方面有着不同的特点和要求。因此,亟需研发新一代云操作系统。第二,从数据要素角度看,数据决定AI模型能力上限已成为行业共识,大规模高质量的数据及其工程化处理是提升大模型能力的关键,但现有大模型难以获取形式化语义的算法缺陷,极大限制了AI模型在科学、技术、工程和数学(STEM)领域的推理能力。因此,亟需夯实大模型能力提升的数据基础,特别是对推理能力提升至关重要的数据类型、数据形态、数据获取与生成方法,探索一条更加科学、高效的数据工程路径,并以数据要素创新引领算法创新。正是基于上述考虑,结合自身的研究基础和积累,从2022年开始,我们团队牵头组织实施《大模型数据要素创新工程及关键基础软件与行业应用》项目,相关工作已取得重大进展,阶段性成果将于近期发布。

从清华园的网格计算研究起步,我带领团队一直从事计算机网络与分布式系统研究,历经北京、广州两个时期,从网格计算到云计算[3]、从大数据到大模型,一起走过20多年。我珍藏着一张照片,这是当年国家远程教育网格计算示范工程LAGrid研发团队的合照。

每次我看到这张照片,都会想起当年的情景,那些记忆,让人暖心,令人难忘。我常想,要是我们再度相聚清华园,一起回忆这段宝贵的经历,相信大家都有同样的感受:回到起锚地,回望来时路,我们无怨无悔。

[1] “粤教云”是《广东省云计算发展规划(2014-2020年)》社会服务领域重点项目;《广东省“互联网+”行动计划(2015-2020年)》提出加快“粤教云”公共服务平台建设;《广东教育发展“十三五”规划(2016-2020)》提出以“粤教云”为总抓手,加强教育信息化统筹规划和顶层设计;《广东省“数字政府”建设总体规划(2018-2020年)》提出持续完善“粤教云”公共服务平台建设,推进教育数据资源整合。从2013年起,许骏教授担任广东省教育厅“粤教云”工程专家组组长,2015年又被省教育厅聘为“粤教云”工程首席专家,组织领导了“粤教云”工程建设,牵头负责“粤教云”总体设计、技术架构、标准体系及实施方案研究。

[2] 深圳教育大数据应用技术工程实验室2018年1月由深圳市发改委批准立项建设,并入选深圳市战略性新兴产业(互联网产业类)重点扶持计划,许骏教授担任首席科学家,主持了该工程实验室建设。2022年5月,该工程实验室通过深圳市发改委组织的验收。许骏教授目前兼任深圳教育大数据应用技术工程实验室主任&首席科学家。

[3] 2019年10月,专著《从网格计算到云计算:“粤教云”工程起源与发展》(许骏,柳泉波著)在科学出版社出版。该书解读技术演进与发展轨迹,展示重大应用工程,揭示网格计算、对等网络、自组织网络、云计算和云原生计算等近20年来陆续涌现的新技术背后的本质问题。