许骏:共赴秋实之约----在国产基础软件与大模型融合创新及行业应用示范项目论证会上的发言
作者简介:许 骏,理学博士,计算机科学与技术教授,享受国务院特殊津贴专家,全国优秀教师,获广东省“南粤杰出教师”奖。长期从事计算机系统与网络技术研究,具有在大型企业(集团)负责技术研发以及在“双一流”高校领导国家重点学科的跨界工作经历,曾任广州电子集团公司总工程师、华南师范大学教育信息技术学院院长。现任华南师范大学二级教授、博士生导师、广东高校计算机网络工程技术研究中心主任,兼任中国人工智能学会智能信息网络专委会副主任、广东省计算机学会常务理事、广州市电子行业协会副会长。近年来带领团队主要从事云计算、大数据与人工智能技术研究,曾受聘担任广东省教育厅“粤教云”工程专家组组长兼首席专家、深圳市发改委教育大数据工程首席科学家。出版《移动自组织网络》等学术专著6部、《计算机系统原理与应用》等高校教材6部。
首先,欢迎各位领导、专家和来宾莅临指导!感谢大家多年来对我们团队的关心与支持!
从2022年起,我和同事柳泉波博士、博士生陈浩共同牵头论证“国产基础软件与大模型融合创新及行业应用示范”项目,得到中国科学院院士张景中等著名专家学者关心和支持,以及金山办公软件、人民教育出版社及人教数字出版公司、深圳市海云天科技公司、广东省出版集团数字出版公司等行业龙头企业的积极参与、密切合作。目前论证工作已基本完成,预研工作也取得令人鼓舞的阶段性成果。
(一)为什么关注基础软件
国家高度重视基础软件创新发展。
基础软件通常包括操作系统、数据库、中间件、办公软件和工业软件等,处于软件产业链上游,其发展能够带动下游的应用系统和应用软件的发展,众所周知,掌握操作系统的几家公司不仅是世界上最赚钱的公司,还左右着全球IT产业发展的命脉。
我们主要关注操作系统和办公软件。
1、云操作系统是国产基础软件自主创新难得的机遇
2008年是国内云计算元年,我带领团队布局云计算研究,牵头组建广东高校计算机网络与信息工程技术研究中心(以下简称工程中心),选择云计算作为主要研究方向,聚焦网络计算关键技术及云操作系统等基础软件自主创新,是国内最早从事容器云及云原生计算研究的团队之一,相关工作得到国家自然科学基金、广东省重大科技专项和应用型科技研发重大项目的支持。
长达15年的专注、坚持和付出,我们团队在云操作系统架构及关键技术研究取得重大进展。提出大规模分布式节点失效检测方法、共享状态容器调度算法和有状态容器服务迁移方法,突破跨地域大规模集群管理、高效并行应用编排、有状态应用在线迁移和零信任认证与授权等共性关键技术,《容器化云应用编排规范》等3项云计算技术标准填补当时国内空白,已获得《支持混合异构运行时的云边资源管理调度方法》等10余项发明专利;标志性成果-云操作系统uEngine,技术自主可控、内核自主开发,已在教育行业和工业互联网领域落地应用,2018年8月,通过中国人工智能学会主持的科技成果鉴定。
发展数字经济已成为国家战略,以云操作系统为基石的新兴平台软件关系到构建自主可控的数字经济生态。《国家“十四五”规划和2035年远景目标纲要》将云计算列为数字经济重点产业,提出加快云操作系统迭代升级,以混合云为重点培育云服务产业。从2021年起,我们团队开始新一代云操作系统研发及产业化。
2、国产基础软件赋能行业数字化
2006年,我辞去广州电子集团公司总工程师,重返学术界,担任华南师范大学教育信息技术学院院长,领导教育技术学国家重点学科建设。
教育技术学横跨理学、教育学和工学等3个学科门类,涵盖信息科学、计算机科学、教育学、心理学和认知科学等一级学科,这个舞台很大,不同学科背景的人,都有机会在这个舞台上一显身手、施展才华、干一番事业,这是交叉学科的优势。
在学科建设研讨会上,大家围绕专业特色问题有过多次热烈的讨论甚至争论。我们认为,应该超越“PPT制作”,将研发“教育版 PowerPoint软件”作为一种追求,这显然与我们团队的计算机学科背景有关。
金山办公软件公司的产品WPS Office,稳居国内基础办公软件市场移动端第一位、桌面端第二位,曾经两次荣获国家科技进步奖,成为中国软件行业最励志的故事,谈到自主可控、国产替代,在办公软件领域,WPS Office总能让人放心。与微软Office办公软件相比,国产办公软件要实现从跟跑到并跑甚至领跑,必须加强源头创新、开拓新应用领域,以办公软件作为内容可计算扩展和认知智能体的开发工具,变革内容形态(可计算扩展)和服务业态(自适应认知交互),发展可计算文档生态。2012年,我牵头承担广东省重大科技专项计划项目《云计算若干关键技术及产业化与“粤教云”工程》,金山办公软件是该项目的主要参与单位之一,2015年在“粤教云”平台上发布了“粤教云”版WPS Office。此后,围绕教育版办公软件Edu WPS Office这一主题,我们团队与金山办公软件长期保持紧密的交流与合作。
(二)为什么关注大模型
大模型正在推动新一轮科技变革并赋能千行百业,国内学术界与产业界经历了2023年的“百模大战”, 2024年,最重要的是:证明大模型能否真正解决问题。
我们关注大模型,与教育考试/测评自动化有关。
2002至2004年,在清华大学计算机科学与技术系,我带领团队承担了国家自然科学基金重大研究计划项目,在网格计算支撑环境及中间件技术研究取得重要成果。经历过2003年那场突如其来的“非典”疫情,我们团队开始关注计算机网络技术在教育行业的应用,研发了服务全球最大远程教育体系--中央广播电视大学的网格计算示范工程LAGrid,突破了大规模在线学习的形成性评价及个性化学习支持服务等关键问题,实现了从考试文化 (Test Culture) 到评价文化(Assessment Culture)的迁移,通过评价与反馈促进学习与发展。2004年12月,教育部科技司在清华大学主持召开该项科技成果鉴定会,总体达到国际先进水平,《中国教育报》第1版以“我国网格计算应用研究取得重大进展”为题报道了我们的工作。
应该说,这是一项很好的成果,但我们却一直高兴不起来,主观题特别是理科主观题自动评分手段不足、学习行为及认知交互数据缺失等问题一直困扰着我们,其背后是一些技术难题还没有得到根本解决。
2015年以来,我们团队与深圳市海云天科技公司合作,聚焦人工智能在教育考试全题型阅卷中的应用研究,特别是破解理科主观题的解题步骤分析及自动评分技术瓶颈。深圳市海云天科技公司多年来持续服务全国18个省份高考、150多个地区中考 ,还承担全国法考、CET、会计考试、证券考试等国家级大型考试的信息化服务,年考试及评价数据处理量超过3亿人科次。2018年,深圳教育大数据应用技术工程实验室获深圳市发改委批准立项、依托深圳市海云天科技公司建设,并入选深圳市战略性新兴产业(互联网产业类)重点扶持计划,我受聘担任首席科学家,亲历并见证了从申请立项到完工验收的整个过程。
1977年恢复高考,至今已走过46年。大家关注高考、关心赴考的孩子,其背后折射的是对付出就有回报的价值认同,是社会公平正义的渴望与守护。高考AI阅卷技术研究,不是一件容易的事情,来不得半点马虎和松懈,必须很认真地去做。
以大模型为代表的生成式人工智能为解决教育测评自动化问题提供了新机遇。但当前大模型适合的应用场景,对错误的容忍度要求较高,这对教育行业是绝对不能接受的。还有,大模型在数学推理能力方面,可能远不如我们想象的那么强,看上去似乎在推理,并不真懂解题方法。大模型应用于教育考试/测评自动化,特别是数学等理科主观题的自动阅卷,还需要全方位的融合创新。我们既不要高估技术的价值,也不能低估应用落地的难度。很长一段时间以来,每出现一项新技术,媒体就风起云涌,推荐新技术、启发新思维的文章铺天盖地,各种论坛峰会也很热闹,似乎又有了解决问题的机会。但风潮过后,人们又在谈论经久不变的老问题:为什么技术还是不能有效促进教与学?对此,我们要保持清醒与理性。
(三)关于融合创新与行业示范应用
这是我们进入后“粤教云”[1]时期深入思考做出的选择。
《广东教育信息化发展“十二五”规划(2011-2015)》提出:在国内率先建设教育云公共服务体系,取名“粤教云”工程。2013年3月,广东省教育厅成立“粤教云”工程领导小组和专家组,罗伟其厅长担任领导小组组长,我担任专家组组长,2015年又被省教育厅聘为首席专家。省教育厅委托我们团队牵头负责“粤教云”总体设计、技术架构、标准体系及实施方案研究,为省教育厅提供决策咨询。
从2013年起,“粤教云”工程各参与单位进行了近十年的紧密合作,自主研发云操作系统等基础软件,有效支撑了“粤教云”公共服务平台建设;研发了教育版WPS Office软件、人教版国家课程数字教材[2]和人教Pad教育终端,广东成为全国第一个实现国家课程数字教材全覆盖的省份,推动了“大平台、泛终端、富生态”应用新格局的形成,影响了广东教育信息化从“十二五”到“十三五”10年发展。
进入“十四”五,我们还能做点什么?
作为专注于网络计算及基础软件自主创新的科研团队,合作缘起于清华大学计算机科学与技术系,至今已经走过20年了,我们一直选择教育行业率先开展示范应用,如国家远程教育网格计算示范工程、广东省“粤教云”工程、深圳市教育大数据工程等,也算是行业应用的领跑者,但我们一直在反思与自省:实际效果如何?我们也一直努力研究真问题、真解决问题。
教与学是教育行业最典型的应用场景,本质上是内容、教师和学习者之间的认知交互过程。从计算机学科的视角看,内容可计算、构建“人在回路”(Human in the Loop)的认知交互环境是关键,工程实现的主要任务包括:(1)研发支持大模型交互计算的中间件,实现国产云操作系统与交互计算中间件的集成,构建大模型应用开发与运行的支撑平台;(2)研发可计算扩展及大模型增强的新一代办公软件,使之成为开发和运行大模型应用的统一入口,突出教师的开发者主体地位;(3)以人教社国家课程数字教材为抓手,依托“粤教翔云”数字教材应用平台[3]在广东开展示范应用,选择数学与信息科技教育先行先试。
该项目的实施,将打造大模型行业应用标杆工程,引领国内教育数字化转型及出版行业变革,其大规模应用将积累大量高质量认知交互数据并形成可计算文档新生态,有望解决即将面临的大模型训练数据枯竭问题,尤其是可计算的认知数据,是突破大模型推理能力瓶颈的关键。
该项目的实施,将走出一条国产基础软件及大模型融合创新之路,保持广东在办公软件领域的国内领先地位并跻身国际先进水平;新一代云操作系统为构建自主可控的数字经济生态提供支撑。
朋友们,在这个秋天,让我们共赴一场秋实之约,即将启动的新项目,是我们再度携手合作,既是过去合作的延续与拓展,更有“十四五”行业数字化转型的使命担当,我们将有机会服务数以亿计用户的学习与工作方式变革,未来值得期待!
[1]“粤教云”是《广东省云计算发展规划(2014-2020年)》社会服务领域重点项目;《广东省“互联网+”行动计划(2015-2020年)》提出加快“粤教云”公共服务平台建设;《广东教育发展“十三五”规划(2016-2020)》提出以“粤教云”为总抓手,加强教育信息化统筹规划和顶层设计;《广东省“数字政府”建设总体规划(2018-2020年)》提出持续完善“粤教云”公共服务平台建设,推进教育数据资源整合。
[2]人民教育出版社(简称人教社)是教育部直属大型专业出版社,是我国中小学教材建设的国家队,多年蝉联全国出版单位总体经济规模综合评价第一名。人教版教材在广东市场占有率超过70%,早在 “粤教云”工程启动之初,广东省教育厅和人教社签署了战略合作协议。人教数字出版公司是人民教育出版社为加快推进数字化转型升级而成立的专职、专业、专注的教育数字出版公司。
[3]2014年10月,广东省人民政府办公厅印发《推进珠三角一体化2014-2015年工作要点》,提出建成“粤教云”教育资源公共服务平台,后来发展成为粤教翔云数字教材应用平台,由广东省出版集团数字出版有限公司运营,率先于全国启动“广东省国家课程数字教材规模化应用全覆盖工程”。