今天,人类已经进入了海量数据时代。每一分钟,甚至每一秒钟,在人类社会中的各个领域中都会产生巨大量级的数据。怎样让如此繁多的数据发挥出自己的价值,产生出经济效益和社会效益,赋能人类的社会经济发展?依托复旦大学计算机学科建立的上海市数据科学重点实验室就在解决这些难题。2013年设立的上海市数据科学重点实验室是全国第一个大数据为核心主题的政府授权的重点实验室,其在数据科学理论、数据管理及数据分析等领域取得一系列成果,在国际上率先构建了数据科学学科框架,凝聚了一大批从事大数据理论、技术和应用研究的科学家,在大数据试验场、大数据自治与开放、数据管理、数据分析等方面作出了突出贡献。
作为上海大数据战略的技术研发和支持中心、经济社会发展的重要咨询机构,上海市数据科学重点实验室还承担了“上海推进大数据研究与发展三年行动计划(2013—2015年)”、上海市科委“大数据与云计算重大创新工程”、“大数据与云计算”十三五规划、 “大数据试验场”十三五战略规划、上海大数据试验场研发与转化功能型平台建设方案等编制工作,实验室提出的大数据试验场被列入18个上海市科创中心建设研发与转化功能型平台之一。日前,记者走进上海市数据科学重点实验室,扑面而来的是一股前沿之风。
起源:大数据时代催生大量应用
上海市数据科学重点实验室位于复旦大学计算机科学技术学院,醒目的标识、各种相关介绍,处处都展示出这里雄厚的科研实力。
实验室肖仰华教授介绍说,上海市数据科学重点实验室的科研起源可以追溯到20世纪七八十年代,当时的复旦大学计算机学科在施伯乐教授的带领下开启了数据库研究和教学工作。在施伯乐教授带领下,科研团队致力利用数据库技术对各类应用中的数据进行高效、可靠的存储、检索、查询和管理,多次获得了多项国家级及省部级科研与教学成果奖项。
当历史的车轮来到本世纪初,互联网和通讯领域开始出现越来越多的数据。这些数据超越了当时计算机的处理能力,传统的数据库模式已经不能继续胜任,迫切需要发展新的数据库的系统,以及新的技术和手段来应对大数据时代的挑战。
数据如何创造价值?数据能否流通和交易?数据如何开放和共享?数据如何确权和定价?人类能产生多少数据?数量的边界在哪里?复旦大学朱扬勇教授等一批数据科学家开始意识到“数据资源是重要的现代战略资源”,并全面思考这些深层次基础理论问题和前沿应用问题,先后撰写《数据学》《数据资产》《数据自治》等专业书籍,阐释了数据科学的基本内涵,定义了数据资产化体系,建立了数据自治开放体系,从理论、技术与应用层面开展系统性梳理。2010年,朱扬勇开始设想建立一个专门的实验室,系统地来回应这些问题,并于2013年牵头申报成立了“上海市数据科学重点实验室”。
服务:具有验证功能的“大数据试验场”
早期的大数据应用主要聚焦于互联网和电信大数据,比如针对网民们的上网行为做一些解析和提取工作,进行挖掘和分析,做了一些相应的理论和应用研究。
近年来,越来越多的大数据行业应用对大数据试验场提出了需求。肖仰华介绍说,众所周知,传统自然科学的研究往往依赖一些重大的科学试验装置,比如在航空动力学方面,飞机的各种参数设定需要风洞模拟场;而实验室的大数据试验场也是类似的有仿真功能的“风洞”,为数据科学研究、大数据技术开发而设计一个尽可能接近真实应用的大数据试验场环境,以降低研究人员的研究门槛。
“大数据试验场为大数据研究获应用提供基础性的开放数据,模拟大数据场景,提供实验环境。甚至可以通过生成更大规模的样本量,以尽可能地接近行业大数据分析的真实环境,为大数据的算法与应用提供试验环境。”肖仰华告诉记者。
延伸:知识图谱技术提供挖掘和分析服务
如何让大数据实现价值变现,提升价值水平?实验室提出了以知识图谱为基础的大数据理论研究和分析技术。
“大数据的特点就是碎片化,但如果能把碎片数据关联在一起,可能会创造价值,这就是知识图谱的技术价值。我们把碎片化的数据关联成为一张巨大的语义网络,让机器去理解数据和认识数据。”肖仰华举例说,知识图谱技术可以帮助识别一些金融领域的风险,比如可以分析是否可贷款给某个公司某个人员,如果与其关联的企业和个人都有贷款不良记录,那就预示着此次贷款存在风险。金融安全、公共安全等场景目前已经广泛使用基于知识图谱的数据分析技术。又比如在卡脖子的产业领域,一旦有国外企业断供产品,可以借助知识图谱技术构建产业网络,从产业网络中寻找潜在的技术替代方,以确保供应链安全。
基于知识图谱的智能运维技术,还为通讯领域和能源领域等大型企业的故障排查提供了强有力的技术支撑。肖仰华解释说:“我们会建立表达故障因果关系的知识图谱,先是基于业务规则把设备的互联互通关系建立起来,之后从历史数据中不断挖掘新的关联关系,最终打造成一张集报警、信号、设备、故障和原因于一体的运维知识图谱;并依托这一图谱展开智能化的诊断与分析,识别系统运行风险、诊断故障原因、给出排除方案,从而帮助企业做到提质增效。值得一提的是,该研发成果受到华为等企业的资助,并在真实应用场景取得了显著的应用效果,相关个人获得了企业的科研奖项。”
目标:打通认知智能和数据智能的双向通道
近年来,实验室聚焦国计民生一系列重要问题开展研究与应用,并取得了积极成效。比如,实验室的孙未未教授团队深度参与了上海港洋山四期自动化集装箱码头的建设,承担了核心的堆场计划和调度、岸桥重点作业路判断和搬运机器人(AGV)数量分配等核心模块的研发,帮助洋山四期建设成为世界上最大、最先进的自动化集装箱码头之一;实验室池明旻副教授与国家天文台、腾讯等单位合作,基于位于贵州的大科学装置“中国天眼”(FAST)的巡天数据,借助人工智能算法,自动搜索出27颗新脉冲星,对加速宇宙暂现源系统发现和时域天文学探测起到了积极作用;人们上网的密码有一定的规律性,很容易被黑客猜测出来,实验室韩伟力教授团队针对口令安全问题,发现了中文用户特有的安全漏洞等现象,并提出应对方法,提升了密码口令的防护水平,极大地提升了互联网领域的安全性;数据开放的同时保证权益和保护安全是重要挑战,朱扬勇团队创新数据治理模式,提出数据自治开放技术,激发数据开放共享意愿,推动数据开放共享,提升数据利用潜能……
去年年末,《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》刊(简称“数据二十条”)对外发布,系统性布局了数据基础制度体系的“四梁八柱”,加速了数据流通交易和数据要素市场发展。这一政策的出台,确立了数据作为生产要素之一的重要地位,为数据的价值变现提供了保障和依据。可以预见,推动和加速各行业数据的价值变现将成为时代发展的重要命题,也将成为实验室响应国家发展战略的重要方向。
实验室未来的努力方向是打通认知智能和数据智能的双向通道。肖仰华说,未来将致力打通数据价值变现的全链条。下一步是两条路径同时发展,首先是建立类似ChatGPT这种大模型,这一过程就像是炼丹炉炼丹,将各种大数据“喂”给机器,训练形成交互式、生成式的统一大模型。“但是,我们会注重与通用大模型形成差异化的发展道路,实验室会整合医疗、金融、工业等各大领域的数据,构建面向领域的大模型,赋能行业发展。”第二条路径是打造可快速更新的动态化知识图谱,实现知识图谱的持续学习与动态演化,建立跨学科与跨领域的语义关联,进一步释放知识的价值。
“大脑认知有个理论叫做双系统认知,人类大脑95% 认知是一种下意识的快思考,比如喝水、吃饭等,还有 5% 时间是慢思考。ChatGPT 这种大数据‘喂养’出来的大模型能够实现类似于大脑的快思考,知识图谱则进行很多关联性推理,可以实现人类的慢思考。两者之间打通,机器就会拥有千行百业的认知能力,它将为我们人类的各种决策提供更有力的辅助和支持。”肖仰华说。