本文转发自新华财经
随着“大算力+大数据+大模型”的人工智能架构对社会生产力进行深度重塑,数据作为人工智能发展的底层基础要素,已经成为各方抢抓人工智能战略机遇的关键因素。
新华财经北京6月20日电(于青)随着“大算力+大数据+大模型”的人工智能架构对社会生产力进行深度重塑,数据作为人工智能发展的底层基础要素,已经成为各方抢抓人工智能战略机遇的关键因素。面向“人工智能+”需要怎样的数据?实现数据要素价值需要怎样的新引擎?企业如何推进“人工智能+”,激活新质生产力?
近日,由北京智源人工智能研究院主办,中国互联网协会指导,中国互联网协会人工智能工作委员会、中国移动研究院共同承办的2024北京智源大会“人工智能+数据新基建”论坛在京举行,为上述问题的解答提供了前瞻性思考与实操性建议。
高质量数据是人工智能发展的根基
人工智能技术的历次突破都离不开高质量数据集的支撑,数据的“质”和“量”是推动大模型不断进步的关键。中国互联网协会理事长尚冰在致辞中表示,高质量数据已经成为AI大模型研发的战略性资源,数据工程建设成为实现从“X+AI”转向“AI+X”根本性变革的关键力量。
“智能来源于数据,广义地讲是来源于环境,智能是对环境和数据的一种投射和凝练,是一种高度浓缩的表达。”北京智源人工智能研究院理事长、中国互联网协会人工智能工作委员会主任委员黄铁军说,在人工智能的第三次浪潮中,最重要的就是从数据中学习,从数据中提炼智能。
北京智源人工智能研究院理事长、中国互联网协会人工智能工作委员会主任委员黄铁军演讲
行业智能化的不少堵点在于数据。“很多现有的行业数据是为日常生产系统服务的,而不是为人工智能服务的。”中国移动集团首席科学家、中国互联网协会人工智能工作委员会副主任委员冯俊兰认为,行业智能化首先要解决数据的感知问题,需要建立一种以低成本来感知和表征复杂系统的行业数据体系。
北京大学人工智能研究院副院长、数据空间技术与系统全国重点实验室主任黄罡说,当前数据基础设施的建设普遍滞后于数联网的规模和效率增长需求,以大数据和大模型为代表的第四范式面临着“高质量数据危机”。数据基础设施成为网络空间的新型基础设施,需要打造“专网+公网+跨境”的一体化数据基础设施,实现基于数联网的大模型智能体数据供应链。
北京智源人工智能研究院副院长兼总工程师林咏华介绍,针对人工智能训练数据面临的数据量、数据质量、数据使用中的版权和安全等难题,论坛现场发布的“北京人工智能数据运营平台”聚集了通用数据集、行业垂类数据集两大板块的数据,支持文本、图像、视频等多模态数据,同时打造了全流程的数据治理工具,通过开源开放、合作共享、数算一体等三种数据使用方式服务于高质量数据的供给。
人工智能驱动数据要素价值实现
当前,世界日益演变成为人、机、物多元融合的复杂系统,各类系统和数据前所未有之庞杂,难以仅靠人力去完成整个数据要素的价值变现链条。“数字经济时代,数据成为生产要素,随着数据内涵发生变化,数据呈现出新特点。”复旦大学教授、上海市数据科学重点实验室主任肖仰华说,一是数据的持续流动特征对全链条、自动化、智能化且高度协同的数据处理技术提出了要求,二是数据的开放生态特征对统一的、标准化的、互操作的数据管理提出了要求,三是数据的动态增值特征对面向价值变现的数据科学理论和方法发起了挑战。
复旦大学教授、博导,上海市数据科学重点实验室主任肖仰华演讲
肖仰华认为,数据技术的供给不足也是制约数据价值变现的重要原因之一。“作为当下人工智能的最新进展,大模型习得了对复杂世界的建模能力,具备了对开放数据的认知与操纵能力,将会成为激活数据要素价值的一个智能新引擎。”
如何加快数据产业升级,为人工智能发展提供高质量的“养料”?
今年5月,国家数据局在第七届数字中国峰会主论坛上发布了承担数据标注基地建设任务的城市名单,并表示将从技术创新、行业赋能、生态培育、标准应用、人才就业、数据安全等六个方面推进数据标注基地建设。在黄铁军看来,随着模型水平的提高,对数据处理者的要求也逐渐提高,Agent(智能体)主导的智能数据生产线将成为数据加工处理的主要形态,通过部署先进数据产线可以提高数据的加工效率。
“数据飞轮”助推“人工智能+”行动
今年,“人工智能+”首次写入政府工作报告。业界如何拥抱“人工智能+”时代机遇,培育新质生产力?冯俊兰认为,规模化的应用需要体系化的人工智能,可以通过体系化人工智能核心技术引擎,实现对算力、算网、模型和数据的灵活调度。“需要一些企业去承载AI体系的复杂度,将简单易用的功能呈现出来,这样才能使AI得到普适、大范围的使用,就像对5G的使用一样。”
中国移动集团首席科学家、中国互联网协会人工智能工作委员会副主任委员冯俊兰演讲
在场景应用方面,中国航信资本运营与创新业务部副总经理赵玉霞认为,企业在推动人工智能落地的过程中要找准场景,以提高生产效率、提升客户满意度、降低成本为标准,将大模型、高质量行业数据集、智能化行业应用三者相结合来提高生产力。
林咏华表示,要实现人工智能大范围的行业落地,必须要考虑“最后一公里”的质量问题,通过技术进步提升智能化能力的准确率,进而推动实体经济中一些核心系统的智能化升级。
在南方电网数字化部大数据管理处高级经理陈彬看来,一方面要从场景出发推动企业自身经营管理提质增效,实现高质量发展;另一方面也要发挥央企作为“国之大者”对产业链上下游的带动作用,推动产业升级,同时注重人工智能的整体生态构建和普惠性。
“企业需要注重价值导向,修建以价值增长为导向的‘数据运河’,使数据在传输过程中的价值不断得到提升和反馈,进而保证数据的真正流通。”冯俊兰说。
论坛中,多位专家提到要在数据与智能之间形成一种正反馈、正循环的机制,即通过数据积累与利用实现智能增强和持续学习,加快数据流通,迈向智能化时代,这也就是双向良性驱动的“数据飞轮”效应。