日前,由爱数、北方大数据交易中心(以下简称北数)联合承办的第七届世界智能大会生态城平行论坛数据要素产业分论坛成功举办。会上,复旦大学教授、博导、上海市数据科学重点实验室主任肖仰华教授就《大模型释放领域数据价值》进行了深刻洞察和详细分享。目前,每个企业都存在着大量的沉睡数据,数据价值如何变现是企业关注的焦点。与此同时,人工智能技术迅速发展,以ChatGPT为代表的大模型技术正掀起浪潮,这对数据价值变现、推动数据要素产业化有着重要的积极意义。
大模型将成为智能时代发展新引擎
从产业发展角度看,大模型将成为智能时代发展新引擎。大模型将知识从边际成本转变为固定成本,即将每次查找知识所付出的成本转化为一次性投入给大模型的固定成本。企业的数据和知识可以成为训练大模型的原料,再利用大模型赋能消费者市场或企业市场。对于消费者市场而言,ChatGPT可能成为新的消费者入口,带动互联网产业的转型升级。对于企业市场而言,以ChatGPT为代表的大模型可以成为新的引擎,有着能够带来产业革命的力量。
相较于之前的技术手段,大模型的发展带来了全新的能力特性。
· 开放世界的理解能力
传统AI只能胜任封闭任务,GPT类大模型具备了开放世界的理解能力。
· 强大的组合创新能力
大模型能够将任意两种学科、技能组合创新,例如将代码和诗词融合。
· 强大的底座能力
经过预训练而得的大模型,可广泛应用于不同的任务。
· 复杂任务的规划
具备一定的完成复杂任务所需的动作规划能力,可以对机器行为、完成任务进行规划。
领域应用,大模型难以直接胜任
即使大模型发展之迅速令人惊叹,但是大模型并没有完全胜任领域应用,无法解决行业领域“最后一公里”的问题。现今的大模型主要实现了机器与人类的开放式对话,也就是开放式闲聊,然而,复杂决策是领域应用根本特点,实际应用场景多需机器的复杂决策能力,例如故障排查、疾病诊断、投资决策等严肃应用场景。目前,大模型解决问题的能力相比真正的领域专家还有着相当的距离。同时,领域应用的专业性要求高,通用大模型仍然难以达到领域应用所需的较高专业水平,其掌握范围广泛的通用知识,却缺乏深入的领域知识、经验及复杂推理过程。专业知识的复杂性导致不确定性,目前大模型是否能应对这种不确定性仍是一个未知数。
另一方面,领域问题的解决思维方式与通用问题完全不同,即使是相同的语句在不同行业及场景下,代表的意义也有着较大的差异。大模型的“幻觉”现象也是目前痛点所在,即容易胡编乱造一些虚假事实,大模型本质上是统计模型,其自身无法从根本上解决这一问题。
大模型如何胜任领域任务
受双系统认知启发,肖仰华教授与爱数对大模型如何胜任领域任务这一问题进行探讨。在心理学中,双系统理论(Dual Process Theory)认为,人的思维包含两种不同的历程。其中之一是隐性的、无意识的,而另一种则是显性的、有意识的。以大模型为首的统计模型可以类比为隐性系统,以知识图谱为代表的知识网络可以类比为显性系统,双系统的连续交互协作是实现高级认知能力的关键,将大模型与知识图谱联合应用才可能实现领域认知智能。
同时,内外部知识结合也是实现领域认知智能的关键。企业可以通过数据交易获取外部知识、实现数据要素化,并基于认知服务实现领域认知智能、基于沉淀数据形成内部知识,最后将二者结合形成领域知识,使知识价值最大化,从而实现领域认知智能。
由 ChatGPT 所引发的通用人工智能产业变革,相信才刚刚开始。我们需要以更深切的思考、更扎实的实践,牢牢抓住大模型以及其他通用认知智能技术给我国数字化转型与高质量发展所带来的全新机遇……大模型绝不是宣传文案中的噱头,也绝不能成为一场华丽的烟花秀,而要成为实实在在的能够推动社会发展与进步的先进生产力。——肖仰华
未来,大模型在AI产业链中将承担“基础设施”功能,将AI技术赋能千行百业。“领域大模型+领域知识网络”将成为解决专业领域问题的新思路,爱数将依托在领域认知智能方面沉淀的技术成果,与高校专家、大模型厂商深入交流合作,与行业客户共创“领域大模型”,借此革新爱数全系列产品,提供更高品质的产品和服务,进一步赋能行业智能化转型与数据产业繁荣。