本文转发自中国经营网
人工智能(AI)逐渐成为各行各业转型升级的重要驱动力。但硬币总有两面。随着AI大模型的加速渗透,数据质量、模型“幻觉”(指大模型生成的内容表面上合理,但实际上是错误的内容)以及如何有效利用私域数据等问题逐步浮现,正在成为决定市场发展进程和天花板的关键因素。
大模型是越“大”越好吗?如何在数据的存储、流通与消费上找到平衡?怎样进一步开发庞杂而敏感的私域数据?最终,机器智能的天花板又在哪里?
复旦大学计算机科学技术学院教授、博导、上海市数据科学重点实验室主任肖仰华长期专注于知识图谱、知识工程、大数据管理与挖掘等领域研究,他在近期与《中国经营报》记者谈及上述问题时表示:发展AI首要原则是以人为本,科技的尽头是人文。人不仅仅是万物的尺度,也是AI先进技术的尺度。
事实上,技术的每一次进步都有可能带来人的某种能力的倒退。在肖仰华看来,随着技术的不断进步,人类应该更加关注对技术的治理,AI是否能够真正实现通用人工智能(AGI)的终极目标,仍然是一个值得关注的前沿课题。
大模型要“吃饱”也要“瘦身”
《中国经营报》:现有的大模型在实际应用中,数据的使用效率似乎较为“低下”,你能否详细解释一下这一现象的原因?
肖仰华:这一问题从根本上来讲源于其训练过程的不透明性,整个训练过程仍处于“黑盒”阶段,我们对大模型训练的内在过程和机制缺乏清晰的理解。
尽管我们认识到大模型的工程本质是数据工程,但对于具体哪些数据能够发挥什么样的作用,对哪些能力起着决定性的影响,认知还较为初级。同时,对数据之间的关联性、数据分布的形态、数据类型与大模型能力之间的关系也缺乏全面的认识。以金融大模型为例,选择什么样的金融语料才能训练出一个胜任金融工作的大模型,我们所知甚少。
如何通过特定的数据和训练过程来激发和形成大模型的特定能力。这些问题的复杂性和不确定性,反映了我们在理解和优化大模型训练过程方面仍然面临的巨大挑战。我们需要更深入地理解大模型的训练过程,探索数据、训练方法与模型能力之间的关系,以期在未来能够更有针对性地提升大模型的性能和应用效果。
《中国经营报》:你提到过大模型的发展过程中将经历“水分”挤掉的阶段,能否进一步解释这个过程?
肖仰华:大模型的发展可能会经历几个关键阶段。首先是一个“吃饱”甚至“撑得太饱”的阶段。在这个阶段,我们用海量的数据和语料来训练模型,可能会产生拥有千亿甚至万亿参数的大模型。然而,这样训练出来的模型往往显得臃肿,容易出现各种问题。
接下来,我们就需要进行“瘦身”,让大模型变得更加精炼。从学术角度来看,这个瘦身的过程本质上是一种“遗忘”的过程,这与人类知识的发展过程非常相似。这个遗忘的过程,实际上是在提炼和沉淀真正重要的知识。
对于大模型来说,那些相对琐碎的知识完全可以放到外部的数据库或知识库中,让模型能够按需检索。真正智慧的系统不应该用自己的“认知载体”去存储琐碎的信息,而是用来沉淀高度精华的智慧。
更深层次的做法,是逐步将大模型的多种能力进行解耦与剥离。例如,将认知能力和事实知识进行分离,或者将逻辑推理和直觉推理进行分离。目前的大模型参数和神经网络结构实际上是将知识与能力糅杂在一起。未来,我们可能会通过一些技术手段,将大模型的能力相互剥离和拆解,从而能够根据需求组装出具有特定能力组合的大模型。这有点类似于人脑的不同区域完成不同功能的方式。
如果某个应用场景只需要部分能力,我们就可以只组装相应的大模型功能模块,而不需要启用参数规模巨大的完整模型。
《中国经营报》:私域数据在各行业的深度应用,被认为是未来AI模型突破的关键,你认为目前行业在利用私域数据时最大的挑战是什么?
肖仰华:在利用私域数据时,行业面临着诸多挑战,包括技术层面的和生态层面的挑战。生态层面的挑战在于当前数据要素市场尚不健全,使得私域数据的汇聚和交易流通也面临诸多困难。如何完善数据要素市场建设,让数据供得出、流得动,仍然缺乏制度保障。
技术挑战从根本上讲仍是因为大模型自身能力不足。首先,大模型对专业性与复杂性数据的理解不足。私域数据有着较强的私有性和专业性,对大模型理解数据进而利用数据造成了困难。比如很多金融信息系统有着各自行业数据编码标准、行业分类标准,大模型难以理解这些私有化的表达;如果没有背景知识的支撑,大模型也难以理解专业性极强的数据(比如会计审计中各项数据)。其次,大模型难以理解复杂数据结构。数据库的复杂表结构、数据库的复杂数据模型、非结构数据库的复杂数据建模,均给大模型理解背后的数据带来了巨大障碍。
“协同”才能解决“幻觉”
《中国经营报》:面对大模型对数据的“贪婪”需求,如何在数据的存储、流通与消费上找到平衡?
肖仰华:大模型在数据方面面临的根本挑战在于我们尚未建立起大模型的数据科学。
具体来说,我们还不清楚在大模型的训练和优化过程中到底需要什么样的数据,需要怎样的数据配方,需要怎样的学习课程。数据和模型能力之间的因果关系尚未建立,这是根本性的问题。
大模型的训练同样应该遵循类似的原则。如果我们希望训练出的大模型具备相对高级的认知能力,就必须对其“喂养”的数据进行精心选择。
我们需要建立起大模型的数据科学。这包括几个关键方面:数据的分类机制:我们需要了解不同类型的数据对模型能力的影响;数据的筛选机制:建立标准来选择高质量、有价值的数据;数据的配比机制:研究不同类型数据的最佳组合比例;评测评价标准:建立科学的评估体系,衡量数据质量和其对模型能力的影响。
只有建立起这样的数据科学,我们才能避免大模型训练过程中的盲目性,也才能避免数据使用上的过度或不足。这将使得大模型的训练更加精准和高效。
《中国经营报》:生成式大模型的幻觉问题一直备受关注,你能解释一下这个问题的本质和可能的解决方案吗?
肖仰华:生成式大模型的幻觉问题从表面上看,源于其本质是一个概率生成模型。模型在生成过程中,本质上是在预测下一个词的生成概率,在整个词表空间计算概率分布,选择概率最大的词输出。这种基于概率计算的本质决定了它有一定概率会出错。
从深层次原因来看,幻觉的本质与大模型的训练数据有关。大模型是通过我们能够收集的语料、文本或各种数据来训练的统计模型。然而,我们能够收集到的所有数据,包括我们能够表达的所有可能的思维过程等数据,从概率分布上来讲总是有偏差的,很难精确表达或还原真实世界。
大模型训练出来的模型多多少少被认为是有偏差的,会受到样本分布偏差的影响,带来结果预测的不准确,在特定情况下产生所谓的“幻觉”问题。
解决幻觉问题的一个思路是给模型构造足够长的上下文,这也是RAG(检索增强生成)技术要解决的主要问题。因为给模型提供的上下文提示越丰富、越合理,它预测的概率就越准确,从而缓解幻觉问题。比如我们可以把最新的金融行情信息作为检索来源,增强大模型对实时金融行情的认知,从而缓解大模型幻觉现象。
另一个思路是认识到大模型自身能力的局限性,让它与其他人工智能组件协同工作,包括知识图谱和小模型。从成本和经济效益考虑,这种协同方案可能更具经济性。
大模型参数量大,推理和训练成本高,而且不可控、不可编辑、不可理解、不可解释,存在诸多缺陷。而这些缺陷恰恰是小模型和知识图谱的优势所在。小模型参数量低,训练代价低,可控可理解可解释;知识图谱的知识可编辑,表达更精炼。因此,协同是一种解决幻觉非常有效的思路,甚至可能是根本思路。
金融行业是信息化与数字化基础较好的行业,已经建立大量的金融小模型与金融知识图谱,将其与大模型有效协同,而非简单丢弃不用,是未来金融智能化的主要实现途径之一。
技术治理应该未雨绸缪
《中国经营报》:你强调AI技术的发展仍要“以人为本”,能否详细阐述对“机器取代人类”这一观点的看法?
肖仰华:发展AI要加持的首要原则就是以人为本,科技的尽头是人文,科技的终极目的是人文关怀。人不仅仅是万物的尺度,也是AI等先进技术的尺度。
我们要有所为有所不为,但凡伤害人之为人之本性的AI应用,我们要谨慎,要加以限制。事实上,技术的每一次进步都有可能带来人的某种能力的倒退,比如说汽车普及了,我们的四肢功能就要靠健身才能保有;键盘普及了,我们很多人就提笔忘字了。
当通用人工智能与脑机接口日益成熟,机器和工具将大量代替人类从事脑力劳动,脑力实践活动的减少,会不可避免地带来人类智力水平的下降。如果人类智力退化为猿猴,人还是人吗?所以说AI的大规模滥用是可能损害人之为人的本性的。
在AI应用过程中,尤其要注意保护我们的下一代。当某个人发展出某种能力之前,应该谨慎应用AI的相应能力。当我们的儿童还处在认知发展过程中,当我们的学生还在学习某项技能,当我们的助理还未成为专家,如果滥用AI相应能力,势必会对AI等工具形成依赖,那么我们的儿童如何成长,我们的学生如何实践?
其次,我们要重视技术治理,并将治理提前考虑,要做到未雨绸缪,不能再像传统互联网发展那样,先发展再治理。这一波AI先进技术是足以对人之为人的根本产生负面影响的,人的本质倒退是人类文明所无法承受的。
我们要从根源弄清楚某一项AI技术的大规模应用,对人类社会所能造成的长远影响。AI的发展一旦踩上加速的油门,是有可能让我们的刹车失灵的。对于这种可能性,我们应该保持高度警惕。
《中国经营报》:展望未来,你对下一代万亿级参数模型以及AGI的实现有哪些预期和想法?
肖仰华:这个问题的回答本质上需要首先澄清:机器智能的天花板在哪里?目前,我们已经看到人工智能实现了类似人类大脑系统一的直觉思维,并初步具备了系统二的理性思维或“慢思考”能力。一些乐观的观点认为,这已经预示着人工智能正在全面超越人类智能水平,也就是所谓的实现AGI。
我倾向于认为,人类独具的高级认知能力是当前甚至是未来机器智能难以达到和超越的。人类高级认知能力中自省、反思、ToM(Theory Of Mind,也就是对他人持有信念的理解能力,比如“我知道别人知道什么”“我知道别人知道我知道什么”),是当前AI难以实现的。
如果不断剥离上述高级认知能力的表层,我们就会触及人的根本认知能力:自我意识。人类的自我意识具有递归性。比如我可以认识当下的我在思考,进一步我也能对我在当下的思考状态进行思考,如此循环往复。这种递归性的反思能力是人类能够不断超越当前提升自我的根本所在。自我超越的能力似乎只有人类能够具有,目前AI在自我完善、提升、超越仍在研究阶段,即便AI具备形式上此类能力,它仍然缺乏人类的内在动机。