- 为机器立心(通用人工智能的中国蓝图系列)
- 朱松纯
- 3125字
- 2025-07-03 17:11:28
创新:突破数据统计的局限
尽管早在20多年前就预测到了人工智能的“奇点临近”,但我必须强调的是,几十年的探索让我们清醒地认识到,数据与统计方法驱动的人工智能发展道路存在自身的局限性,当时对人工智能的认知与开发还远远不足,到今天证明了,我的想法是有依据的,也为我们正确认识大数据提供了认知,抢占了发展先机。为了说清楚这个问题,我继续从本世纪初的科研实践说起。
1999年,我的实验室开始做图像解译,这个工作在2003年国际计算机视觉大会上获得了计算机视觉研究的最高荣誉——马尔奖。从20世纪90年代最早将统计建模与学习方法引入计算机视觉,我的团队发现统计在对图像理解方面有着越来越重要的作用,所以随着大数据的到来,我决定在湖北鄂州创立莲花山研究院(4),开启大规模、高精度的数据标注工作。
2004年,莲花山研究院正式注册成立,是中国首家民办非营利性机构。这不仅对我个人的科研生涯有意义,对于人工智能发展史也是具有标杆意义的存在。彩图1为第一届莲花山研究院研讨会合影。
莲花山研究院做的第一件事是建立一个团队,以收集、标注、解译图像与视频。这个阶段的图像解译不同于以前的单点分割和图像分类,它需要解译整个图像的结构。举个例子,如果给莲花标记,我们不仅需要分类,还要标注花瓣、花蕊等所有结构。这个过程覆盖的范围非常全面。此外,图像解译还关注物体之间的关系,例如标记一辆被柱子挡住的车时,我们会标记遮挡关系,还会生成图像标签图、子图和三维标记。这是一个非常复杂的过程,所以我们还制定了标注标准,并产生了手册、定义了怎么解译图像的细节(见彩图2)。团队后来承接了来自世界各地科研机构数据标注的业务,签订了不少合同。
到这个阶段,也就是我们现在可以称之为“PG0时代”的阶段。大家可以观察彩图2中的小三角形,图像解译图中的每个节点分别代表场景、物体、部件,以及基元的分割、识别。节点都已经被填满了,这表示,此时技术能够达到对图片本身的解译没有“死角”的程度,通过“分割”(segmentation)、“对象检测”(object detection)和“三维构建”(3D construction)等技术,已经能够对图片画面有充分的理解(见图0-9)。

图0-9 莲花山数据集:图像的三维解译
值得一提的是,莲花山研究院还是人工智能生成内容(AIGC)应用的诞生地之一。我们基于我们在30年前提出的、用于纹理合成的模型,开发了一种将结婚照转化为油画的技术(见图0-10)。将结婚照转化为油画是我们最早的产业化尝试之一,也是世界上最早的生成式模型(见图0-11)。

图0-10 我们最早的产业化尝试之一:将结婚照转化为油画
注:该论文标题译为“从图像解译到绘画渲染”。

图0-11 世界上最早的生成式模型:纹理合成
注:1996年,我们提出了世界上第一个通用的纹理建模的统计模型FRAME(Filters, Random Fields and Maximum Entropy),将神经生理学的发现和统计建模相结合,该模型能够从观察纹理出发无限合成新的纹理,并使新纹理能够在宏观统计量中得到匹配。
目前流行的大模型GPT是预训练模型(pre-trained model),在30年前我们将其称之为先验学习(prior learning,见图0-12)。这些年广受关注的生成式对抗网络(GAN),最早也是由我的一位博士生屠卓文提出的,后来被国外一些研究团队声势浩大地推广,并更名为GAN(见图0-13)。

图0-12 先验学习与吉布斯分布
注:该论文标题译为“先前学习与吉布斯反应扩散”。先验模型(Prior Model)最近被改称为“生成式预训练”(Generative Pre-trained)。

图0-13 纹理合成:多层神经网络的产生式模型
注:2015年,随着算力的提升,我们又用多层神经网络重新进行了计算。左边是一张输入图像,砖墙上有爬藤和叶子,爬藤和叶子各占一半,这就是统计量。右边是根据FRAME建模随机合成的四张图片,这些随机图片和输入图片匹配了一些统计量,比如爬藤和叶子各占一半,一些砖的摆设等。但这种模型也有泛化性,比如有些砖缝里面突然长出了叶子,这有可能符合物理规律,也可能不符合。我们将这些在物理学上不可能存在的情况称为“幻觉”,幻觉能够满足统计特征,但不符合物理规律。比如从砖缝中长出叶子,就是符合物理规律的。但如果从砖面上长出来,就不符合物理规律,这就是所谓的幻觉。幻觉是生成式模型的一个本质特征,我们利用幻觉来泛化,但同时因为它只关注统计量,没有关注背后的因果与价值,所以生成的结果会被认为是“翻车”了。这就是生成式模型的本质,我们之前就注意到了这一点。
2005年,欧洲出现了PASCAL数据集,全称为Pattern Analysis, Statistical Modelling and Computational Learning。PASCAL数据集专注于图像分类和分割,是一个非常有名的数据集。那一年也发生了一段小插曲:我们开始承接海外订单,为美国一些公司标注数据,我们标注得非常准确,价格也比较便宜。当时PASCAL数据集的人找到我们,希望我们能为他们的数据集进行标注。按照我们的标注方法,每幅图片需要标注1 000多个点,我们的报价是每幅图片1欧元。但因为他们有数万幅图片,觉得价格太贵,最终导致了合作的破裂。他们决定放弃图像解译,转而专注于图像分割和分类任务。
大约在这一节点后,科研风气发生了变化。在后来专注于图像分割和分类的研究人员中,有一部分是欧洲几何研究者,他们在20世纪70至90年代非常活跃。然而,随着1999年统计建模技术的兴起,这些研究者面临了前所未有的挑战,点云(point cloud)等技术的发展遇到了瓶颈,迫使他们转向图像分类领域。他们开始构建大型数据集,组织竞赛和“刷榜”。从2008年开始,“刷榜”文化逐渐盛行,所谓的“刷榜”就是下载他人的代码,改进、调整,用一个数据集在算法下进行测试、评估和排名,不断地在排行榜上拿名次,但是这个代码不是自主创新的。
2006年,我们在加州大学伯克利分校举办了一次会议,当时很多数学家在场。那些专们做大数据的人站起来说:“你不需要关心其他问题,只需在我的数据集上进行测试即可。”我的导师,菲尔兹奖得主、著名数学家大卫·曼福德(David Mumford)当时也在场,他感到了极大的冒犯。这背后其实反映了当时的研究路径出现分歧,争论的核心在于是用经验主义还是理性主义来解决问题。
经验主义和理性主义有什么不同呢?经验主义完全依赖于数据驱动,但数据之外总有例外,世界的复杂性可能远超数据所能涵盖的范围。数据可以帮助我们窥见事物的一部分,但无法呈现全部。而理性主义则强调科学的美感,比如爱因斯坦所倡导的第一性原理,即通过对复杂世界的简化,找到事物本质,形成普遍适用的理论框架,比如“大一统理论”。
说到这里,我分享一个颇具代表性的故事。2010年,我在一次发言中探讨了理性主义和经验主义的争论。当时,我们在投论文时,大致会遇到两类审稿人:经验主义审稿人和理性主义审稿人(见图0-14)。经验主义的审稿人通常会要求你在不同数据集上运行你的方法,这些审稿人“迷信”性能(State of the Art,SOTA),对理论本身不感兴趣并持质疑态度。他们的观点类似于:“如果你真聪明,怎么会不富有呢?”他们可能会质疑:“如果你的研究方法真的好,那么为什么比不上现在的性能呢?”就像聪明和富有并无直接关联,能不能在数据集上登上榜首,跟研究方法的优劣也没有必然关系。经验主义审稿人和理性主义审稿人的对立,凸显了当时解决问题的研究路径出现分歧。

图0-14 经验主义审稿人和理性主义审稿人
注:经验主义的审稿人和理性主义的审稿人产生了对立,凸显了当时解决问题的研究路径出现分歧。
对于那些偏好运行数据集的文章,理性主义的审稿人则会说:“你的算法只是在你选定的有限数据集上有效,但对理解真实问题没有帮助。”坚持理性主义的研究者会从理论上证明某个问题不可解,以此作为拒掉文章的标准。因此,当时论文能否被接受,很大程度上取决于送到哪类审稿人手里。后来,经验主义审稿人占绝大多数,做理论研究的人就逐渐退出了计算机视觉领域。
我更倾向于理性主义,同时结合一定的经验数据。经验主义不是指前人经验,而是用数据结果来指导,从一开始就抱定对世界本源、本真、本质的探索。为什么我还是这么执着于理性主义、坚持价值驱动的研究道路呢?