# 前言
在人工智能一次又一次的“飞跃”背后,究竟是什么在驱动它不断演进?AI演进的灵魂代码藏在哪里?
本篇访谈特邀复旦大学大数据学院的魏忠钰副教授,从基础研究到产业落地,为我们层层揭示AI崛起与迭代的内在逻辑。希望这场深度对话,能为读者提供新的思考角度与灵感,共同见证AI时代的蓬勃脉动。

相关追问:
1. AI发展这两次热潮有何意义?
2. 初创公司应该如何入局?
3. DeepSeek做对了什么?
4. 企业和学术做AI研究的优劣如何?
5. 硅基智能是否将会超越人类智能?
魏老师好,能否为我们介绍一下您实验室的情况,以及您在复旦的主要研究职责和关注领域吗?
魏忠钰: 我是来自复旦大学的魏忠钰。我本人是2016年加入复旦大学大数据学院,也成立了数据智能与社会计算实验室(Fudan DISC)。课题组的研究重点是如何发展更好的自然语言处理技术,或者更广义地说,大模型的基础技术和能力。并探索如何将大模型的能力应用到不同的下游场景中,与老百姓的日常生活和所获得的服务相连接。
当前,我们主要关注两个研究方向。第一个是基础的多模态大模型能力的构建。虽然大语言模型的能力在不断提升,但 在多模态场景下,大模型的能力仍然处于较初级的发展阶段。 目前,多模态大模型的构建仍然以大语言模型为中心,许多能力依赖于大语言模型本身。当结合视觉、声音、其它丰富模态场景时,模型的多模态理解和深度推理的表现仍然不尽如人意。因此,我们希望能够在多模态大模型技术能力的构建上做出一些贡献。
第二个研究方向是将前沿的人工智能技术与实际生活场景相结合。我们更关注那些能够产生社会价值,与应用场景强连接的课题。目前,我们正在探索如何使用大模型驱动的智能体完成社会模拟,构建更好的特定领域智能体、社会仿真环境,提升下游应用的模型性能,构建智慧医疗服务、或者面向融媒体领域的智能方法。

▷复旦大学数据智能与社会计算实验室。图源:http://www.fudan-disc.com/
我们知道,人工智能的发展在国内已经进入了第二次浪潮。第一次浪潮以视觉领域的算法突破为代表,而现在的这一批企业则与通用大语言模型的兴盛和应用密切相关。您能否从学术或技术卡点的角度,为我们解读人工智能发展这两次热潮的意义?同时,您能否预测一下,未来还会有哪些关键的技术赛点?
魏忠钰: 要回答这个问题,我们需要回顾过去十年中推动AI发展的核心技术驱动点。从语言模型的角度来看,过去十年发生了显著的变化。
(1)文字表征方法转变
第一个标志性工作是2013年谷歌提出的Word2Vec。这篇论文提出了一种规模化的将语言表征从稀疏向量转换为稠密向量的方法。在Word2Vec之前,文字的表征通常需要几千维的向量,其中很多位次是零,信息密度很低。尽管神经网络在视觉领域已经取得了成功(以2012年提出的AlexNet为代表),但由于神经网络在处理低信息密度数据时能力有限,它并未很快在自然语言处理领域产生影响。Word2Vec通过将文字表征为稠密向量(如50维、100维或300维),更适合使用神经网络进行处理,这开启了自然语言处理领域的神经网络时代。
(2)语言的长程依赖建模
接着是对于文本长程依赖建模。语言是一个文字序列,对于语言的建模需要考虑序列中文文字的依赖关系。这里有一个例子:
“我今天早上出门,看到一块石头,长得很丑,踢了它一脚。”
那么请问,是谁踢了这块石头?我们可以很快反应出是“我”踢了“石头”,但在文字序列里,“我”和“石头”这两个词的距离很远。要回答这个问题,就需要在建模这段文字的过程中,建构我跟石头之间的关系。之前不管是卷积神经网络,还是循环神经网络,对长程的文字依赖,建模能力都有限。
直到 2017 年谷歌的Transformer( Attention is All You Need )横空出世。Transformer在建模中引入了自注意力机制。它会考虑文本中任意两个位置之间可能发生的关系。这时不管你输入的序列有多长,任何两个位置之间的关系都会被考虑到,给语言文字的长程建模提供了解决方案,彻底改变了语言建模的基础结构。

(3)低成本可规模化的标注
接下来的故事和数据有关,有一句当时很流行的说法“人工智能背后的人工”。因为模型的能力建构,依赖于人工标注的数据。比如要教模型去做情感识别的任务,需要很多相关的样本,并且告诉模型,什么是正标签,什么是负标签。这样的标注很是耗费人力。如何去规模化、低成本地产生标注信息,是模型能力进一步提升的瓶颈。
于是,第三个技术支撑点,自监督训练方法应运而生,代表性的工作是谷歌的BERT和OpenAI的GPT。“自监督方法”在对于文本进行建模的时候,不额外引入人工标注,而是利用文本本身的信息来训练。GPT的自监督训练方法,就是现在被大家熟知的“next token prediction”,一个词、一个词得去产生一个原本存在的句子。预测的目标是原本在句子中本来就存在的,这样的标注信息可以规模化。这个时间点是2018年。
在这三个技术要素的支撑下,我们看到了GPT系列模型从2018年的1亿参数增长到2020年的1700亿。并在多种任务上进行泛化学习,使得语言模型能够在真实场景中落地应用。集大成的产品ChatGPT也再22年11月问世,引起了一股热潮。

▷ 图源: LM Po / Datawhale
(4)未来展望:多模态与深度推理
2022年,ChatGPT的推出引来了技术爆发点。随后的GPT-4和O1模型,分别展示了语言模型在多模态建模和深度推理能力上的拓展。未来三到五年,我们还会看到基础模型能力的提升,不管是在多模态方面,还是在深度推理方面。而不断提升的基础模型能力,也将推动智能体在落地场景中的应用,带来更多令人惊艳的产品形态。
此外,OpenAI首席科学家伊尔亚(Ilya Sutskever)在2024年NeurIPS会议上提到, 当前的“Scaling Law” 已经走到尽头,因为互联网上的文本数据几乎被耗尽。然而,现实生活中的知识不仅以非结构化文本的形式存在,还以服务流程、技术规范等形式存在。 如何学习和利用这些知识,可能是未来的一个重要方向。通过多智能体之间的交互机制来建构这些知识,或许是一种可行的学习方式。
您如何看待大语言模型和智能体之间的关系?现在,做大模型的入场券越来越高,特别是对于初创公司来说,想要与大厂或已经获得充分资源支持的新锐科技公司竞争,难度非常大。那么,对于初创公司而言,智能体是否是一种比较好的入局方式?
魏忠钰: 首先,我认可这个基本论断。对于初创公司来说,如果现在再去开发基础模型能力,一方面很难与已经建立技术基础或数据基础的公司竞争,另一方面也难以获得足够的资源来进行基础模型的开发。因此, 选择一些特定领域的应用, 可能是一个相对明智的方向。
在2023年下半年,我们课题组就开始推出一些领域大模型,主要面向医疗和社会媒体处理领域。我们的主要技术手段是针对特定领域构建高质量的微调训练样本,并将场景能力注入到基础大模型中,从而提升其在特定领域的能力。
在这个过程中,我们遇到了一些合作方的质疑。他们担心,随着底座大模型能力的快速提升,领域所需的特定能力,基础大模型可能很快就会具备,从而导致我们在领域中所做的工作变得徒劳。对此,我们也进行了深入思考。
我认为, 针对特定领域的专有化能力建构始终是必要的。
首先,数据是关键。许多专业化场景的数据都涉及隐私保护,无法在网络上或通用场景中轻易获取。 模型能力建构很大程度依赖于数据,如果这些数据无法被通用模型获取,那么拥有这些数据的领域从业者就具备了独特的优势。
其次,现实生活中的知识并不都存在于非结构化的文本序列中。它们可能是一些服务流程或指南,仅从文字上理解可能不够深入。因此,我们需要通过场景搭建、场景优化以及高质量数据的合成,才能构建出专业能力。对于特定领域来说, 专家的积累和特定场景的经验也是一种护城河。

春节期间,DeepSeek的进展对全球人工智能产业界产生了不小的冲击和启发。从您的角度来看,DeepSeek做对了什么?他们的这次发布有什么样的意义?
魏忠钰: 在ChatGPT提出之初,我们回溯了OpenAI在2022年发布的介绍InstructGPT*的文章。这篇文章揭示了ChatGPT的训练包含的三个步骤:预训练、指令微调以及人类反馈的强化学习(RLHF)。然而,在2023年和2024年,许多研究(包括我们自己的尝试)都开始质疑,强化学习的训练方式是否真的对模型能力有实质性的提升,或者说,有不可替代的作用
在开源社区,关于强化学习在大模型能力提升方面的探索,很多也都回到了对数据样本的学习上,而不是行为模式的学习上。这种基于样本的学习,或者说基于专家提供的序列的学习,被称为模仿学习(Imitation Learning)。模仿学习的特点是,模型只能学习数据中已有的模式。但只是依赖模仿学习,和现有的指令微调训练实际上没有本质的区别。那怎样才能充分发挥强化学习作为行为主义的优势呢?
核心是要 让模型进行更多探索,寻找数据中原本不存在的模式,并在训练过程中评估这些探索的结果是好是坏。 在DeepSeek R1的技术报告中**,我们看到他们成功地大规模应用了强化学习的训练方法来提升语言模型在复杂问题求解方面的能力,并取得了显著效果。
强化学习的训练方式让模型自己生成了一些样本,而不是仅仅依赖于已有的数据积累。通过这个探索过程,模型可以产生新的样本,并通过结果的好坏来评估这些样本的价值。这实际上是对现有数据的不同维度的一种扩充。
虽然类似的方法在学术界也有人尝试,但此前并没有如此规模化的成功先例。DeepSeek的实践证明了这种训练方式的可行性,并为整个社区提供了一个很好的示例。在DeepSeek之后,我们看到开源社区中已经出现了许多复现版本。可以预见,在未来几个月内,会有更多成功的复现已经推广的出现。
总的来说, DeepSeek的这次发布是在公开信息中,首 次对使用大规模强化学习训练语言模型的一次成功示例 ,在语言模型的发展历程中有里程碑的意义。
这是不是我们现在所说的“端到端”训练?
魏忠钰: 其实,“端到端”这个概念在神经网络学习时代就已经存在了。DeepSeek的这种训练方式更侧重于在多步决策的情况下,仅依靠最后一步的结果来完成整个长程模型的训练。这种方式不仅简化了训练流程,还提高了模型的探索能力和适应性。

您认为现在大家讨论的强化学习、推理等技术,与人工智能的理性和人类意识之间有什么关系?或者说,到什么状态可以认为AI是有意识的?
魏忠钰: 这个问题非常有意思,也是我们一直以来非常关注的问题。网上流传着一种说法,称ChatGPT的核心团队成员之一、首席科学家伊尔亚曾表示,语言模型可能会有意识。但如果我们回溯他发表这一观点的时间点,会发现这甚至是在ChatGPT发布之前。因此,可以推测,伊尔亚说这句话时,可能是在训练ChatGPT的过程中,发现语言模型的能力有了显著提升,那一刻给他带来了震撼。
然而,即使是从现在的角度来看,像GPT-4这样的模型,虽然表现非常强大,但大多数人仍然不会认为它具有意识。我自己也持相同观点。尽管语言模型的能力非常强,但它距离有意识或所谓的通用人工智能(AGI)仍然有一段距离。
关于“意识”这一概念,我曾与复旦大学的哲学学院老师进行过交流。从他们的角度来看,意识的核心在于对自我的认知,以及拥有自主性的价值观或目标。如果回归到意识的最原始定义,那么当前的人工智能模型,无论是其训练初衷、训练过程,还是其表现,都离这一定义有很长的距离。
有用户在网上分享了他与AI的对话,他问AI是否认为自己已经超越了人类。AI回答说,“它很羡慕人类,因为它永远无法体会在大雨中狂奔的感觉,也无法闻到雨后泥土的芬芳”。您如何看待AI这种浪漫化的表达?它是否真正理解了中文语境中那些词语的浪漫意味?它是如何做到这一点的?
魏忠钰: 在回答这个问题之前,我想先探讨一下人类智能与机器智能之间的关系。人工智能这一概念最早于上世纪中叶提出,通常我们会提到1950年图灵发表的那篇著名文章*。他在文章中提出了一个问题:机器是否会思考?并设计了一种测试方法,即图灵测试,或者说模仿游戏(Imitation game)。在图灵测试中,机器需要表现得像人类一样,甚至在回答复杂计算问题时,会故意停顿几秒,以模仿人类的反应速度。
直到今天,我们在评价机器智能时,仍然习惯于使用类似的标准,即机器是否能够像人类一样表现,或者是否能够理解人类的情感。然而,我认为机器智能与人类智能可能是两条不同的轨道。如果我们接受这一前提,那么讨论机器是否能够理解人类社会的浪漫主义表达或诗意性表达,可能并不是一个核心问题。
我们更应该关注的是, 在希望机器智能发挥作用的场景下,它是否能够做得很好。 例如,如果我们希望机器智能在情绪抚慰方面发挥作用,有了这个可衡量的目标,我们就可以评估它是否能够满足我们对浪漫追求的需求。至于机器自身是否真正理解浪漫的定义,可能并不重要。
如果我们真的想打破砂锅问到底,去探讨机器智能的产生本源,是否与人类智能相同?或是说它是否具有意识或情感?在当前阶段,这可能是一个难以回答的问题。因为我们连人类大脑的结构、意识如何产生、情感如何形成都还没有研究清楚,更不用说机器的智能和情感是如何产生的了。

赫拉利这样的未来学家提出了一些假设,认为未来硅基智能可能会超越人类智能,甚至成为一种新的生命形态。您从严谨的科学角度,如何看待这样的预测和表达?
魏忠钰: 这类问题我也时常思考。但坦白说,这个问题超出了我现有的科学训练和知识储备。非要说的话,我认为这种可能性是存在的,毕竟 地球上的“霸主”已经更换过好几轮了。从很长的时间线来看,人类被取代的可能性也不小。
然而,站在当前的角度,我认为 智能技术的发展,应该以“为人类创造更大福祉”为目标。 我记得Hinton在去年的一个报告中提到,在生物学发展的历史上,从未出现过一种社会形态,是由低阶智能领导高阶智能的。因此,如果人工智能未来发展到远超人类智能的形态,对人类显然是不利的。这是我认同的一个前提。
基于此,我们在人工智能技术的发展过程中,确实需要对其安全性及其对社会的影响进行充分评估。在技术发展路径的选择上,应该优先考虑如何用技术创造更大的社会价值,而不是单纯追求智能的超越。
您的工作中有很多与医疗等领域相关,因为这些领域更容易为人类创造福祉。能否举两个例子,说明您正在做的工作如何与老百姓的日常生活相关联?
魏忠钰: 我们在社会医疗领域的工作,主要是将智能化手段引入医疗服务场景中。这些场景的服务对象既包括患者,也包括医生。中国的现状是人口基数大,医疗资源相对不足。通过将智能化手段引入医院等医疗机构,可以减轻医生的负担,同时提升患者的服务体验。
目前,我们与复旦附属眼耳鼻喉科医院合作,开发了一款智能导诊助手PIORS。由于眼耳鼻喉科医院是专科医院,科室设置非常复杂,患者往往难以快速找到对应的科室。这款导诊助手就可以帮助患者快速定位到能够提供服务的科室。
另一方面,我们也为医生提供服务。医生的工作压力非常大,除了为患者提供诊疗服务外,还需要承担科研、病程管理和病历记录等任务。我们通过智能化手段,帮助医生生成问诊总结的草稿、住院记录的草稿等,从而减轻他们的工作负担。
在大模型出现之前,这类需求虽然存在,但由于模型能力的限制,相关技术的研发和落地显得遥不可及。现在却是一个非常好的时间节点。基础模型的能力正在不断提升,即使当前产品的需求满足度尚未达到100%,未来仍有很大的提升空间。同时,产品设计、服务模式设计以及场景数据的积累都需要时间推进。因此,场景智能化技术的探索应与基础模型能力的研究同步进行,这样才能更快、更好地将智能化技术带入实际应用场景。
我们是否可以预见,未来AI医生也能正式上岗?如果AI成为某种角色,如何界定其发挥作用的边界以及它需要承担的责任?
魏忠钰: 在重大决策场景中使用AI技术时,其伦理问题非常值得探讨,同时也需要制定相应的政策。就我个人而言,我并不支持抛开人类、完全依赖智能化的服务,尤其是在医疗场景中。现在有一个非常流行的词叫“情绪价值”。在就医过程中,除了获得专业的医疗建议外,从专业人士那里获得情绪价值是医疗服务中不可或缺的重要环节。如果我们将医疗服务完全从人类转移到机器上,那么这部分情绪价值的提供就会被削减,我们所获得的医疗服务也会大打折扣。
因此,我更看好的是智能化手段与人类医生的配合。这涉及到医疗资源不平衡的问题。在大城市,医疗资源集中,我们可以很容易找到高水平的医生专家,获得精准的医疗建议。但在一些偏远或经济欠发达地区,医疗从业人员的专业水平与大城市医生相比存在差距。在这种情况下,我们能否通过AI技术与人类医生的结合,提供高质量且具有温度的医疗服务,是一个值得探索的路径。
关于责任承担的问题,如果是人与机器协同工作,那么医疗责任可以由人类医生及其使用的工具共同分担。
现在的大模型已经非常擅长语言表达,甚至可以随时开启“夸夸模式”。您认为未来机器是否可以帮助医生分担一部分情绪价值,满足患者对情绪价值的更多需求?
魏忠钰: 在文字和语言方面,机器当然可以提供一定的情绪价值。然而,人与人之间的亲近感所蕴含的情绪价值,是机器无法提供的。因此,我仍然支持AI技术作为人类能力的延伸,辅助人类提供更好的服务,而不是完全取代人类。
在大模型训练过程中,可能会带入人类的偏见。我们如何规避这一问题?
魏忠钰: 大模型的偏见问题目前是学术社区广泛关注的课题。许多学术机构成立了伦理委员会,旨在评估相关研究和学术成果是否会加重智能技术的偏见,从而对社会产生负面影响。
从技术手段来看,价值对齐的模型训练是一些学者关注的方向。他们希望通过训练让语言模型对齐某些价值观,例如友爱、平权、减少歧视等。在训练过程中,可以使用符合主流价值观或目标价值观的数据对模型进行训练,以达到预期效果。
在模型应用过程中,可能需要对使用场景进行限定。例如,在招聘、司法等敏感场景中,应减少对模型输出结果的依赖,引入更多人类监督,从而缓解大模型偏见对社会不公带来的负面影响。

您作为人工智能产业界的学者,同时与医疗机构和许多产业界伙伴合作。您如何看待企业侧和学术侧在不同环境中进行人工智能研究的优劣势?如何调配资源以推动研究进程?
魏忠钰: 在ChatGPT发布后,学术社区曾引发过广泛讨论,甚至有人开玩笑说“自然语言处理已经不存在了”,后来类似的表述也出现在计算机视觉等领域。这种说法虽然带有调侃成分,但也反映了一个真实的现象:在这一波人工智能前沿探索中,高校团队由于资源(如算力和数据)的不足,能够做出的贡献和影响力正在逐渐减少。
在这种背景下,学术团队,特别是从事相关研究方向的团队,如何找到自己的价值并做好定位,是我们一直在思考的问题。对此,我的答案是两个方面:
第一,高校学术机构除了学术创新外,他一个重要职责是人才培养。
人才培养的目标是让学生具备逻辑思考能力、严谨分析能力以及对前沿技术的掌握。这些目标可以通过一些资源依赖较小的项目来实现。高校学术团队的重要责任是为产业界和未来的学术社区培养更多训练有素的科研人才。这一责任不会因科技前沿的变化而受到太大影响,只不过人才培养可能会变成高校与企业界共同合作完成的任务。例如,学生的基础学术素养可以在高校科研团队中培养,而产业界落地能力和科技创新能力的培养,则可以在博士生中后期通过与企业的联合推动来实现。
第二,高校学术团队仍需而且也仍然会承担学术前沿探索和科技创新探索的责任。
在当前背景下,我们面临的困境是如何保持定力。当产业界和社会的关注点不断变化时,学术团队需要坚持对某些学术方向的判断。例如,在以人类反馈作为模型训练指标的范式出现之前,强化学习领域的学者坐了很长时间的“冷板凳”。即使在ChatGPT发布后,强化学习的作用也并未立即凸显,直到DeepSeek-R1的出现,才真正证明了强化学习的价值。那些在过去几年坚持强化学习前沿技术和理论探索的学者,他们的坚持非常重要。从更长线来说,持续探索强化学习理论的学者也居功至伟。

▷ 3月5日,美国计算机协会(ACM)宣布,Andrew G. Barto(左)和Richard S. Sutton(右)因开发强化学习的概念与算法基础,荣获 2024 年 ACM A.M. 图灵奖。Andrew G. Barto,马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授。 Richard S. Sutton,阿尔伯塔大学计算机科学教授、Keen Technologies 公司研究科学家及Amii研究员。图源: quantamag
对于大语言模型或自然语言处理领域的学者来说,由于我们所关注的前沿技术已经进入产业阶段,如何调整学术和科研重心是当前需要做出的判断。在做出判断后,我们还需要进行长期的理论积累,以迎接下一波技术浪潮。
当然,也有许多学术从业者选择在当前阶段拥抱科技创新大潮,这也是一个可行的选择。
对于神经科学领域的从业者,您有什么建议?
魏忠钰: 在我看来,我非常羡慕现在从事神经科学或脑科学研究的学者,因为相关的研究条件正在不断成熟。 在不久的将来,科技创新的前沿阵地或者叫活跃区域会转移到他们的领域,届时他们将迎来属于自己的爆发时刻。 因此,如果我现在是神经科学或脑科学领域的学者,我会告诉自己,要专注于定位场景中的真问题,找到那些能够发挥实质性作用的关键点,并不遗余力地去突破它们。无论是大语言模型领域还是强化学习领域,都有许多成功的先例可以借鉴。
您认为在这个过程中,人工智能会参与到神经科学的进程中吗?还是说神经科学的学者们需要主动去拥抱人工智能?
魏忠钰: 我认为人工智能的发展高潮尚未结束,未来一段时间内,它在其他领域的成果会逐渐显现。因此,在神经科学和脑科学领域,人工智能也必将产生实质性的影响。关注人工智能相关技术对下一步的发展至关重要。
一个好消息是,随着开源社区的兴起,大语言模型和多模态模型的技术门槛正在降低。这为非相关领域的从业者使用人工智能技术提供了便利,大大减少了入门所需的时间和精力投入。此外,随着国家推动的人工智能教育和人才培养政策的落地,神经科学和脑科学的年轻从业者在学习和培训过程中,人工智能已经成为其中的一个重要环节。因此,未来进入神经科学和脑科学领域的学者,很可能已经具备了AI技能。
监制:陈天桥 雒芊芊 | 策划:杨扬
采访:韩云芸 | 统筹:邴立东
导演:郑明键 | 内容策划: 范存源 郑明键 | 编辑:范存源
声音制作:章江南 | 后期剪辑:任樱超 郑明键 吕子豪
摄影指导:陈光 | 摄影助理:王志茂 宝龙 | 灯光助理:蒲均
出品:天桥脑科学研究院、追问nextquestion、大圆镜工作室




关于追问nextquestion
天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或后台留言“社群”即可加入社群与我们互动。
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了加州理工天桥神经科学研究院。
Chen Institute建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括 学术会议和交流 、 夏校培训 、 AI驱动科学大奖 、科研型临床医生奖励计划、 特殊病例社区 、 中文媒体追问 等。