NextQuestion

视觉与意识，这两个主题构成了人类理解自身与世界的关键。视觉不仅仅是眼睛与大脑之间的信息传递，而是一个复杂的神经过程，涉及从视网膜到视觉皮层的多层次处理。基于这些丰富的数据输入，大脑为我们构建出一个连贯且动态的世界表征模型。这一模型不仅帮助我们感知外界，还直接塑造了我们的意识体验。

视觉系统作为人类感知外界环境的重要途径，其背后的神经通路与信息处理机制究竟是怎样的？我们如何能够迅速且准确地识别他人的面部特征？我们又是如何基于感官输入，构建出周围世界的结构化模型，以实现对环境的有效理解与交互？更为根本的是，我们所体验到的有意识的主观经验，其神经基础与哲学本质究竟是什么？

为了深入探究这些兼具科学意义与哲学深度的核心问题，约翰斯・霍普金斯大学霍姆伍德自然哲学教授 肖恩·卡罗尔（Sean Carroll） 邀请加州大学伯克利分校分子与细胞生物学教授 曹颖（Doris Tsao） 展开了一场深刻的对谈。两位专家将围绕视觉与意识的交汇点，探讨大脑如何构建世界表征模型，以及意识的神经基础与哲学本质，为我们揭示大脑奥秘提供新的视角与洞见。

肖恩·卡罗尔

Sean Carroll

约翰斯・霍普金斯大学霍姆伍德自然哲学教授，圣塔菲研究所分形学院成员

他从事物理学和哲学研究，并对世界最底层的运行机制感兴趣。目前的研究兴趣包括量子力学、时空、统计力学、复杂性和宇宙学等领域的基础问题。著有《寻找希格斯粒子》、《大图景：论生命的起源、意义和宇宙本身》等。同时，也是播客“心智图景”（Mindscape）主理人。

曹颖

Doris Tsao

加州大学伯克利分校分子与细胞生物学教授，海伦·威尔斯神经科学研究所成员

她专注于视觉系统和面部识别的神经机制研究，揭示了大脑面孔网络系统的编码原理，为理解大脑视觉信息处理机制提供了重要理论基础。曾获得了众多荣誉，包括麦克阿瑟天才奖、埃彭多夫国际神经生物学奖、NIH院长先锋奖、米涅瓦金脑奖、珀尔神经科学奖、卡夫利神经科学奖等，并于2020年当选为美国国家科学院院士。

目录：

01 视觉研究的尤里卡时刻

02 视觉错觉与神经通路之谜

03 意识机制理论的神经维度

04 结构演化与意识离散问题

05 人脑面孔识别的神经密码

06 前沿实验技术与神经解码

07 物体恒常性与贝叶斯大脑

08 意识的终极难题

视觉研究的尤里卡时刻

肖恩·卡罗尔： 许多人熟悉相机和像素的概念，容易认为视觉系统与之类似——通过检测像素并解读来“看到”的世界。但视觉系统远比这复杂，我们并非直接检测像素。那么， 人类的视觉系统究竟如何工作？

曹颖： 眼睛基本上就像一台相机，光线穿过晶状体，落在光感受器上，然后光感受器产生的所有信号通过视神经传输到视觉皮层。视觉皮层是一套令人难以置信的精密机器。在猴子的大脑中，它可能占据了大约三分之一的体积，是一个庞大的系统。在这个视觉皮层内，有数十个不同的区域，各自专门负责处理视觉世界的不同方面。它就像一个巨大的工厂，将像素转化为你对空间中物体的感知。

在我们对视觉皮层的理解中，第一个重大突破，也就是ureka时刻（顿悟时刻），来自休伯尔（Hubel）和威塞尔（Wiesel）。他们当时是著名神经生理学家斯蒂芬·库夫勒（Stephen Kuffler）的博士后。库夫勒当时正在记录视网膜神经节细胞（retinal ganglion cells，RGC）的活动，这些位于视网膜的细胞具有“中心-周边”（center-surround）的特性。“中心-周围”表现为细胞偏好点状光，而对非常弥散的光图案没有反应，因为感受野的中心区域受到周边区域的抑制（中心-周边拮抗机制），这意味着 在视觉的视网膜早期阶段就已开始减少信息冗余了 。休伯尔和威塞尔决定顺着解剖结构去探究这些RGC细胞在大脑中延伸到哪里。

首先是外侧膝状体核，此处细胞的反应类似RGC细胞也表现出“中心-周边”的特性。进一步，深入到初级视觉皮层，他们发现了一个全新的世界。这些细胞突然对点状光完全没有反应了，而是需要来自边缘的光刺激，并且不同的细胞会对视野中不同位置的边缘产生反应（即“边缘检测”）。视觉信息的表征方式发生了如此巨大的转变，这就像一道闪电。突然间，我们意识到有这样一个机制在实际转换像素信息，那么在边缘检测之后会发生什么呢？这一发现开创了整个研究领域，我很幸运能够成为其中一员。

▷ 黑色为光线照射区域，竖条是细胞发放的频率，光线只照射感受野中心（center）的时候细胞发放频率最高，照射整个感受野的周边（surround）时候发放频率却降低了（上图）。当明暗的边缘正好在感受野的“中心-周边”边缘时，细胞电位发放或急剧降低，或急剧升高。即这种机制可以让视觉细胞对边缘敏感。将边缘信息提取出来交给高级皮层处理。图源：Neuroscience Exploring the Brain，知乎。

肖恩·卡罗尔： 这让人联想到深度学习网络，不同的层级承担着不同的任务。

曹颖： 关于这一点存在一些争议，但我认为神经科学家们坚信，深度神经网络的灵感来源于休伯尔和威塞尔对视觉皮层的发现。

肖恩·卡罗尔： 我很乐意把这份功劳归给他们。你刚才提到了一个很有启发性的观点，视觉皮层占据了猴子大脑的三分之一。我猜它在人类大脑中所占比例不到三分之一吧。

曹颖： 我不想随意地给出具体数字，但如果你问人类大脑中有多大比例的区域会对视觉刺激产生反应， 答案是几乎整个大脑。 我的同事杰克·艾伦（Jack Allen）让人们躺在功能磁共振成像（fMRI）扫描仪中，给他们播放电影，结果整个大脑都活跃起来了。当然，其中很多反应是多模态的，它也会对文本、音频等做出反应，但视觉刺激绝对是触发了广泛的大脑活动。因此，我认为广义上的视觉皮层涵盖了很大一部分区域。

视觉错觉与神经通路之谜

肖恩·卡罗尔： 某些神经元（不限于初级神经元），不仅会对像素有反应，还会对线、运动等做出反应，这是否有助于解释视觉错觉？或者， 当相应的神经元被激活，我们是否就能因此填补某些缺失信息？

曹颖： 没错。一些特殊神经元确实可以用于解释视觉错觉。有一个非常有趣的错觉叫反转φ现象（reverse phi），通过正确设置图片对比度，就可以让一辆自行车看起来像是在持续运动。这可以用大脑中运动处理区域的方向选择性细胞的特性完美解释。所以，是的，神经元的特性有助于解释视觉错觉。

▷ 反转φ现象，你是否感觉图在连续地转动？事实上这张gif是几帧连续的正片紧接几帧连续的负片，用前景背景的切换欺骗视觉系统对运动信号的处理。来源: Akiyoshi Kitaoka 2020

肖恩·卡罗尔： 我们的大脑是为了识别我们日常所见的事物而演化的。因此，如果你给它展示一些不常见的事物，就可以欺骗它。

曹颖： 没错。我所在的实验室在面孔处理方面做了很多研究，我最喜欢的视觉错觉之一，叫做撒切尔错觉（Thatcher illusion）。绘制这样一张面孔，其中所有面部特征包括眼睛、鼻子和嘴巴都倒过来，但保持面部轮廓朝上。可以想象，这样看起来会多么怪异。然后，再把这张怪异的脸上下颠倒过来，突然间，你就不会觉得那么奇怪了，它看起来又像一张正常的脸。

我喜欢这个错觉现象的原因是，当你把脸颠倒过来时，实际上是在诱导你大脑中处理面孔的区域出现“损伤”，因为这些区域本来不是用来处理颠倒面孔的，所以它们会罢工——这样你就能体验大脑受损的感觉，你觉得自己什么都看到了，并不觉得缺少了什么。这让我感到安心，当我失去理智时，至少我并不自知。

▷ 撒切尔错觉。图源： Discover Magazine

肖恩·卡罗尔： 研究宇宙起源的物理学家面对的是个相对客观的研究领域，而你在研究大脑和视觉时，却也同时拥有大脑和视觉。这种双重身份是否让你在某一刻突然意识到：“原来这就是我的大脑正在做的事情啊。”

曹颖： 每次都会有这种感觉。这是作为一名视觉科学家最美妙的事情之一。你 睁开眼睛，就能看到你试图解释的奇迹， 从某种意义上说，我们每个人都是视觉方面的专家。

肖恩·卡罗尔： 我们所说的视觉皮层是有细分区域的，比如 V1、V2和V3，这些不同区域分别发挥着什么作用？

曹颖： 我很惊讶你居然听说过V3，因为关于它的研究论文大概只有五篇。视觉相关脑区确实有很多不同的区域，但实际上我们对它们了解并不多。其中一个原因是，从事视觉神经科学研究的人并不多，而且大家的研究方向比较集中。很多实验室在研究V1，所以大家都关注V1。至于这些不同区域的功能，我们目前只有一些大致的概念。比如V1负责早期的边缘处理，然后信息会传递到中间阶段，可能会进行图像分割，也就是识别不同物体的边界，确定物体的表面属性和纹理，之后处理过程会继续向前推进。

视觉处理中有一个非常重要的原则，即存在两条视觉处理通路，分别是背侧通路和腹侧通路，它们承担着不同的功能。 腹侧通路专注于物体识别，比如认出那是一只豹子，或者这是我的妈妈。而背侧通路则主要连接到运动皮层，它参与感知物体的空间位置和三维形状，这样我们就能以正确的方式抓取物体。大脑将这两种功能分开，这一点非常有趣。

▷ 红色：腹侧通路，蓝色：背侧通路。来源: Principles of Neuralscience

肖恩·卡罗尔： 我很好奇，大脑是如何知道要将这两种不同功能分开的呢？你提到背侧通路和腹侧通路，这是否是“字面意义”的大脑中信息传递通路？

曹颖： 是的，存在两条不同的通路。我们之所以知道存在这种功能分工，是因为当人们大脑出现损伤时，会出现选择性的功能障碍。例如，有些人可能无法识别物体，但抓取物体的能力不受影响；而另一些人则可能无法抓取物体，但可以准确地识别它们。这表明这两条通路在物理上是分开的，并且承担着不同的任务。

肖恩·卡罗尔： 这非常有趣。实际上我本来没打算过多谈论意识问题，但这确实强化了一种观点，即 大脑的各个部分都在执行非常专门化的任务，而我们所说的意识，某种程度上是由所有这些不同部分协同工作组合而成的。

曹颖： 是的，没错。这是一个巨大的谜题。我记得在研究生时期，我的一位同学指出了这个谜团，到现在它仍然困扰着我。他指出，当你看边缘时，边缘是非常清晰、精细的。大脑中唯一的初级视觉皮层（V1）神经元，具有足够高的分辨率来表征这条边缘。然而，你却能意识到这条边缘的存在。这怎么可能呢？这是否意味着V1是有意识的？如果是，是什么让它产生了意识呢？因为根据我们对V1的理解，我得说，V1的处理过程看起来相当普通，就像一个边缘检测器，在我的实验室编程就可以实现这一过程。那么，是什么赋予了它意识呢？这是一个很大的谜团。

意识机制理论的神经维度

肖恩·卡罗尔： 这让我想起了一种现象，它不完全算是视觉错觉。比如当我们看到模糊的图片时，人们会问，“你在云朵里看到了什么？是长颈鹿、脸还是其他？”他们说的东西，无论是什么，我往往最终也能看到。就像它进入了我的大脑，而我似乎无法摆脱这种暗示。

曹颖： 确实如此。有一种关于意识的机制理论，我认为它并不能解释意识的奥秘——到目前为止，我还没有遇到过任何一种理论能够真正解释意识的奥秘——有人称之为 预测加工理论或生成模型理论。 其基本观点是，我们所意识到的一切都是由大脑生成的。外界信息进入大脑并接受处理，为意识内容的生成提供了输入。但实际上，我们有意识地感知到的是一种自上而下的过程，这个过程实际上是大脑重新构建了我们对世界的认知。

我认为这个理论非常美妙。原因有很多，其中一个特别的原因是，它解释了为什么我们的意识感知在不同层次的表征中总是保持一致。比如，当你给我展示空间-花瓶错觉（space-vase illusion）时，你可以把图形看成是两张侧脸，也可以看成是一个花瓶。当你把它看成是一个花瓶时，不仅高层次的认知告诉你这是一个花瓶，而且所有的细节也都符合花瓶的特征。观察花瓶边缘的局部，都是属于花瓶而非脸的一部分。从几十年的神经生理学研究中我们知道，这些细节信息是在与编码物体身份不同的脑区进行编码的。

那么，这种同步性是如何实现的呢？而且当你将其视为花瓶时，两边的边缘总是保持一致的。你永远不会看到一边是侧脸，另一边是花瓶，因为这不符合逻辑。这又是怎么做到的呢？因为编码边缘所属关系的V2区域中，编码脸左侧边缘的神经元并不会直接与编码右侧边缘的神经元进行交流。那么，它们是如何总是保持一致的？这需要一个解释。而预测编码理论（predictive coding theory）正好优雅地解释了这一点。 它认为，意识是通过自上而下的反馈生成的， 这就很好地解释了这个现象。因为大脑“知道”这是一个花瓶，所以它“生成”了这两个边缘，它们必须保持一致。

▷ 空间-花瓶错觉。图源：Wikipedia

肖恩·卡罗尔： 有道理。你的意思是， 我们的大脑并非逐像素地存储图像，而是拥有一个关于世界的概念模型。 当我们看到某样东西时，大脑会将其与已有的概念框架相匹配，并按照这个框架来理解和解释信息。只有当新的信息出现，且与现有框架不符时，我们才会被迫调整或改变认知。是这样吗？

曹颖： 是的，完全正确。我还有一种想法—— 大脑就像是一个视频游戏引擎。 存在一个它必须去认知的现实空间，我们的感知就存在于这个空间里。 所有的输入信息是在调节参数旋钮，然后就“生成”出现实。

肖恩·卡罗尔： 具体地还有一点需要提及，那就是信息并不是单向传递的,并不是说我们眼睛看到光子，它们传到V1区，再传到V2区，然后在其他地方构建出现实认知。实际上大脑中同时存在着反馈和前馈机制。

曹颖： 是的， 大脑中有大量的反馈连接 。几乎在每个区域都有。好像只有从下颞叶皮层到纹状体的连接是单向的——只从IT皮层传到纹状体。但除此之外，大脑中几乎每一个连接都是双向的。

肖恩·卡罗尔： 如果我们简单把V1区的作用看作是检测明暗和形状等信息，那么它是如何受到大脑其他部分影响的呢？它似乎有自己的任务，应该只专注于此才对。

曹颖： 预测加工模型的观点是， 这就像一整排多米诺骨牌。 比如你觉得自己在云朵中看到了一张脸，这会使V2区倾向于生成相应的边缘信息，然后这些信息会反馈回V1区，V2区会告诉V1区，比如“这里应该更暗一点，因为这是眼睛的位置”，V1区就会据此填补信息。 我们实验室在过去五年里一直在寻找支持预测加工生成反馈假设的证据，但得这么说，目前还没有定论，仍待进一步研究。

结构演化与意识离散问题

肖恩·卡罗尔： 在演化史上，下颞叶皮层比视觉皮层更晚出现吗？ 听起来它的功能更高级。

曹颖： 是的，这是个很有趣的问题。正是因为对这个演化问题感兴趣，我们进行了一项对树鼩的研究。树鼩是一种原产于印度尼西亚的动物，它们是与灵长类关系最近的非灵长类动物之一，并且拥有非常出色的视觉系统。很多实验室研究老鼠的视觉，但老鼠的视力很差，它们大脑中负责视觉的部分只占很小的比例。而树鼩有很大的眼睛，视力很好，视觉敏锐度高。

我们对“树鼩是否也有下颞叶皮层”这个问题很感兴趣。结果非常令人惊讶，树鼩的V2 区，似乎承担了很多下颞叶皮层的功能，甚至发现了对面孔有反应的细胞。所以， 思考下颞叶皮层功能的演化过程很有意思。我们认为它最初的层级结构比较简单，后来逐渐变得复杂。

肖恩·卡罗尔： 也许树鼩最初没有下颞叶皮层，但随着时间推移，功能逐渐分化。那些更擅长这些功能的树鼩会成为更强的生存者。

假设有人在运球，篮球撞击地面的声音传到你耳朵的时间，实际上比画面被看到所需的时间要长。显然，光的传播速度比声音快，但你的大脑会把两者匹配起来，让你感觉它们是同时发生的。除非运球的人离你很远，这种匹配不再合理，这时你才会突然意识到两者是不同步的。你如何看待这种现象？

曹颖： 是的，听起来很合理。我认为这也支持了预测编码的观点。我们所看到的东西是大脑生成的，我们接收到各种信号，这些信号在时间上是不匹配的。但大脑通过推理将它们整合起来。回到意识这个话题，我们认为，把所有这些信息整合起来并构建出我们有意识看到的东西的这个推断过程，是分开发生的。

实际上，尽管意识感觉上是连续的，但我们认为其发生是离散的。在这些离散的时间点之间，大脑在进行各种信息测量。 这让我们对时间感知有一个非常有趣的视角：它是被构建出来的，而不是信号抵达时你就立刻感知到事件的发生。 刚刚提到的例子对此的阐释确实很精彩。

▷ 图源： -Simon Brader

肖恩·卡罗尔： 我知道大脑构建图像是需要时间的，这会导致延迟。但你刚刚说的内容非常有趣，我之前没听说过，你说 我们对时间的感知就像电影胶片一样，是由一系列离散的帧组成的，这些帧之间有一些细微的差别。 因为帧的数量很多，所以我们感觉时间是连续的，但 实际上我们有意识的不同时刻之间是存在离散性的。

曹颖： 是的，没错。是离散的帧。而且我要说的比这更激进，这些离散的帧不像电影胶片那样是连续的，中间还穿插着一些我们无意识的时间段，然后又会再次进入有意识的状态，就好像这些画面中间有一些片段是被“剪掉”了。胶片仍在播放，但因为你在某些时间段是无意识的，所以你甚至都没有意识到在这些无意识的时间段里发生了什么——所以 你所意识到的只是那些你有意识的帧。 我们认为实际情况就是这样。

再回到视觉错觉的话题。你知道车轮错觉（wagon wheel illusion）吗？如果你在一个圆盘上，以不同半径绘制不同频率的黑白图案，当你旋转这个圆盘时，就会有一部分看起来像是在向后移动，这是因为混叠现象（aliasing）。如果你用胶片拍摄旋转的圆盘，也会出现部分看起来向后移动的情况。但实际上在现实生活中你也能看到这种现象。戴尔・普尔维斯（Dale Purvis）是一位对视觉感兴趣的发育神经科学家，他从在现实生活中能看到车轮错觉这一事实，得出了一个惊人的推断： 我们的意识是离散的 ，就像电影胶片是采样得到的一样。

▷ 车轮错觉。图源：etherealcreation

肖恩·卡罗尔： 这实际上是一个基于经验的证据。我们的意识会中断多长时间？在两个连续的意识感知瞬间之间，存在着什么？

曹颖： 我认为这取决于刺激的情况，比如刺激输入的速度。在我们研究的情况中，发现有 无意识的时间段可能长达几百毫秒。在这段时间里，神经元并没有表征你有意识看到的东西。

肖恩·卡罗尔： 竟然有这么长时间处于无意识状态。这个观点得到普遍认同了吗，还是说这只是前沿的推测？

曹颖： 我们还没有发表这方面的研究成果呢。

肖恩·卡罗尔： 我很期待看到后续的研究成果。现有的计算机似乎比我们美妙的大脑简单得多。作为一名坚定的物理主义者，我认为大脑是个机械系统。我可以想象未来我们能制造出一台完全具备大脑功能的计算机。但我们在设计计算机时，会让它尽可能直接、简单，而大脑是经过数百万年演化而来的，以各种有用的方式将不同的能力整合在一起。

曹颖： 作为一名实验神经科学家，我不得不说，大脑的组织精确得让我惊叹。

人脑面孔识别的神经密码

肖恩·卡罗尔： 那我们来谈谈大脑最令人印象深刻的能力之一——面孔识别。很明显 我们需要具备识别面孔的能力，那么 大脑中有特定的区域负责这个功能吗 ，还是说这个功能分布在不同的区域？

曹颖： 我们识别面孔的能力很可能是大脑众多功能中，与特定皮层区域关联最为明确的功能之一。 最早的证据来自于对脑部受损患者的研究，比如中风患者。他们可能突然就无法识别面孔了，但识别其他物体却没有问题。这就表明大脑中有一块专门用于表征面孔的皮层区域。

1997年，麻省理工学院的南希・坎维舍（Nancy Kanwisher）发表了一篇具有里程碑意义的论文，这篇论文是《神经科学杂志》上被引用次数最多的文章之一。她给正常人类受试者展示面孔和其他物体的图片，同时进行了磁共振成像（MRI）扫描。结果发现，所有受试者的右侧颞叶都有一个区域，对面孔的反应比其他物体强烈得多。这个区域只有蓝莓那么大，而且在每个受试者大脑中的位置都相同。当呈现面孔图片时，这个区域会产生很强的信号反应。这是大脑存在专门表征面孔皮层区域的有力证据。这个区域被称为梭状回面孔区（fusiform face area，FFA），位于颞叶的梭状回（fusiform gyrus）处。

我记得当初读到这篇论文时，很奇怪为什么大脑会有一块专门用于处理面孔的皮层区域？面孔看起来和其他物体并没有那么大的区别。那时我完全没想到自己会在这个领域深入研究这么多。

▷ 图源： Li Yang Ku (Gooly)

肖恩·卡罗尔： 梭状回面孔区内部是否也有细分结构，不同部分承担不同的功能呢？

曹颖： 是的，探究这个区域具体分工细节的过程非常精彩。我读研究生的时候，为了研究猴子的立体视觉，进行了一系列脑影像学实验。我给猴子展示面孔和其他物体，纯粹出于好奇它们是否也有面孔识别区域。结果发现猴子不仅有面孔识别区域，而且还有六个。

这太让人惊讶了，这六个区域分别有什么作用呢？因为研究对象是猴子，所以可以将电极插入每个区域，研究其中神经元的活动。实际上，这六个区域中的每一个似乎都执行着不同的功能。比如，最靠后的那个区域对眼睛的形状特别敏感。再往前一个区域，关注特定视角下的面孔。更靠前的区域对面孔的镜像对称表现出反应，比如左右侧脸或者向上、向下看的面孔。而最靠前的区域，有一些非常神奇的细胞，它们对面孔的反应不受视角影响，只要是同一张脸，无论朝向如何，都会产生反应。这种功能分工非常显著。

肖恩·卡罗尔： 所以我的大脑中有一部分专门负责注意眼睛。

曹颖： 还有其他面部特征，但眼睛非常突出，所以在面孔区域中大约70%的细胞都会对眼睛的大小产生反应。你甚至可以展示一张简单的卡通脸，改变眼睛部分的图案，这些细胞的反应就会越来越强烈。

肖恩·卡罗尔： 你给猴子展示的是猴子的脸还是人类的脸，这有区别吗？

曹颖： 实际上是有区别的，但它们用相同的编码原则来处理所有不同的面孔，它们甚至对卡通脸和看起来像脸形状的云彩也会有反应。

肖恩·卡罗尔： 那么，这是否解释了为什么简单几笔线条勾勒的卡通脸如此富有表现力？是不是因为我们的大脑已经被“训练”得能够注意到这些细微的差别？而且这部分大脑区域可能与大脑中情绪化或与情感相关的区域存在某种联系。

曹颖： 是的，不过相比对面部表情的表征，我们对面孔同一性的表征了解得更多。但确实，我们有专门的机制来感知面孔的不同维度。要绘制出非常逼真的面孔，至少需要50到200个维度的信息，而我们能够同时感知所有这些维度。这真的很了不起，要知道，颜色只有三个维度。你听说过切尔诺夫脸（Chernoff faces）吗？这是一种可视化多维数据集的方法，将数据映射到脸上，这样就能看出有哪些维度在变化。

人类大脑中的梭状回面孔区，在猴子大脑中也有对应的同源区域。猴子的梭状回面孔区属于腹侧视觉皮层，是高级视觉皮层的一部分，在 V1、V2区域之后。对这些不同面孔斑块（patch）的记录研究，从2000年前后开始，论文最终在2010年发表。

▷ 切尔诺夫脸，以人脸形状展示多元数据。各个部分，如眼睛、耳朵、嘴巴和鼻子，通过形状、大小、位置和方向来表示变量的值。使用人脸背后的理念是，人类容易识别面孔，并且能够轻松地注意到细微的变化。图为一种2017美国切尔诺夫脸，其中眉毛越矮越细，失业率越低，眼睛大小与教育水平相关，眼袋的大小告诉我们有多少成年人每晚至少睡七小时，下巴越大，肥胖率越高等。来源: Lazaro Gamio: The Emoji States of America

肖恩·卡罗尔： 梭状回面孔区的主要功能，是识别身份，还是识别表情（如微笑或皱眉）？

曹颖： 我认为它主要不是处理情绪本身，而是处理面孔的物理特征 ，比如两眼间距是多少、纹理如何、脸型是什么样的。它还没有达到明确识别身份的阶段，我们认为这一步在后续的处理中完成。

前沿实验技术与神经解码

肖恩·卡罗尔： 现阶段我们是否已经能够研究单个神经元的任务，还是说这仍然是一个技术挑战？

曹颖： 我们所有的记录都是针对单个神经元的。我们使用非常细的电极，这些电极除了尖端之外都是绝缘的，尖端宽度只有10微米。目前，我们可以同时采集数百个单个神经元的电活动，以此探究单个神经元的选择性。

肖恩·卡罗尔： 你提到了功能性磁共振成像（fMRI），现在又提到了电极，这是两种截然不同的研究方法，对吧？

曹颖： 没错。人们常说fMRI测量的是大脑的“管道系统”——检测血液流经区域。 当大脑的某个部分工作时，会有更多血液流向该区域，这是一种体内稳态机制。 所以，fMRI检测的结果比较粗略，能够在一立方毫米的尺度上测量神经活动，而这一立方毫米内包含大约10万到100万个神经元。

而当我们确定了识别面孔、颜色的脑区，我们就想进一步了解神经元究竟是如何表征面孔的。而毫米级像素大小的研究，无法弄清楚这些细节，我们需要单个神经元层级的实验技术。为了获取这些详细信息，我们会插入电极来采集神经活动。我们现在使用一种叫做Neuropixels探针的设备，它就像是让你能观看大脑“电视节目”的工具。这种探针有4000个触点，采用了硅制造技术。利用这些硅探针，我们可以同时记录数百个神经元的活动，这真的非常令人兴奋。

肖恩·卡罗尔： 我们能不能反过来，通过观察神经元的活动，自己推断出正在观察的是什么东西呢？

曹颖： 可以。许多实验室都致力于通过解码神经活动来复原人们眼前的事物，探究外界发生了什么。我们的面孔区域研究就做到了这一点，仅通过200个神经元的神经活动，就能精确重建猴子正在观看的面孔，重建出的图像与真实刺激几乎难以分辨，这是一项非常令人满意的成果。

▷ 图源： Fausto Montanari

肖恩·卡罗尔： 如果我们能把探针植入人类大脑，这项技术在脑机接口领域应该有更大的应用前景吧？

曹颖： 即便我是一个彻底的物理主义者，想到如果有人能探测我所有的神经元，就能知道我在想什么，还是会觉得有点诡异。但这就是我们研究的方向，所以我们必须学会应对。

有一种病症叫面孔失认症（prosopagnosia），患有这种病的人很难识别面孔，常见病因是脑损伤，但约有4%的面孔失认症患者并没有中风等脑部损伤，仅仅是在识别面孔方面表现得非常差。研究这些人的大脑活动会发现，他们的面孔区域存在选择性差、区域较小等问题。

肖恩·卡罗尔： 面孔失认症有改善的希望吗，还是说目前这仍充满挑战？

曹颖： 这很有意思。人类的面孔识别区域位于右半球，而左半球中对应的皮层区域负责识别字母。人类视觉系统具有显著的可塑性，但我觉得这种可塑性在大脑发育早期发挥作用。所以，我并不确定，也许通过某种训练有希望改善……

肖恩·卡罗尔： 面孔识别区从演化角度很容易理解，但视觉词形区（专门识别文字的区域）让人困惑：在人类发明文字之前，这个脑区承担什么功能？

曹颖： 我们认为，它之前可能也是负责识别面孔的。比如猴子，它们的面孔识别区域在两侧大脑半球都有，分布非常对称。出乎意料的是，不识字的人没有字母识别能力，他们的面孔识别区域也是双侧对称的。

肖恩·卡罗尔： 所以很明显，大脑把原本用于识别面孔的部分区域重新利用，来帮助识别字母。这意味着，谁也不知道大脑还会有哪些区域被重新分工。那么，识字的人在识别面孔方面会比不识字的人更差吗？

曹颖： 我不确定，但从逻辑上看似乎是这样。应该有人去验证一下。

肖恩·卡罗尔： 从某种意义上说，我们可以基于视觉研究的成果，尝试理解大脑中的抽象思维，或者符号思维的起源。

曹颖： 我在研究抽象思维起源这个问题时，采用的方法与面孔研究完全不同，抽象思维相关研究关注的是背侧通路，而面孔识别是腹侧通路的功能。一开始我就提到，背侧通路是行动的基础。那么我们如何在世界中感知行动呢？

我们需要一种压缩的、符号化表征，例如基于事件的理解方式。我们要清楚识别周围的物体及其可能用途，比如，我现在要去拿起那根香蕉。所以，在我看来，理解符号思维，关键在于解决物体分割和追踪这个非常具体的问题。

我们的眼睛接收到的是一堆“像素”，问题在于如何将其转化为一个个持续存在的“物体”。有了物体的概念，才能贴上标签、建立联系，进而思考它们；而如果没有形成物体的概念，我们几乎无法思考任何事情，只能面对一堆混乱的感官信息。所以 我认为“转化”是关键一步，而我们目前对此还完全没有理解。 在我看来，大脑究竟如何从大量感官信息和特征中构建出一个个离散的物体概念，是一个亟待解决的问题。

▷ 图源： Fausto Montanari

物体恒常性与贝叶斯大脑

肖恩·卡罗尔： 你在最近发表的一篇论文中尝试解决之前提到的问题——我们如何知道相同的物体是同一个。如果一个物体暂时被障碍物挡住，然后又从另一边出现，我们大脑为何仍然将其视为连续存在的同一个物体。

曹颖： 对，比如我绕着你走，我知道你还是同一个人。怎么解决这个问题呢？计算机视觉领域的人可能会说，只要提供大量样本、大量训练数据，系统就能神奇地学会识别。但我们在论文里提出，并不需要任何训练/数据——这其实是一个非常优雅的数学问题，与曲面（surface）的定义密切相关。

曲面是由一系列相互重叠的坐标图（charts）组成的，这种重叠是关键。当我围绕着你走的时候，我计算着这些坐标图。由于移动或使用双眼立体视觉的原因，视角会发生变化，从而提供相互重叠的坐标图，这就表明它们属于同一个曲面。我不断这样做，就能围绕你形成一组坐标图的等价类，这里的等价关系就是重叠。因此，这是一个非常美妙的数学理论，解释了物体概念是如何形成的。

肖恩·卡罗尔： 所以，实际上， 大脑将不同视角的观察整合为单一物体的表征，是否比把每个视角都视为独立物体的效率更高？

曹颖： 完全正确。因为视觉信息变化非常大，因此 视觉系统的一个重要任务就是解决恒常性问题——确定哪些信息对应的是同一个物体。 每转动一下头，进入眼睛的像素信息就全变了，但我们得应对这种变化。

肖恩·卡罗尔： 从某种意义上说，这更像一个压缩问题。再大胆猜测一下，这和贝叶斯大脑假说（Bayesian Brain Hypothesis）有关系吗？

曹颖： 有很大关系。我们的理论要解决的数学问题是，如何判断一个视觉图像块的某个视图是另一个视图的变换结果？为此，我们引入了动态感受野（dynamic receptive fields）的概念。本质上， 大脑的测量过程就像是将图像块投影到感受野函数上，通过内积运算实现。 在此基础上，我们可以建立一个动态系统来变换感受野函数，以抵消图像的变化。

举个简单的例子，如果左眼看到的图像块比右眼看到的图像块偏移了10个像素，那么我把感受野函数也偏移10个像素，就能得到相同的测量结果。这就是我们的思路，引入感受野函数的动态变化，来补偿图像的变换。据我理解，这和贝叶斯推断的过程完全一致。在贝叶斯推断里，有一个自上而下的信号，试图预测感官信号。对于每一个传入的感官信号都是如此。

▷ 图源： Fausto Montanari

意识的终极难题

肖恩·卡罗尔： 这种理论是否能让我们更接近理解意识，也就是我们在更抽象层面构建世界概念的能力？

曹颖： 我希望如此。我觉得如果我们能搞清楚神经活动如何表征所看到的事物，那就离理解意识不远了。演化的目的是生存，基因并不关心我们是否有意识，它们只在乎我们的行为。所以在我看来，要么意识只是一个巧合，那些具有特定行为的大脑恰好也产生了意识；要么任何能够像我们一样复杂地感知世界、追踪移动物体、导航，具备我们所有行为能力的系统，都很可能是有意识的。你同意这种观点吗？

肖恩·卡罗尔： 我完全同意。不过，确实有很多人不同意，在意识研究领域，僵尸论证（zombie argument）很有影响力，它由大卫・查尔默斯（David Chalmers）推广开来，但其实更早之前就有人提出了。这个论证的核心观点是，想象存在一种生物，它的行为和我完全一样，但没有内在的意识体验，这种生物称为僵尸（zombie）。如果能够想象出这样的生物，那就意味着内在的意识体验不能简单地归结为神经元或身体里原子的行为——除了物理行为之外，一定还有其他因素决定意识。

但我的观点和你的想法差不多。僵尸和有意识的生物的行为模式完全一样，被问到“你有意识吗”，它会回答“是”；给它讲悲伤的故事，它会哭泣……那我们就应该把它看作是有意识的。作为一名物理主义者，我认为意识是一种涌现的、更高层次的概念，仅此而已，没存在更多神秘物质。

曹颖： 太好了，很高兴你同意我的观点。你写过一篇很有意思的文章，叫《为什么存在万物而非一无所有？》*。我很喜欢这篇文章。这篇文章的核心观点是不是物理学家无法解释这个问题？

https://www.preposterousuniverse.com/blog/2018/02/08/why-is-there-something-rather-than-nothing-2/

肖恩·卡罗尔： 实际上，我还可以更激进一点。我认为这甚至不是一个能回答的问题。不是说我们目前没有能力解答，而是像“为什么存在某物而非一无所有”这样的问题，根本就没有答案。不存在什么原因，我们以后也不可能发现宇宙存在的理由。

曹颖： 但我们能够弄清楚一组神经元需要怎样的配置才会产生意识，这是一个科学问题。但对我来说，意识本身似乎是既定存在的。你认同这种观点吗？

肖恩·卡罗尔： 我们需要先明确一下“既定存在”是什么意思。在我看来，意识当然是一种描述我们大脑活动以及宏观行为的方式。

曹颖： 意识就像物质的存在一样，是一种既定事实。你只能接受某些复杂系统就是有意识的，但不能提问为什么它有意识。 主观体验的存在和客观体验一样，都是你必须接受的事实。你可以研究如何改变意识，创造不同类型的意识，这些都是科学问题。但主观体验存在这个基本事实，就像物质存在一样，是你必须接受的。

肖恩·卡罗尔： 如果我从未听说过意识这个概念，假设我是奥利弗・萨克斯（Oliver Sacks）虚构的来自火星的人类学家，来到地球与人类互动。我会注意到，人类的反应和行为方式表明他们对不同事物有不同程度的反应。有时会忽略某些事物，有时又表现出一些心理状态，这些心理状态能帮助我解释他们的行为。即使我们之前不了解意识，也会发明出描述意识状态和行为的概念，我认为这是对人类这种极其复杂的涌现现象的一种有用描述。

我写过一篇论文，叫《意识与物理定律》*。但实际上，我对意识了解得并不多，我只知道，描述意识并不需要发明新的物理定律，因为我们对物理定律的理解比对意识的理解要深入得多。如果认为需要改变物理定律来帮助理解意识，这有点本末倒置了。

Carroll, Sean. “Consciousness and the Laws of Physics.” Journal of Consciousness Studies 28.9-10 (2021): 16-31.

曹颖： 意识有个很神秘的地方在于，作为物理学家、化学家和生物学家，我们从不同层面解释各种系统。我们可以从非常基础的层面解释，也可以从像光感受器、视觉皮层这些层面解释，不同层面的解释是相互一致的，而且在各自层面都能对系统进行完整的解释和预测，只是更高层面的解释更粗略一些。

但在我看来，意识的存在与这种观点相悖。比如，我们能意识到红色以及周围的物体，这似乎表明对物理系统存在一个“正确的”解释层面。不能仅仅把它看作是原子的随机运动，而必须从意识感知存在的层面去理解。

肖恩·卡罗尔： 我会认为这两个层面都很好，而且各自独立成立。如果我是拉普拉斯妖（Laplace’s demon），拥有神奇的能力，能理解我身体里每一个原子、电子和光子的完整状态，那么我想我可以成功预测我身体接下来的行为，或者在一段时间内的行为，而且整个过程都不需要用到“意识”这个词。同样，也不需要用到“熵”“温度”这些更高层面的词汇，我只需要描述原子的行为就可以了。

曹颖： 但你无法解释内在的意识。

肖恩·卡罗尔： 只列举一张桌子所有原子以及它们之间的相互作用，就能解释这是一张桌子吗？

曹颖： 可以。但说到大脑，情况就不一样了。大脑存在有意识的体验，而且这种体验似乎只存在于某个特定层面。

肖恩·卡罗尔： 没错。我的观点是，意识就像桌子一样，是一种在特定层面上描述事物的有用概念。这个层面和另一个不用这些概念、但同样能完整描述事物的层面是完全兼容的。我一直很乐意听取不同意见，所以我再换一种方式解释。这可能和“为什么存在万物而非一无所有”这个问题的讨论有关。

意识的难题被认为是超越大脑物理行为的问题。那些热衷于探讨意识难题的人会探讨“成为某种东西是什么样的体验”。这些拥有内在的第一人称主观体验的人声称，即使我知道了神经元的所有行为、它们之间的相互作用以及如何驱动身体运动，我仍然无法解释成为一只蝙蝠或一个人是什么样的体验。

而我的观点是，就像“为什么存在万物而非一无所有”这个问题一样，这个难题是无法解决的，但会随着我们对神经元及其行为的更深入理解而逐渐“消解”。我们会发现其实并没有什么额外的东西。当神经元进行特定活动时，我们就把这种状态称为大脑正在体验红色的“红”。

曹颖： 我完全同意。我觉得随着人工智能的发展和成熟，当它们也有意识时，我们就能创造出全新的认知，真正发现支配意识的规律。就像你说的，意识难题会完全消失，我们会发现，意识只是复杂系统的一种基本属性。

编译后记

阿瑶：大脑如何将纷繁的感官信息转化为对世界的连贯认知？从视觉皮层的层级加工到面孔识别的神经密码，从预测加工理论到意识离散性的前沿假说，这场对话中有一点始终使我印象深刻：大脑并非被动接收外界信息的容器，而是主动构建现实的“生成引擎”。视觉系统的研究尤为典型。这似乎是演化赋予人类的一项生存本能，使我们能够在混沌中提炼意义，在无序中获得秩序。

当然，意识的终极难题或许终将消解于对复杂系统的深入理解，但就目前而言，它对我们仍像一扇半开的门，既让我们触摸到神经活动与主观体验的关联，又提醒我们，人类对自身心智的认知，或许比对宇宙起源的追问更为艰深。毫无疑问，我们既是粒子与场的集合，又是意义与情感的载体。当我们追问大脑如何构建世界时，本质上就是在追问这样一个问题：我们何以成为我们。而这一追问，恐怕永无止境。

为了阅读体验，本文对听稿进行了适当地编辑。

原对话指路：

https://www.preposterousuniverse.com/podcast/2024/07/29/284-doris-tsao-on-how-the-brain-turns-vision-into-the-world/

万字追问：大脑如何剪辑视觉，让你不知何时跳帧？

关注追问媒体

Recomend

万字追问：大脑如何剪辑视觉，让你不知何时跳帧？

预测误差的神经机制｜追问顶刊

基于大模型的共享语言空间，模拟人类的“秒懂”机制 | 追问顶刊

万字长文：如何实现认知神经科学概念与理论的统一？ | 追问顶刊

重塑医疗研究思路，是时候听听患者的想法了 | 追问观察

万字追问：大脑如何剪辑视觉，让你不知何时跳帧？

关注追问媒体

Recomend

万字追问：大脑如何剪辑视觉，让你不知何时跳帧？

预测误差的神经机制 ｜ 追问顶刊

基于大模型的共享语言空间，模拟人类的“秒懂”机制 | 追问顶刊

万字长文：如何实现认知神经科学概念与理论的统一？ | 追问顶刊

重塑医疗研究思路，是时候听听患者的想法了 | 追问观察

预测误差的神经机制｜追问顶刊