随着AI技术的进展,ChatGPT等基于大语言模型的聊天机器人已成为我们解决问题的首选。但当我们提出非常私人化、具象化及场景化的问题时,它们给出的答案往往不尽人意。
比如,当询问“我想要学游泳,你能给我一些建议吗?”时,ChatGPT只能提供一些通用的建议,如“呼吸技巧”或“如何让身体浮起来”。这些回答没有针对用户的具体情况,只是泛泛而谈。但假如有一个教练朋友亲自陪你到泳池,向你演示如何在水下屏气,并托住你的腰让你平躺在水面上,告诉你应该如何控制身体以实现浮起,这是否才是你更想要的答案?
这正是“具身智能体”(Embodied Agent)的价值所在,它强调我们不仅要让计算机程序变得聪明,还要让它们像人类一样与真实的物理世界进行紧密的互动。如此,我们才能实现具备人类智能水平,且更接近人类的通用人工智能(AGI)。
AI为什么要有具身智能?
为何我们要追求那种与物理世界紧密互动、且更接近人类的人工智能?将人工智能当作好用、便捷的工具难道还不够吗?
这一追求源于人类对智能的根本期待:我们希望它们不仅能高效地执行如学习、问题解决和模式识别等复杂任务,从而帮助人类去做不愿意,或是不擅长做的事;我们还希望它们能理解人类的思维方式、行为习惯、情感表达,甚至性格偏好和心理特点,真正实现“懂你”的高阶能力。更何况,从人性的角度来说,人类本能地会对更自然、更亲近于自己的事物有好感,而对纯粹机械化、缺乏情感的冰冷工具怀有拒斥之心。
1950年,图灵在其论文中首次提出了人工智能的基本概念,并提出了著名的“图灵测试”,用以判断机器是否能模拟人类智能。同年,阿西莫夫在他发表的短篇集《我,机器人》中描绘了一个人与AI共处的未来世界,并提出了机器人三大定律。因此,自人工智能概念诞生之初,人类就相信并呼唤着一种能以人类语言交流并理解我们的AI——它不仅能在生活中陪伴我们,还受到伦理道德的约束,最终被人类的情感和性格所引导。
这样看来,当我们讨论“智能”时,实际上是期望AI超越单纯的计算机器,成为一种与人类智能匹敌、拥有创造性思维和感知能力的高级生命体。具身智能则代表了这一愿景的实现路径。
具身智能何以像人?
这么说来,具身智能应如何实现更像人的AI呢?
我们首先需要理解传统人工智能的局限性。目前的AI系统主要依赖于收集的互联网图像、视频或文本数据进行学习。这些数据集虽然制作精良,但它们终究是静态的,是通过人类整理和数据标注的方式实现的。这使得AI在处理信息时缺乏与环境的交流及互动。AI并不能理解其表达背后真正的逻辑思考路径,更不用说自主反思并自我成长了。因而除依葫芦画瓢外,AI自发制造的数据往往与实际情况不符,常常“胡说八道”。这也是传统AI被称为“弱”智能的主要原因。
为此,一些学者立足于人类婴儿认知的研究,从人类智能的发展过程中得到启示,他们认为,真正的智能来源于与周围环境的不断互动和反馈。正如人类婴儿通过与环境的感知和物理交互,来发展认知能力一样,智能的真正发展需要超越处理抽象信息,深入理解和应对现实世界中的复杂情境。而这正是具身智能概念的出发点。
具体来说,具身智能是一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。斯坦福大学的李飞飞教授曾经指出,“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”同样,上海交通大学的卢策吾教授通过猫学习走路的比喻,形象地描述到,“自由行动的猫是具身的智能,它能够在环境中自主行动,从而学会行走的能力;而被动观察世界的猫,最终却失去了行走的能力。”
与基于静态数据集训练的传统AI不同,具身智能能实时地在真实物理世界中学习和交互,从而能更好地模拟人类学习的方式。它们能像人一样,通过与环境的实际互动获取知识和经验,理解人类的实时反馈和行为,进而掌握非语言的沟通方式,如通过表情和触摸来感知和体验人类的情感表达。这种深度的人机交互和理解,使具身智能成为一种更贴近人类认知和情感的智能形态,有望实现更深层次的人机互动和共融。
具身智能如何做到更像人?
主动性
作为具身智能的核心特征之一,主动性赋予了智能系统超越被动信息处理工具的能力,让它们成为积极的参与者。
在Metin Sitti 2021年的论文Physical intelligence as a new paradigm中,他指出,在具身的物理智能层面上,柔性系统可以对环境刺激做出响应……然后根据身体部位与环境条件的自我定位、自我运动和自我感知(本体感觉)得出自我定位,并将其转化为后续行动。这意味着具身智能不仅能感知环境,还能根据感知进行自主的行动。另一篇论文Embodied Intelligence in Physical, Social and Technological Environments同样采用相似的方法定义具身智能:当一个生命在各种感官信息的基础上,自主地对环境采取行动,在这样做的过程中,能够将自己作为一个多感官的积极主动的自我,从而与环境中正在发生的事情区分开来,并加以调节时,它就拥有了具身智能。
这种主动性可以通过一个简单的比喻来理解:当你走进图书馆,遇到一个传统的管理员时,他或许会根据你的请求给到你想要的答案,如一个书名及对应位置。但如果这位管理员是一个具备具身智能的导览顾问,它不仅能够找到你需要的信息,还会主动引导你,找到书籍,并给你讲解相关知识,带你深入了解整个知识的世界。
这种交互方式类似于与一个热情、友好的伙伴一起探索知识,而不仅仅是从一个冷漠的知识助手那里得到答案。具身智能通过主动性,提供了一种全新的交互体验,这不仅能够增强人类对信息的获取和理解,还能加深人类与智能系统之间的情感和认知联系。
尽管目前的具身智能还未完全实现主动性和热情互动,但以视觉导航的快速发展为例,在如iGibson Sim2Real、Habitat和RoboTHOR等挑战赛中,我们已经见证了这一领域初步形态的涌现,这些成果已经超越了仅仅执行任务的冷漠机器。例如,结合人类先验知识的导航系统能够通过将这些知识以多模态输入形式融入到深度强化学习框架中,如知识图谱或音频输入,进而使AI能够在未知环境中学习导航并寻找未见过的物体。
最新的视觉语言导航(VLN)技术致力于创建一种能够通过自然语言与人类交流,并在真实3D环境中自主导航的具身智能。目前,该领域已经利用多个数据集进行研究和开发,如REVERIE、R2R、CVDN、GELA、ALFRED、Talk2Nav、Touchdown等,同时也产生了一些创新的网络架构,如辅助推理导航框架。这些技术应用于机器导航、辅助技术和虚拟助手等领域,尚处于初级阶段。
此外,VLN的拓展视觉对话导航,旨在训练AI与人类进行持续的自然语言对话,以辅助导航。在这个领域,研究者们使用了一种跨模态记忆网络(CMN),该网络分别拥有语言和视觉记忆模块,用于记忆和理解与过往导航动作相关的信息,并利用这些信息来作出导航决策。
实时性
实时性是具身智能另一个核心特性,它使得智能系统能够在真实世界中及时学习并迅速反馈。具备实时性的具身智能能够在接收到新信息或遇到新环境时立即做出响应。与此相比,传统的人工智能依赖于预训练的数据,在面对实时变化的环境时难以快速反应。
以电视节目为例,观看录播的魔术表演就像是与传统AI的互动:虽然内容精彩,但你只能被动地观看预先录制的内容,不能实时中断或更改节目内容。相比之下,观看现场直播的魔术秀则更类似于与具身智能的交互:你可以实时提出需求,魔术师则根据这些需求在现场即兴表演,就好像在为你个人定制节目一样,你不再是一个被动的观众,而是整个魔术秀的一部分。这种互动方式不仅更加个性化,也更具参与感。
故而,和现场表演的魔术师一样,具身智能能够即时响应人类的需求和环境变化,提供更为贴合实际情况的解决方案,并以更贴近于人际交往的方式与人类互动。这种实时性帮助它更好地融入人类的日常生活,成为一个更加智能和有用的伴侣,而不仅仅是一个执行预设任务的机器。
在论文LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models中,研究团队提出了LLM-Planner方法。这种方法利用大型语言模型的能力,能为具身智能进行少样本规划,并通过物理基础来增强语言模型,从而生成和更新与当前环境相关的计划。其优势在于它能够实时反映和适应环境的变化,为具身智能的决策提供即时的信息和指导。
情境性
除主动与实时之外,具身智能对特定的场景和情境的反馈应该有深入的感知和个性化的理解。
就像人类在与周围环境互动中实时调整自己的行为一样,具身智能应该通过实时学习和反馈,深刻地理解所处的情境,并据此调整其行为。它能够根据上下文和环境的变化灵活地调整回应方式,融入当前的情境中,从而实现更自然和有效的交流。例如,具身智能能够感知用户的情绪变化,并据此提供个性化的体验,增强用户的参与感和满意度。
以旅游规划为例,传统的聊天智能可能仅能提供固定的行程建议,而不管雨雪风霜,甚至有可能在雷暴雨的天气,依然为用户安排露天温泉的行程。具身智能则能够根据用户的个人偏好、当地环境和天气状况等因素提供更加贴合实际的建议。它更像一位熟悉当地情况的私人旅行顾问乃至私人摄影师。它不仅知道你的目的地,还熟知周围的情境,了解环境变化;能够根据你的私人偏好和当地时令,带你去合适的小馆子就餐,并记录下你每个快乐时刻的印记。
目前已经存在大量逼真且公开泛用的3D场景,可以作为具身智能训练的模拟环境。针对具身导航的虚拟环境有iGibson、Habitat、MultiON、BEHAVIOR等;针对具身问答的有ALFRED;关注情景理解、物体状态和任务规划的环境有AI2-THOR、ThreeDWorld、Habitat 2.0等;关注物体操纵的有SAPIEN、RLBench、VLMbench、RFUniverse、ARNOLD等;物体抓取及操纵信息数据集包括GraspNet、SuctionNet、DexGraspNet、GAPartNet等。这些场景比以往研究模拟器所用的环境要真实得多,极大地促进了具身智能在情境性的初步开发。
此外,传感领域的技术进步,也为情境性的具身智能发展提供了可靠保障。例如,PaLM-E团队提出了具体化的语言模型,将真实世界的连续传感器模态直接结合到语言模型中,从而建立单词和感知之间的联系。这种模型的输入是多模态语句,它们将视觉、连续状态估计和文本输入编码交织在了一起。结合预训练的大型语言模型,对这些编码进行端到端训练,可用于多个具体任务,如顺序机器人操作规划、视觉问题解答和图像视频字幕描述,有效地构建了单词和感知之间的联系。
拟生物
较之一般的人工智能,具身智能需要应对复杂的环境,并被要求以更接近人类的认知方式来与现实世界共处,这就使得它体现出了更多的模仿生物的特征。
就像蜜蜂群体协同工作以建造蜂巢,具身智能中的多个智能体能够共同协作,产生超越单个智能体能力的集体效应。这种群体协作不仅超越了单个智能体的能力,还展示了复杂系统中的涌现现象。在这些系统中,个体智能体的简单行为和互动,可能导致整个系统出现复杂的行为模式和结构形态,使得系统能够适应新的环境和任务,而无需依赖预先设定的编程规则。
此外,具身智能系统中的自组织性是其拟生物特性的关键部分。智能体能够根据环境变化和相互作用动态地调整自己的行为和结构,形成更高级别的功能和结构,从而使系统具有更强的鲁棒性和适应性。
具身智能的这些特性在多种应用中得到了体现。有研发团队专门设计了一种水下软体机器人,其灵感来源于细菌的形态。这种生物启发的模块化结构使机器人能够在水下环境中执行多种任务。这种机器人利用其周围的环境(水)、目标的形状以及机器人本身的顺应性,通过少量的控制输入来实现有效的导航和安全交互。这种建模方法和设计不仅展示了具身智能在模仿生物体方面的创新,也体现了它在实际应用中的多功能性和适应性。
总之,具身智能领域的技术发展呈现出多样化和综合化的趋势,特别是在观察、操纵和导航等方面的进步尤为显著。这些技术的发展不单单针对具身智能的某个特定特性,而是综合了多方面的功能和能力,以实现更高的适应性和灵活性。
通过结合机器人的传感器数据和一般的视觉语言数据进行联合训练,特别是利用大语言模型的强大内在知识,可以帮助具身智能在面对复杂和未知的真实世界环境时,进行有效的动态学习和泛化。例如,LLM-based Agent(基于大语言模型的智能体)以其独特的语言能力为优势,不仅作为与环境交互的工具,还能将基础技能转移到新任务上,从而使机器人能够根据人类的语言指令适应不同的操作环境。
此外,通过嵌入式行动规划,利用高层策略指导低层策略的子目标,从而使低层策略生成适当的行动信号,可以使机器人在执行任务时更加高效和可控。这种策略的应用可以使具身智能在处理复杂任务时更接近人类的决策模式。为了更有效地完成导航和其他复杂任务,具身智能还需要内存缓冲区和总结机制,以便参考历史信息并更好地适应未知环境。
近年来,谷歌公司的Everyday Robot项目SayCan系统,已经将机器人和对话模型结合,完成一个包含16个步骤的长任务;伯克利的LM Nav项目,则用三个大模型(视觉导航模型ViNG、大语言模型GPT-3、视觉语言模型CLIP)教会了机器人在不看地图的情况下按照语言指令到达目的地;上文提到的谷歌与柏林工业大学推出的PaLM-E模型更是在具身智能的多模态理解和执行方面取得了显著的进展。
能够发现,具身智能的技术发展正迈向一个更加综合、灵活且高效的方向。这些技术的融合和发展,不仅提高了智能系统的适应性和实用性,也为未来的智能系统设计和应用开辟了新的路径。随着技术的不断进步,我们可以期待具身智能在更多领域的实际应用和创新突破。
人工智能与人类智能的关系
为了深入理解人工智能(AI)和人类智能(Human intelligence,HI)之间的差异,并探索如何缩小这一差距,结合对具身智能特性的考量,Shanda AI Lab LEAF团队提出了五性原则,以对照分析AI的发展方向(在后续的“智能渐近线”系列报告中,我们会不断扩充五性的内容)。这些原则不仅与具身智能的四大特性相互呼应,还深入探讨了AI发展的关键方面,以期望使AI更接近于人类智能的复杂性和适应性。
1)逻辑性
AI应具备类似于人类大脑的逻辑思考和理解能力。具体来说,就是AI能够在复杂的社交场景中,结合已有的各种知识储备进行综合运算及推理,理解语义及语义背后的复杂内涵,最终给出相应的输出。
2)感知力
AI需要具有强大的感知能力,能识别和关联多种信号,并能进行类似于人类的想象和通感。它不仅能够理解聊天输入,同时也能处理多种类型的输入信息;能够像人一样,快速地对周围环境的变化和各种刺激做出迅速的反应。
3)实时性
AI系统可以做到信息的实时更新、随时取用、随环境而反馈;它可以学习人类的记忆模块的能力,通过上下文学习和情境学习等方式,从有限的实时信息中进行类比学习,理解新的任务。
4)主动性
AI能够靠积极主动的、有目的性的行为,来完成类似于人类执行功能的事物处理能力,包括设定目标、规划流程、分解任务、使用工具方法、管理时间和组织安排等方面;这也就意味着AI需要在真实环境中学习大量实际的经验,并对上下文和具体情境能够有实时调整的能力,进而可以依据实际的场景自主决策,灵活安排并主动交互。
5)适应性
AI具备主动感知和理解世界的能力,以及能够与环境进行双向的、动态的交互;这种适应性不仅限于机器对输入的响应,还包括系统能够根据内部知识做出合适的决策,并通过特定的行为来改变周围的环境;在社会学意义上,意味着人工智能能够以近似人类的方式与世界进行深度互动,并理解世界的复杂性。
显而易见,要想让人工智能更接近人类智慧,其先决条件是让人工智能理解并学习人类认知世界的方式,进而以类似人类思考决策的方式去行动。
作为典型的强智能体,人类在成长过程中较少的依赖当前深度学习中采用的监督学习范式。相反,人类关键性技能的发展,如行走、使用工具、学习新的技能,都依赖于身体力行的尝试。同样,具身智能通过与环境的互动,虽然面临第一视角得到数据的不稳定,但它能够通过类似人类的中心感知方式来学习,并真正地在实际环境中应变和理解,从而从视觉、语言和推理过渡到人工具身(Artificial Embodiment)。
具身智能的发展
近年来,“具身智能”逐渐成为热门的研究方向,吸引了计算机视觉、自然语言处理和机器人等众多领域的研究兴趣。自2017年第一届机器人学习大会CoRL(Conference on Robot Learning)召开以来,我们见证了机器人学习领域的快速发展,包括大量新的智能任务、算法、环境的涌现。在接下来的几年里,特别是2018年和2019年的CoRL会议上,大量的具身智能学术任务开始被提出并受到关注,包括具身视觉导航、具身问答系统等。
到了2023年,CVPR 2023具身智能研讨会更是组织了AI Habitat、AI2-THOR、iGibson、Sapien仿真器的物体重排列、具身问答、具身导航和机器人操作挑战赛。这些具身智能任务与其他线上AI任务具有完全不同的范式,即利用具身智能体(如机器人)“看”、“说”、“听”、“动”、“推理”等方式,与环境进行交互和探索任务目标,从而解决环境中的各项挑战性任务。
总结来看,人工智能学习并理解人脑的认知范式,进而接近于人的智慧,将是大势所趋;而具身智能,尤其是模拟人类的具身智能,是人工智能趋向于人类智能的可行的高效捷径。