
李飞飞巴黎AI峰会开幕式完整演讲
本文为李飞飞在巴黎AI峰会上的开幕演讲 稿件翻译版本,如有问题欢迎交流。
摘要
在巴黎AI行动峰会的开幕致辞中,著名AI科学家、斯坦福以人为本人工智能研究院(HAI)院长李飞飞回顾了智能从超过五亿年前的起源到现代人工智能(AI)的演变。她将AI不仅视为科技故事,更视为生命历程的延续——从简单生物感知的出现,到人类智慧,再到如今能思考和行动的机器。
李飞飞强调了现代AI的三大支柱:感知算法(受神经科学和神经网络启发)、互联网驱动的海量数据(例如她的ImageNet项目)以及强大的计算能力(GPU推动)。她提到1956年达特茅斯研讨会命名AI、2012年ImageNet突破开启深度学习等里程碑。近期,大型语言模型及空间/具身智能的兴起表明AI正从观察者变为行动者,能在3D空间中推理和互动。
她倡导“以人为本的AI”,提出三大价值观:尊严(例如通过意念控制机器人帮助瘫痪患者)、能动性(增强而非取代人类能力)和社区(促进连接而非分裂)。她呼吁以科学、务实和多元化生态(涵盖学术、产业和公众)为基础负责任地治理AI。
李飞飞以阿兰·图灵75年前挑战人类构建“思考机器”为灵感,呼吁与会者敢于将AI塑造成向善的力量,创造一个提升人类福祉的未来。
演讲正文
大家早上好。我很荣幸也很兴奋能与各位齐聚于此,在这个美丽的巴黎清晨,共同迎来本周的活动并发表开幕致辞。我期待与大家一起参与充满活力和行动力的讨论,甚至可能促成一些重要决策。感谢大家的到来。
对于我们中的许多人来说,人工智能(AI)常常被视为现代科技的故事——一个关于未来的传奇。这无疑是我们今天聚集于此的原因。但对我而言,这不仅是一个现代故事,它还追溯到生命起源的遥远开端,超过五亿年前。那是一个连“视觉”这一概念都尚未诞生的时代——眼睛还未进化,没有任何生物见过这个世界,所有生命都处于黑暗之中。
当然,五亿年的历史在十分钟内无法详尽展开,所以我给你们一个简版:当进化赋予那些简单生物感知周围环境并对其作出反应的能力时——哪怕这种感知多么微弱——一场进化军备竞赛就此拉开序幕。从被动地接收光线开始,这种体验逐渐变得更加丰富和主动。神经系统开始演化,视觉变成了洞察,看到变成了理解,理解则催生了行动。这些变化孕育了智能,并且永远改变了地球上生命的本质。
快进到今天,五亿年后的现在,人类的智能让我们得以想象并塑造生活的方方面面。然而,我们不再满足于自然赋予我们的智能。好奇心推动我们去创造能够与我们匹敌——甚至超越我们的机器。这正是我们本周讨论的这项划时代技术的起源,它始于20世纪中期。英国伟大的数学家阿兰·图灵极具远见,在计算机尚未诞生之时,他就已在哲学层面上探索如何赋予机器与人类媲美的认知能力。对我而言,他的著作始终是一个大胆的挑战——挑战人类敢于想象“会思考的机器”,正如他所做的那样。
同样的好奇心与雄心也感染了美国的早期计算机科学家。1956年的酷热夏天,他们不仅启动了第一个探索“思考机器”可能性的研究项目,还创造了“人工智能”这个术语——比它进入公众意识早了几十年。屏幕上展示的是他们为那次达特茅斯研讨会撰写的研究论文。不得不说,他们认为两个月就能解决智能之谜的大部分问题,显得有些过于乐观,但这种大胆令人钦佩。今天,我们已经走过了那“两个月项目”的820个月,取得了扎实的进步。
人们常误以为AI只是计算与工程的问题,但实际上,它一直是一场充满活力的多学科追求。我们如今身处的现代AI时代,是三种深远且独特的科技与科学进步汇聚的结果。
首先是对感知算法的研究——生物如何理解周围世界,从动物到我们人类自己——催生了受图灵大胆猜想和达特茅斯愿景启发的数学模型。神经生理学家休伯尔和韦塞尔揭示了哺乳动物视觉皮层神经元处理的分层架构,荣获诺贝尔奖,并改变了我们对视觉处理的理解。与此同时,心理学家弗兰克·罗森布拉特构建了最早的神经网络原型之一——感知器。这项工作激励了几代计算机科学家,如福岛邦彦、杰弗里·欣顿、杨立昆和约书亚·本吉奥等先驱,他们开发出越来越复杂的模型,最终形成了我们今天熟知的深度学习神经网络。这些算法赋予了机器惊艳的感知能力。
其次,认知科学家深入研究人类心智,揭示了我们理解周围环境的能力之深邃与精妙。他们的研究表明,大脑并非封闭在头颅黑暗中的孤立机器,而是从生命之初就渴望学习的学生,从每一缕光线、每一次触碰、每一丝声音中汲取知识。作为一名在21世纪初成长起来的科学家,当时感知算法几乎是我所在领域的全部焦点,而认知科学的启示让我看到了“规模”的重要性。进化与发育过程受益于海量数据来驱动人类的认知学习。我和我的合作者、学生们假设,同样的原理也适用于机器。但这次,数据不再来自生物传感器,而是来自现代数字设备和互联网。这启发了我实验室的ImageNet项目——首个互联网规模的AI训练与评估数据集。我们关于数据是解锁高-capacity算法(如神经网络)关键的假设,以前所未有的方式重振了这一领域,引发了全球利用大数据发展AI的趋势,如今被称为AI的“规模法则”。
最后,这些成就若没有强大的计算工具支持,根本无法实现。这始于20世纪40年代提出的冯·诺伊曼架构——至今仍被遵循的计算范式,并促成了1970年代初首批微处理器的诞生。有趣的是,视频游戏推动了硅芯片速度的飞跃。1990年代初,一个专注于提升游戏图形细节的小型产业,在几十年内成长为全球巨头。像英伟达这样的公司开发出越来越强大的图形处理单元(GPU),这恰好成为神经网络从互联网规模大数据中学习的最后一块拼图。所以,如果现场有游戏玩家,我们得感谢你们!
接下来的故事不仅是历史,更是构建未来的配方。2012年,在ImageNet挑战赛中,我的实验室首次将这三要素——算法、数据和算力——以足够大的规模结合在一起,几乎在一夜之间改变了整个领域。那是机器首次能够理解并可靠描述数百万复杂图像的时刻。如今我们视之为理所当然,但当时这是一个未解难题,其能力宛如科幻。那是里程碑进程中的第一块多米诺骨牌,此后进步的速度愈发迅猛。
十多年后的今天,我们仍在探索其深远意义。从学术好奇心起步的AI,如今吸引着商界领袖、企业家、行业分析师乃至政治家的热切关注,且势头未减。我们已进入历史学家必将称之为“首个真正AI时代”的十年。无论以何种指标衡量——计算机科学学位、AI项目、投资资金、新创企业——AI都是一场不断扩展的革命。
过去几年,AI又迈出了惊人一步——大型语言模型的出现。这些模型将三种要素扩展到更大规模:新的Transformer架构、几乎涵盖整个互联网的数据训练,以及最新、最先进的芯片支持。其结果是机器能力的又一次爆炸性提升,超越了过去十年的成就。我们如今理所当然地期待AI能流利地用自然语言与我们对话,回答几乎任何问题,甚至生成复杂的图像、声音、音乐和视频。ChatGPT的惊人成功——创下用户采用速度纪录——充分说明了这项创新对日常生活的深远影响。这些能力并非表面现象。看看这张图表:AI模型在从手写识别到博士级科学问题的各类基准测试中的表现近年来突飞猛进,有些任务的性能曲线几乎垂直。从语言流畅性起步,大型语言模型如今正承担更积极的问题解决角色,能够分解任务并规划实现现实目标的步骤。我们称之为“代理AI”,在2025年,它是这项关键技术的最新篇章。
但未来还有更多。人类的智能不仅是语言的,而是全面的。一个新篇章正在开启,AI的感知能力正扩展为更主动的角色。在我的相机与机器人世界中,AI开始在数字或物理的3D空间中创造、理解、推理和互动。我们称之为“空间智能”和“具身智能”。
以这张图片为例:我们的视觉智能轻易识别出猫、盆栽、桌子和那杯牛奶。但感知仅止于此吗?我敢打赌,你们中很多人不仅在观察这幅画面,还迫不及待想伸手抓住那杯牛奶,以免它摔碎在地。这个简单的例子揭示了一个深刻的区别:从单纯观察到采取行动。它标志着我认为我们即将到达的转折点——AI从旁观者变为与我们并肩的行动者。向我的偶像阿兰·图灵致敬,我认为他未来的愿景过于狭隘、过于内向。进化明确教导我们,智能的真正力量不仅是思考,而是用思想驱动行动。想想人类的“空间智能”如何赋予我们建设文明的能力——从古老金字塔到工业革命,从科学发现到艺术表达。当AI扩展我们的空间与具身智能时,我们与世界的关系将如何进一步改变?它将帮助我们创造什么、发现什么?我们已在构建怎样的未来?
这里展示的是空间智能技术的快速发展一瞥。这些来自我在斯坦福的学生和World Labs同事的四个例子包括:复杂日常视频的语义标注、艺术风格迁移、从文本提示生成视频的生成AI算法,以及从任意图像构建3D世界。没错,你们看到的是梵高那幅著名的法国咖啡馆画作,被我们的生成AI模型带入了一个虚构的3D世界。同样令人兴奋的是,机器人技术——一种具身AI形式——也在迅速进步。我实验室的这两个项目将机器人学习与大型语言和视觉模型结合,使机器人在开放、现实环境中执行日常人类任务,远超上一代高度编程的机器人。
这些是激动人心的可能性。但如果AI真正从“思考机器”变为“行动机器”,我们共同引导这项技术的责任将变得更加紧迫。我认为,将此刻称为“文明后果的时刻”并不夸张。那么,我们该如何应对?这就是我们本周聚集的目的。
这一问题多年来一直指引着我的工作。虽然没有简单的答案,但我所有努力中贯穿一个主题:以人为本的AI,基于三个简单价值观——尊严、能动性与社区。
首先是尊严。随着技术日益强大,我们常面临一个问题:是什么定义了我们作为人类?抛开我们能完成的任务,我们作为个体、自主决策并采取行动的根本自豪感,仍是我们身份的核心。如果这项技术能保护甚至恢复这份尊严,尤其是对最脆弱群体,我将无比欣慰。例如,在斯坦福由我的合作者和学生开展的一个项目中,一个机械臂完全由人的意念控制,通过非侵入式EEG脑电波记录收集信号。我们的AI算法解码这些意念并转化为指令,引导机械臂完成一份完整的日本寿喜烧餐——为瘫痪患者赋予自主能力迈出重要一步。
其次是能动性。我实验室工作的核心原则是探索AI如何增强而非取代人类能力。AI的进步不可避免地影响就业,正如历史上每次重大技术变革重塑劳动力市场一样。但我相信,AI可以赋予我们更多能力——从创意到医疗,从科学发现到制造业。AI的技能与人类互补,为我们提供了与这一数字或物理伙伴合作、提升自身能力的机会。过去十年我在AI医疗领域的探索显示,AI有无数方式提升医疗质量并减轻医护人员的负担。这里有三个例子:AI驱动的智能相机帮助医院改善医生的手部卫生习惯、记录患者活动锻炼情况,以及协助追踪手术器械。
最后是社区。过去十年,技术常常将我们分隔——过滤泡沫、愤怒诱饵等层出不穷。AI正处在一个岔路口。一条路通向AI遮蔽真实社交体验、强化偏见的个性化内容;另一条路则通向AI帮助我们建立更大、更好、更强健社区的世界——如教育工具,让更多人无论老少都能学习。这里有两个例子:左侧是用AI和VR为dyslexia大学生提供个性化学习支持;右侧是布法罗大学开发的AI专家系统,弥补言语语言病理学家的短缺,为3至10岁儿童的早期语言干预提供帮助。
这引出了我今天想分享的最后一个想法。在这一文明关键时刻,我们如何共同治理AI,以理性、务实和负责的方式,保留其惊人潜力?
首先,我们必须基于科学而非科幻来治理。从普通民众到华尔街,今天关于AI的讨论太多被耸人听闻和夸张所渲染,导致误导性的治理政策。我们需要科学的评估方法——测量AI的能力与局限性——从而制定精准、可行的政策,扎根于现实。
其次,我们在AI治理中应采取务实而非意识形态的态度。如果使用得当,AI将成为改善我们生活与工作的强大工具。与其阻碍这一尚年轻的技术的上游研究,我们应聚焦其实际应用,确保其有益使用并防范有害后果。
最后,我们需要投资于一个更健康、更充满活力的AI生态系统,让学术界、企业家、开源社区和公共部门与大公司共同发挥关键作用。如果AI将改变世界,我们需要各行各业的人共同塑造这一变革。我早前提到现代AI的三大支柱:算法、数据和算力。如果这些资源仅集中于少数公司,AI生态将因缺乏好奇心驱动的研究、顶尖教育人才、开源努力和多学科探索而受损。
75年前,阿兰·图灵瞥见了未来,并激励人类敢于构建“思考机器”。今天,我们将这一挑战提升到了他可能无法想象的高度。AI时代的科技进步令人叹为观止。我认为,现在是时候提出新的挑战了。与其仅问我们能否创造AI,不如问我们能否将AI打造为向善的力量。简言之,我呼吁我们所有人,共同构建以人为本的AI。
谢谢大家。