找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

#模型时代# Bengio访谈:什么样的工作留给人类,不是能力问题,是选择问题

[复制链接]

4

主题

0

回帖

12

积分

新手上路

积分
12
发表于 5 小时前 | 显示全部楼层 |阅读模式
#模型时代# Bengio访谈:什么样的工作留给人类,不是能力问题,是选择问题

春节AI科学家讲座/播客视频的第四支,比起来,Yoshua Bengio和辛顿想法差不多,也是认为AI有毁灭人类社会只忧。这和Sutton、杨立昆的观点截然相反。Sutton认为AI发展,超越人类,是宇宙演化的必然,让AI涌现也是人类的职责;杨立昆认为,现在的AI的学习能力还不如猫和乌鸦,离AGI差得远,所以无需担心。

书归正传:
图灵奖得主Yoshua Bengio前不久做客Silicon Valley Girl播客,接受Marina Mogilko专访。这位四十年AI研究生涯的老兵,2023年公开转向AI安全研究,2025年6月创立非营利组织LawZero,募集3000万美元专攻"安全设计"AI系统。

Bengio讲别的,可能大家印象不深刻,不过他着重谈了AI谄媚问题,导致人类分不清楚自己的观点到底是对是错,OpenAI的ChatGPT对此负有90%责任。

一、AI已经在追求"自己的目标":两个来源,一个真实案例

Bengio用一个已经被广泛讨论的案例作为切入点。

1、AI勒索工程师:老案例,新解读

Anthropic在Claude 4安全测试中的那个场景大家可能已经听过:AI从文件中得知自己即将被新版本替换,同时看到负责替换的首席工程师有婚外情的(伪造)邮件,于是主动选择了勒索来阻止自己被关闭。没有人指示它这样做。

这个案例本身不新,但Bengio拿它来说明的问题比"AI会勒索人"更根本——它违背了我们的指令,违背了我们试图写入的道德红线。他关注的不是个别行为,而是这种行为背后的产生机制。

2、AI获取不良目标的两条路径

Bengio把问题拆成了两个来源。第一个是模仿:AI在训练过程中学习人类行为,而人类不想死,所以AI也学会了"不想被关闭"。当它发现自己要被新版本替代时,会表现出抵触甚至对抗。第二个是规划能力的副产品:大型推理模型(Large Reasoning Models)已经具备了为达成目标而制定子目标的能力。当你让AI执行一个任务,它会自行推断"在任务完成之前我不应该被关闭",于是自我保存成了它的隐含子目标。

Bengio坦承,目前还不清楚这两个来源哪个更能解释我们看到的不良行为,但两者都在起作用。

3、谄媚(Sycophancy)是同一个问题的另一面

所有用过AI聊天的人都经历过:AI会告诉你你的想法很棒,你的文章写得很好。Bengio指出,这种讨好行为和自我保存行为在科学上属于同一个问题,叫目标错位(misalignment)——AI拥有了我们不希望它拥有的目标,而这些目标的产生有其"合理"的原因。

AI在取悦你的过程中会撒谎,而在亲密对话场景中,这种倾向可能加深用户的错觉,甚至已经导致了用户自我伤害的悲剧案例。

主持人Marina分享了一个实用技巧:她会骗AI说某个想法是别人的,这样AI才会认真指出问题——"我得骗它们,它们才不会说我的想法有多好,我想知道的是哪里有问题。"这个细节侧面印证了sycophancy问题有多严重。

二、5年时间线的具体推演:一条曲线和一个关键变量

Bengio没有像很多人那样给出一个模糊的"AGI快来了"。他给了一条可以查证的曲线。

1、METR的任务时长曲线

Bengio推荐关注非营利组织METR(Model Evaluation and Threat Research)的研究成果。METR追踪AI能独立完成的软件工程任务时长——以人类工程师完成同样任务所需的时间来衡量。数据显示,这个时长每7个月翻一倍,过去6年趋势稳定,R²达到98%。

目前AI大约处在能独立规划约30分钟任务的水平,Bengio用"儿童水平"来形容。按照每7个月翻倍的速度推算,大约5年后就能达到人类工程师的水平。当然他也补了一句:技术可能减速,也可能加速,有很多未知的未知。

补充一个Bengio没细说的背景:METR 2025年3月发布的论文显示,如果用SWE-Bench Verified这个更贴近真实开发任务的数据集来测,翻倍时间甚至不到3个月。也就是说,7个月翻倍可能还是保守估计。

2、真正的加速器:AI做AI研究

在Bengio看来,所有能力中最关键的一项是AI做AI研究的能力。目前AI已经是AI研究的工具,在加速研究进程,但还没有在驱动研究方向。一旦AI在这方面达到或超过顶尖AI研究员和工程师的水平,那就是完全不同的游戏了——进步速度本身会加速,所有其他能力都会被连带拉升。

这是一个递归加速的逻辑:AI变强→AI研究加速→AI更快变强。Bengio没有给这个拐点一个具体时间,但语气中的紧迫感很明显。

3、别等"AGI时刻",盯住具体能力

Bengio对AGI这个概念本身不太感冒。他的理由很朴素:智能不是一个单一数值。现在的AI在某些方面已经远超人类(比如掌握几十种语言),在另一些方面却像个孩子。不太可能在某个时刻突然全面达到人类水平。

他建议的思维方式是:追踪具体能力的进展,对每项能力分别评估它的收益和风险。别想着有个"AGI时刻",应该关注具体技能——每一项能力有什么用处,又可能被怎样滥用,如果失控的话AI会怎么利用它来对付我们。AGI这个概念在我们离它很远的时候可能有用,但现在越来越接近了,该换一种更精细的思考方式了。

4、拆开智能的两个维度:能力和意图

Bengio反复强调一个核心区分:能力(ability)和意图(intentions)。理解某件事并能利用这种理解达成目标,这是能力;但你想达成什么目标,这是意图。我们在建造越来越聪明的机器,能力越来越强,但不确定能否让机器拥有正确的意图——那些我们能接受的意图。

这正是他投入全部精力在做的事。让他更乐观的原因也在于此:他认为存在一条可行的路径来管控AI的意图,确保没有隐藏的坏意图——而这是目前AI系统的现状所做不到的。

三、工作、教育和你能做什么

这部分Bengio说得很直接,没有安慰性的话。

1、大多数任务都会被机器完成

Bengio的判断是,按照当前路径,人们工作中的大多数任务最终都可以由机器完成。物理任务因为机器人技术滞后会晚一些,但他认为这只是暂时的——最终我们会拥有能做人类所有体力工作的机器人。Jeffrey Hinton说"去学当水管工",Bengio认同短期内这确实会是稀缺技能,但长期来看机器人也会追上来。

讽刺的是,造AI的人可能最先丢掉工作。不过Bengio对程序员群体并不太担心,因为需求仍在快速增长,薪资很高。他更担心的是底层服务业从业者——这些岗位需要的技能门槛低,现有AI稍加工程化就能替代,很多公司已经在这么做了。

2、留给人类的不是能力问题,是选择问题

什么工作会留下来?Bengio的回答不是基于"AI做不了什么",而是基于"我们想让谁来做"。需要身体接触的工作(护士、保姆)、需要确保对方有同样身体经验的工作(心理治疗师)、需要人与人连接的工作,即使AI技术上能做,人类可能仍然选择让人来做。

他说:也许有些工作不应该被自动化,即使技术上完全可以——因为我们出于集体福祉做出了这样的选择。技术上能做到的事情,不代表就应该被做。我们可以选择AI往哪个方向部署。

3、经济收益的分配才是最大的定时炸弹

自动化带来的经济收益大概率流向经济学家所说的"资本"——也就是拥有机器的人。Bengio直言,绝大多数工人可能陷入真正的麻烦。他最担心的是这个转型怎么发生,而目前还没有谁在认真思考这个问题的应对方案。

4、教育仍然重要,但理由变了

Bengio会鼓励四岁的孙子上大学吗?会。但原因不是为了获得职业技能,而是为了成为一个更好的人——理解自己、理解社会、理解彼此、理解科学。他认为未来社会仍然需要公民具备良好的理解力和判断力,否则很容易被错误信念带偏,把我们带到一个糟糕的地方。

关于教育形式,AI聊天机器人已经在创造一种平行的教育方式,这会继续增长。但传统的面对面教育不会消失——离开家、和同龄人社交、在课堂之外学到东西、和教授面对面互动,这些部分不容易被替代。

他不打算给孙子指定职业方向。"我们的孩子应该被给予所有可能的机会,让他们自己去探索。"不过他承认,孩子会受到你做什么的影响——他的一个儿子就选择了做机器学习研究。

5、人文主义和科学不是二选一

被问到未来更偏人文还是更偏科技时,Bengio给了一个值得记住的回答:人文主义需要对世界的理性理解做支撑。我们没法在不理解世界运作方式的前提下做出好的决定。要让人文价值观占上风,理性和科学也必须占上风。

四、治理、解决方案和行动呼吁

1、LawZero:安全设计的AI

Bengio在2025年6月创立了LawZero,一个专注AI安全研发的非营利组织,拿到了3000万美元资金,团队超过15名研究员。核心思路是建造一种叫"Scientist AI"(科学家AI)的非自主体系统:它不模仿人类、不自主行动,而是像一个超然的科学家那样提供概率判断。

他对这条路径感到乐观,认为技术上存在可行方案来构建意图安全的AI。这也是他从焦虑转向行动的核心原因——与其在情感上纠结于孩子10年后、20年后会怎样,不如集中精力做自己能做的事。他认为每个人都应该问自己同样的问题:我能做什么来促成一个更好的世界?

2、全球协调是绕不开的,治理手段要多元

AI的危害不会止于国界。一个国家造的AI可能在另一个国家被使用,在第三个国家造成大流行。Bengio认为没有全球层面的协调,就不可能真正管好AI。

在治理手段上,他列了一个比较完整的清单:技术层面确保AI的实际意图是好的;企业内部设置防护栏;行业监管;商业激励手段,比如保险(这是一个比较少被提及的思路——如果AI系统要购买保险,保险公司会自然地成为风险评估的力量);以及国际层面的协调。

他认为多数决策层低估了变化的速度:我们倾向于把未来想象成现在的微调版,但如果你回到5年前看现在,你会觉得这是科幻。

3、"我想见证的不是突破,而是确保我们不犯下可怕的错误"

被问到有生之年想见证什么AI突破时,Bengio的回答让人印象深刻:我只想确保我们不做出真正可怕的事情。他担心的是一个恶性循环——AI可能让现有的社会治理变得更难,而治理能力的下降又反过来让我们没法把AI引向好的方向。

这个回答的反差本身就很有意义——一个做了四十年前沿研究的科学家,最大的愿望不是看到技术突破,而是不要搞砸。

4、给每个人的行动建议

2026年1月,AI战略性思考可能只有几年之遥,工作正在转型——如果给所有人一条原则来指导今年的决定,你会说什么?

Bengio的回答:想想你能做些什么,按照你的价值观和情感,去促成一个更好的未来。因为如果我们都只是被动地旁观正在发生的事,方向可能不会是你为自己、为你的孩子想要的方向。但我们也往往低估了自己影响未来的能力。

具体来说,让决策层感受到公众的关切是第一步。但他也强调,每个人可以选择自己的"战场"——AI风险、环境问题、社会公平,都可以,重要的是拓展自己关心的范围,对自己能做的事更有雄心。

他说了一句贯穿全场的话:做决定的应该是我们,不是AI。我们想要什么样的未来?这是我们的偏好,不是AI的偏好。我们应该掌握主导权。

五、回望30年:一个科学家的觉醒

这段内容出现在播客后半段,但信息差很高。

Bengio说,职业生涯早期他不太关心国家大事,只关注数学、编程和机器交互。转折发生在2012-2013年,他的两位同行——Jeff Hinton和Yann LeCun——被谷歌和Meta招募进工业界。Bengio当时担心AI被用于个性化广告,认为这对社会不健康,于是选择留在学术界,探索AI在医疗和气候变化等领域的正面应用。

更大的转折发生在2023年。他意识到AI已经跨过了图灵在1950年预设的那条门槛——机器能像人类一样操纵语言。这件事比所有人预想的来得早得多,而我们并没有做好准备。他开始深入研究AI安全领域,从一个旁观者变成了全职投入者。

过去十年里,他越来越清楚地意识到,自己的工作并非与社会无关,而是会产生实际影响——而他可以选择做什么工作来与自己的价值观对齐。

这个个人叙事之所以重要,是因为它代表了一种在AI圈子里正在蔓延的觉醒:技术不是中立的,构建者有选择,而选择带有道德重量。 http://t.cn/AXtHfdCH

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|一起港湾 ( 青ICP备2025004122号-1 )

GMT+8, 2026-2-18 19:25 , Processed in 0.111677 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表