2026世界杯 陶哲轩用Claude Code解题,两度宕机,因为token不够用
发布日期:2026-03-10 14:37 点击次数:136

近日,菲尔兹奖得主、加州大学洛杉矶分校(UCLA)数学系诠释陶哲轩(Terence Tao)在 YouTube 发布了一段时长约 26 分钟的实操视频,提神演示了怎样愚弄 Anthropic 推出的 Claude Code 代理用具,在 Lean 定理证明器中完成一项数学证明的神色化全过程。

陶哲轩在视频起首就明确了任务目的:将蚁集论中的“单例定律”(Singleton Law)从非神色化的天然说话刻画,更正为 Lean 系统能够编译和严格考证的代码。简而言之,该定律论证了关于率性蚁集 A 和元素 x,单例蚁集 {x}属于 A 的条款等价于某些特定的子集属性。
尽管这在数学意见上这属于较为基础的引理,但要在类型论严苛的 Lean 系统中完成神色化,却伴跟着无数琐碎且对语法要求极高的代码编写责任。
这并非陶哲轩初次处理这一任务。答应九个月前,他曾在其主导的“方程表面”(Equation Theories)容颜中,仍是愚弄那时的主流用具(如 GitHub Copilot)手动完成了该证明。

这次引入 Claude Code 重作念此题,陶哲轩是想直不雅对比新一代“代理式编码用具”与上一代代码补全用具之间的代际各别。
与 GitHub Copilot 早期仅能基于光标位置提供几行代码自动补全不同,Claude Code 是一个运行在终局的代理系统,能够合股复杂的天然说话辅导,自主读取文献目次,谋略秩序,并自动践诺代码编著和修改。在陶哲轩看来,这种智力的跃升好像让 AI 有望果然秉承数学商榷中被称为“烦文缛礼”的重迭性劳顿。
大佬用 AI 也会翻车
兴味的是,视频中所展示的运动经由并非一蹴而就。陶哲轩在录制中坦言,这是他第三次尝试用 Claude Code 完成该任务。在此之前,他因为不同原因仍是“翻车”了两次。
在第一次尝试中,陶哲轩径直给出了一个宏不雅辅导,要求 Claude“完成扫数证明”。死心,AI 在一语气运行了 45 分钟后,奢侈了海量 Token 并导致电脑崩溃,最终未能产出任何有用死心。
有网友径直在接洽区@Anthropic:“给陶哲轩开个无穷 Token 权限吧,说不定数学 2.0 期间能提前到来!”这话听着像打趣,却也戳中了现时 AI 用具的一个施行痛点:真干起抽象活来,Token 奢侈的速率是真快。

第二次尝试时,他改变了计策,要求 AI 按引理(Lemma 1, 2, 3)分步践诺,这次耗时 25 分钟到手完成,但因录屏软件故障未能保存。
吸取了第一次的教授,在第三次(即本次发布的视频)实操中,陶哲轩收受了高度结构化的“脚手架”(Scaffolding)计策。他在文献顶部撰写了一份极其详备的“配方”(Recipe),将任务拆解为运转界说、大纲搭建以及三个子引理的逐渐证明,以此来拘谨 AI 的行动发散空间。
1. 搭建骨架(Skeletonization)
经由初期,陶哲轩辅导 Claude Code 先不要急于推导,而是用 Lean 系统中的占位符“sorry”搭建起扫数证明的宏不雅框架。这一步进行得十分到手,AI 准确识别了非神色化证明中的逻辑断点,并将其更正为 Lean 代码结构。陶哲轩指出,让 AI 先写出带有“sorry”的骨架,随后再逐个填补,是当今最高效的东谈主机合作阵势。
2. 堕入泥潭与东谈主工骚扰
关联词,在具体填补 Lemma 1 的证明细节时,Claude Code 的短板起首浮现。由于 Lean 的底层逻辑要求高度严谨,AI 在靠近非神色化说话中的等式代换时,阐述出“过度想考”的倾向。它试图时常伸开底层的数学界说,而不是机械地按照东谈主类给出的秩序进行推演。
在视频中,AI 在后台进行了无数的回溯和自我试错,2026世界杯官网奢侈了无数猜想资源,推导过程变得十分冗长。在这个过程中,陶哲轩的责任站致使未必宕机了一次。系统归附后,靠近 AI 将浅易秩序复杂化的困境,陶哲轩毅然聘用东谈主工介入。他径直秉承了键盘,飞快输入了一个基于 congr(同余/等式替换)辅导的计策,斯须糟塌了僵局。
他客不雅评价谈:“过度依赖用具可能会让你失去对质明的直观。当 AI 堕入死巷子时,东谈主类径直上手时时比恭候它纠错要快得多。”
3. 演化出“并行责任流”
跟着进度鼓舞到 Lemma 2 和 Lemma 3,陶哲轩展示了令东谈主目前一亮的责任流创新。当他证明 AI 仍是掌持了骨架搭建的手段后,他不再单纯饰演“监督者”,而是起首与 AI“双线操作”。当 Claude Code 在后台自主分析并试图填补 Lemma 3 的底层逻辑时,陶哲轩则在代码的前段手动补全 Lemma 2 中相对直不雅的\"sorry\"部分。
这种东谈主机并行功课的阵势,终末将总耗时压缩到了约半小时以内,而况最终代码毫无报错地通过了 Lean 编译器的严格审查。陶哲轩风雅称,将任务切分,东谈主类处理一目了然的逻辑,而将需要堆砌代码的艰苦任务交由代理,是现阶段最具可行性的实践。
AI 从“庸俗助教”到“低级合作家”
若将这次视频置于陶哲轩比年来对 AI 的系列实验史中注目,咱们能昭彰地看到一条时间跃迁的轨迹。
早在此轮生成式 AI 爆发之初,陶哲轩就曾积极测试各样聊天机器东谈主,并将其比作“庸俗但连续对窝囊的商榷生”。彼时的 AI 在处理如微积分中的 epsilon-delta 极限证明时,极易出现幻觉,时常浑浊变量域或遗漏鸿沟条款,更多是看成一种新奇的玩物存在。
到了 2025 年,跟着大模子基础智力的莳植,陶哲轩曾公开测试 GPT-5 级别模子在复杂学术文献检索上的阐述。在那次测试中,AI 能够快速在海量未绝对结构化的论文库中挖掘出特定的定理渊源,为他从简了数周的案头检索时辰。关联词,那时 AI 饰演的仍是“高等典籍管制员”的赞助变装,而非径直介入证明的生成。
{jz:field.toptypename/}而参加 2026 年头,时局发生了质的变化。以 ChatGPT 为代表的大模子在知名的 Erdős 怒放猜想库中发力,试图“寂寞”治理这些涵盖数论与组合学数百个未解之谜的问题。陶哲轩的 GitHub 主页也纪录了愚弄这些系统自动化处理相近猜想的尝试,填补了东谈主类因元气心灵有限而忽略的角落地带。

本次愚弄 Claude Code 进行的演示,恰正是运动上述“前沿探索”与“曩昔实践”的桥梁。诚然不如谷歌 AlphaProof 自若洋际数学奥林匹克(IMO)难题那般具有极高的公众戏剧性,但在 Lean 这一类型论保险的细则性环境中,陶哲轩的演示更为接地气,也更逼近现代数学家果然的商榷常态。
天然,在坚信 AI 带来的成果创新的同期,陶哲轩偏激代表的数学界并未覆盖时间现有的局限性。
一方面,学术界有声息担忧,高度依赖 AI 生成的证明可能会引入“黑箱化”问题。即便 Lean 编译器能够从逻辑底层保证代码 100% 的正确性,但长篇累牍、由机器生成的机器说话缺少东谈主类数学独到的直观好意思感和可读性,这可能导致数学从一门“合股的艺术”异化为单纯的“标志考证”。
对此,陶哲轩保持了科学家独到的客不雅与中立。他倾向于将 AI 界说为一种纷乱的“实验数学”用具。关于高度依赖猜想和阵势匹配的任务,AI 无可替代;但波及黎曼猜想这类需要颠覆性直观和深层意见重构的中枢鸿沟,东谈主类的主导地位依然踏实。
正如他此前在 IPAM 会议上所言:“惟有 AI 为你从简的时辰,多于你为了矫正它而奢侈的时辰,它即是一款到手的用具。”这次长达 26 分钟的无编著视频,正是对这一结论的最佳背书。
在改日的数学商榷中,“东谈主机共作”或将成为一种新常态。届时,也许 AI 能够以“低级合作家”的身份,澈底买通数学从直观构猜测猜想机神色化考证之间的瓶颈。
视频地址:https://www.youtube.com/watch?v=JHEO7cplfk8&t=124s
运营/排版:何晨龙