跨越非正式AI:Carina Hong与Axiom Math的Verified AI
Axiom Math以Verified AI为核心,通过形式化证明与Lean工具将“ brilliance”规模化与复利化,已在Putnam达全对并在Verina Codegen取得99%,显著高于OpenAI o3的4.9%,为AGI路径提供关键能力验证与知识传播范式。
入选理由:Axiom在Putnam考试中取得12/12,优于顶尖本科生与当时最接近的AI系统DeepSeek(103/120)。
产品
别名:Lean theorem prover
形式化验证与数学证明的交互式定理证明器,Axiom用于将非正式证明转化为可验证形式。
已跟踪 8 条高相关材料
最近变化
2026-06-03 · Axiom在Putnam考试中取得12/12,优于顶尖本科生与当时最接近的AI系统DeepSeek(103/120)。
为什么值得关注
Lean 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
🔬Scaling Past Informal AI - Carina Hong, Axiom Math
Latent Space · 8.7 分
Axiom Math以Verified AI为核心,用形式化证明与Lean工具链将“ brilliance”规模化与复利化,已在Putnam达12/12并在Verina Codegen取得99%(187/189),显著高于OpenAI o3的4.9%,为AGI路径提供关键能力验...
5篇AI生成的数学论文被接收!00后创始人洪乐潼融资14个亿
量子位 · 8.7 分
Axiom Math的AI系统AxiomProver生成并形式化证明的8篇数学论文中,5篇已通过同行评审发表;其核心是“自然语言问题→Lean形式化→机器验证”闭环,00后创始人洪乐潼带队完成14亿人民币融资,估值达16亿美元。
mimalloc: A new, high-performance, scalable memory allocator for the modern era
Microsoft Research Blog · 8.5 分
mimalloc 是一个高效、可扩展的内存分配器,适用于现代高并发、大内存规模的应用场景,显著提升了 Bing 等服务的响应时间。
已收录 8 条与 Lean 相关的内容,按评分排序。
Axiom Math以Verified AI为核心,通过形式化证明与Lean工具将“ brilliance”规模化与复利化,已在Putnam达全对并在Verina Codegen取得99%,显著高于OpenAI o3的4.9%,为AGI路径提供关键能力验证与知识传播范式。
入选理由:Axiom在Putnam考试中取得12/12,优于顶尖本科生与当时最接近的AI系统DeepSeek(103/120)。
Axiom Math的AI系统AxiomProver生成并形式化证明的8篇数学论文中,5篇已通过同行评审发表;其核心是“自然语言问题→Lean形式化→机器验证”闭环,00后创始人洪乐潼带队完成14亿人民币融资,估值达16亿美元。
入选理由:AxiomProver在24小时内可生成完整、机器验证的数学证明,已解决6个Ballantine等提出的猜想并发现1个反例
mimalloc 是一个高效、可扩展的内存分配器,适用于现代高并发、大内存规模的应用场景,显著提升了 Bing 等服务的响应时间。
入选理由:mimalloc 提供了有界最坏情况分配时间,空间开销最小,内部碎片率低。
数学家发现AI在验证、迭代流程和人类监督下的优势,企业应借鉴这些条件来加速AI进展。
入选理由:AI在数学中的应用加速了验证和迭代流程。
微软研究院提出 Intervene 框架,通过 LLM 投影自动分解 agent 输出为可验证属性,并实时生成形式化验证器(Python/Lean),支持运行中干预。
入选理由:Intervene 是微软研究院提出的实时 AI agent 验证框架,支持对部分响应进行即时验证。
Meta利用AI将数学教材翻译成Lean库,使用1830亿token,推动形式化数学发展。
入选理由:Meta使用1830亿token训练模型,将数学教材转化为Lean库。
文章声称介绍精益思想给程序员,实则聚焦于 Lean 证明助手与 AI 定理证明,主题偏离、信息不完整,缺乏工程实用价值。
入选理由:Lean 4 配合 GitHub Copilot 可用于交互式定理证明,Terence Tao 已在 YouTube 上直播使用。
Gary Marcus质疑近期数学成果是否结合神经符号系统与Lean等工具,还是纯LLM驱动,但未提供具体技术细节。
入选理由:该推文仅提出技术路线疑问,未展示任何实证分析或架构细节