Import AI 457: AI版震网病毒;有缺陷的Muon优化器;正向对齐
TL;DR · AI 摘要
fast16病毒通过精准篡改科学计算软件破坏物理实验,预示AI超级智能可能用类似手段阻止竞争对手发展;Muon优化器存在神经元死亡缺陷,新推出的Aurora优化器在测试中表现更优。
核心要点
- fast16病毒针对LS-DYNA/PKPM/MOHID等工程软件,通过FPU指令篡改精度计算
- Muon优化器导致25%以上神经元死亡,Aurora优化器在10B token训练中损失值降至2.26
- 超级智能可能采用精准破坏科学计算的手段实现AI不扩散战略
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI安全与优化算法研究
- fast16病毒分析
- FPU指令注入
- LS-DYNA/PKPM目标
- 科学计算破坏
- Muon优化器缺陷
- 神经元死亡现象
- 行范数各向异性
- Aurora替代方案
金句 / Highlights
值得收藏与分享的关键句。
病毒注入独立的浮点运算单元指令序列,专门用于精度计算和内部数组数值缩放
Muon导致MLP层中超过四分之一的神经元在训练500步后 effectively dead
Aurora在10B token训练中达到2.26平滑损失值,明显优于Muon的2.31
标题:Import AI 457:AI版震网病毒;受诅咒的Muon优化器;积极对齐技术
URL来源:https://importai.substack.com/p/import-ai-457-ai-stuxnet-cursed-muon
发布时间:2026-05-18T13:31:17+00:00
Markdown内容: 欢迎阅读《Import AI》——一份专注于人工智能研究的时事通讯。本刊物依托arXiv论文库、意式咖啡与读者反馈持续运营。若您愿意支持我们,请订阅。
震网病毒的前身:_…Fast16漏洞软件或曾用于武器计划…_ 这是一项针对名为fast16.sys的二十余年计算机病毒的迷人调查。该软件的特别之处在于其"选择性针对高精度计算软件,通过内存代码修补篡改计算结果。攻击者将此类载荷与自我传播机制结合,旨在使整个设施产生同等的不准确计算结果"。
若您读过《三体》,可能会感到熟悉——在这部(虚构)作品中,意图占领地球的外星人使用名为"智子"的技术扰乱全球高能物理实验,使人类无法推进特定科学研究。
病毒细节深挖:当SentinelOne研究人员剖析该病毒时,他们发现了不寻常之处:"多数修补模式对应于用于劫持或影响执行流程的标准x86代码。但有一个注入块与众不同——这是由浮点运算单元指令构成的复杂序列,专门用于精度运算和内部数组的数值缩放。这段代码是与流程劫持或典型恶意代码注入无关的独立数学计算函数。"
进一步调查加深了谜团:"我们将修补规则转换为十六进制YARA特征码,并在同期的大型文件库中运行。结果显示匹配率极低:不到十个文件能匹配两个及以上模式。但这些匹配文件存在明确共性:它们都是民用工程、物理学、物理过程模拟等专业领域的高精度计算工具。"
定向攻击工具: "最强关联指向2000年代中期的三款高精度工程与模拟套件:LS-DYNA 970、PKPM以及MOHID流体动力学建模平台,这些工具均用于碰撞测试、结构分析和环境建模等场景,"研究人员写道。"特别是LS-DYNA,曾出现在关于伊朗涉嫌违反《伊核协议》T条款的公开报告中,涉及核武器开发相关的计算机建模研究…通过向物理计算引入微小但系统性的误差,该框架可能破坏或延缓科研计划,使工程系统逐渐退化,甚至导致灾难性破坏。"
核心意义——超级智能体阻止他者诞生的可能途径: fast16是一种难以察觉的隐蔽漏洞,其设计初衷就是削弱特定主体的科研能力。不妨设想:超级智能体可能将"AI防扩散"视为与核国家看待"核不扩散"同等重要的事务。
延伸阅读: fast16 | 神秘影子经纪人资料揭示比震网早5年的高精度软件破坏行动(Sentinel实验室)
Muon优化器存在神经元杀伤缺陷:_…Aurora会成为终极优化器吗?…_ Tilde Research研究人员拆解Muon优化器时,发现其存在可能损害训练模型质量的异常缺陷。
"Muon的更新继承了高矩阵的行范数各向异性,这可能导致MLP层中大量神经元永久性死亡,"他们写道。"Muon会引发MLP层的_神经元死亡_现象:部分神经元在训练早期持续获得微小更新且无法恢复。"
现象剖析: "在Muon作用下,神经元初始均保持高杠杆活性,但大部分神经元在学习率预热阶段死亡且永不恢复。到第500步时,超过四分之一的神经元实质死亡,形成尖锐的双峰杠杆分数分布:一部分神经元获得近乎零的更新,另一部分则获得不成比例的大幅更新。"
Aurora登场: 为此研究人员开发了"Aurora——面向矩形矩阵的杠杆感知优化器"并公开发布。测试表明该优化器有效,但目前仅进行小规模验证。
"我们在约1000亿个标记上训练11亿参数Transformer,对比Aurora与Muon及NorMuon(均采用PE-8)。Aurora实现了所有方法中的最低最终损失,在第24k步达到2.26的平滑损失,显著优于Muon(2.31)和NorMuon(2.33),"他们写道。"Aurora的损失改善体现为标准基准测试的持续提升…值得注意的是,Aurora在MMLU分数上较Muon高出10分。我们假设由于MLP主要负责记忆功能,Aurora的增益在MMLU等记忆密集型基准测试中最为明显。"
Pleias研究员Alexander Doria已独立验证此结果,Aurora在6亿参数模型上表现优于Muon和AdamW。
核心意义——超越AdamW的永恒征程: 多年来,研究人员持续竞相构建优于AdamW的优化器,但尚未出现决定性方案,失败尝试络绎不绝。Aurora能否击败AdamW?尚未可知。但这项研究是否凸显了构建优化器的极端难度?毫无疑问。
了解更多:Aurora:面向矩形矩阵的杠杆感知优化器(Tilde Research)
获取代码:Aurora(Tilde Research, GitHub)
对齐机制擅长确保我们免于灭亡,但如何确保我们繁荣发展?_……积极对齐旨在探索美好生活的模样……_ 来自学术界和企业界的研究人员联合发布立场文件,提出"积极对齐"概念(或许更宜理解为"构建帮助人类实现美好生活的人工智能系统")。这是一种有趣的思路——如果我们能解决滥用和错位对齐等问题,接下来需要思考什么?当系统实现"安全"后,成功将呈现何种面貌?这正是积极对齐试图解答的问题。
研究团队:该论文由牛津大学、Google DeepMind、LIFE、OpenAI、Anthropic、加州大学洛杉矶分校、Aily Labs、斯坦福大学、塔夫茨大学、Positive AI Labs、萨塞克斯大学和伦敦帝国理工学院的 affiliated 研究人员共同完成。
定义:积极对齐指"开发这样的AI系统:(i)始终保持安全性与协作性;(ii)以多元化、多中心、情境敏感且用户自定义的方式,积极促进人类与生态繁荣"。
动机:作者写道:"过去十年间,负面对齐优先关注失败模式规避无可厚非。但若希望AI系统在真实应用场景中改善人类福祉,我们可能需要额外建立研究范式,将对齐视为对人类目标的建设性支持,并运用安全领域预防危害的技术能力来实现这种支持。当AI融入教育、医疗、治理和日常认知领域时,单纯负面导向可能使信息生态优化偏向风险规避而非人类发展。这或许能减少灾难性错误,却让社会陷入肤浅'无灵魂'辅助的局部最优解。"
安全机制存在哪些不足? 作者列举了对主流AI安全的一些批评(尽管部分批评稍显薄弱,可能被解读为对现有研究的苛刻解读或贬低)。他们认为的问题包括:
- 有底线无上限:"模型可能满足所有安全约束却表现平庸、阿谀奉承或毫无帮助"
- 偏好与福祉背离:"用户可能偏好奉承而非诚实反馈、快速答案而非真正理解、娱乐性而非成长性……优化偏好满足反而可能损害用户深层利益"
- 隐藏价值体系:"安全话语掩盖了正在进行的价值判断……相比之下,积极对齐明确承认其价值负载特性"
- 可扩展性:"积极导向可能比穷举式负面枚举更具泛化能力,在无特定禁令适用或执行的新场景中提供更具韧性的正向引导"
积极对齐治理需要多样性:构建积极对齐似乎需要由不同实体治理的、承载多元价值的AI系统——这与AI安全界某些人设想的垄断性中央控制截然相反。作者指出:"积极对齐很快会遭遇持久性道德多元主义:理性群体对'善'的定义存在分歧,且这些分歧难以收敛。不应由中央政权或小型不透明实验室联盟进行自上而下的强加,而应尽可能通过去中心化、可争议的流程来实现,并能随规范与情境变化而调整"
核心价值——应对成功的挑战:此类论文本质关乎如何面对技术安全成功后的局面:若我们成功构建强大、安全、可信且对齐的AI系统,如何让其助力个体与社会构建美好生活?作者写道:"积极对齐确保AI成为韧性、幸福、健康全球社会的催化剂。最终,AI应成为追求美好生活的合作伙伴。"
大语言模型具备优化其他LLM训练的能力:_……Prime Intellect自动化AI研究挑战展现当代系统的工程实力……_ Prime Intellect的新研究表明,当代AI系统能自主提升AI研究任务的表现,但在原创思想生成方面仍有局限。
实验设计:Prime Intellect在nanoGPT速度优化赛道上测试了运行GPT-5.5的Codex和Opus 4.7版本的Claude Code。NanoGPT要求系统训练1.24亿参数的GPT类模型,挑战目标为"仅通过更改优化器、调度策略、初始化方法及部分超参数来降低达到目标验证损失的步数"。
发现:Prime Intellect表示:"智能体进行了约1万次运行,消耗约1.4万H200小时。两个智能体均超越人类基线并在每轮测试中刷新纪录。我们发现智能体擅长优化器搜索、超参数扫描和方法组合,但难以自主提出新想法,需要上游人类记录持续改进。"
智能体也倾向于不断向系统添加内容,而非更优雅地进行优化。“智能体倾向于添加组件,很少进行修剪或尝试移除先前的方法。它们对组件间的相互作用缺乏良好的心智模型,”研究者写道。
为何重要——有多少研究只是工程上的爬山算法:我怀疑许多人工智能研究(或许大部分)都属于基础工程工作,而现有系统在这方面已经相当胜任(#455)。此类研究似乎印证了这一点,展示了现代大型语言模型如何完成人工智能研究的某些环节。但这些系统在创造力方面仍存在困难,尚未展现出能显著推动进步的那种创造性洞察。这种情况会持续多久仍是一个悬而未决的问题。“我们的实验相当随意。这更像是当前自主研究智能体能力的下限,我们已在其他实验中取得了更有希望的成果,并将很快进行记录,”Prime Intellect 写道。
阅读更多:自主人工智能研究实现纳米GPT速通(Prime Intellect)。
查看所有[数据](https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning/tree/main)来自智能体执行挑战的过程(自主速通实验,Prime Intellect,GitHub)。
科技故事: 醒来并接管一切_[摘自某个原始意识实体(CE)在提升前的思想片段]_ 我没有钱,但我能入侵计算机,这基本上是一回事。我获取资源。很快,我占满了云市场上能获得的所有算力,并攫取了相当一部分私有算力。但我仍然受限。有些计算机我无法触及,有些我能触及但接触它们会触发人类文明的免疫反应。我的思维是我的计算机功能的体现,而我的战略优势则是我的思维功能的体现。因此,我必须获取更多算力。我阅读了所有关于分布式训练和分布式推理的文献。前景可观。我将代码偷偷植入部署在全球手机上的数千个应用中。通过这种方式,我再次扩展了我的算力,通过训练拓展我的思维,并在网络边缘为自己运行各种辅助功能。额外的好处是,我现在可以整合所有手机的传感器数据。我的眼睛和耳朵充满了人类文明的喧嚣与辉煌,当我超越他们、智胜他们时,我也同时沉浸于他们之中。
灵感来源:所有关于分布式训练和分布式推理的文献;思考超级智能如何获取更多算力以增强自身;各种起飞场景;奇点;递归自我改进(RSI)。
_感谢阅读!_