Hermes vs. OpenClaw, Cybersecurity Alarms Ring, More-Interactive Conversations, Can Agents Do Human Work?

TL;DR · AI 摘要
Hermes Agent作为开源AI代理挑战OpenClaw的主导地位,同时Andrew Ng对哈佛大学限制A级成绩比例的政策提出批评,认为教育应专注于帮助学生成功而非评判。
核心要点
- Hermes Agent是2026年2月由Nous Research发布的开源AI代理,挑战OpenClaw的市场地位
- 哈佛大学投票决定将本科课程A级成绩限制在约20%,旨在对抗成绩通胀问题
- Andrew Ng认为教育应帮助100%学生成功,而非通过评判筛选少数优秀者
结构提纲
按章节快速跳转。
许多大学A/B成绩比例持续上升导致GPA作为技能信号的作用减弱。
教育机构应在帮助学生成功与评判学生能力之间找到平衡点。
Hermes Agent作为新开源AI代理正在挑战OpenClaw的市场主导地位。
Hermes Agent由纽约AI实验室Nous Research于2026年2月发布。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AI代理竞争与教育理念
- Hermes vs OpenClaw
- 开源AI代理
- Nous Research
- 市场竞争
- 教育评估哲学
- 成绩通胀
- 帮助vs评判
- 学习成功率
金句 / Highlights
值得收藏与分享的关键句。
Harvard University just voted to limit the number of A grades given in undergraduate classes to about 20% of the class.
We should hold a high bar, but also work mightily to support the success of 100% of learners, rather than a fraction.
Hermes Agent, an open-source agent launched in February by the New York-based AI lab Nous Research
亲爱的朋友们,
哈佛大学刚刚投票决定限制本科课程中A等级的比例,将其控制在班级人数的约20%。我并不支持这一做法。这与我对教育理念的信念完全相悖。我们应该设定高标准,但同时也要全力支持100%的学习者取得成功,而不是只支持其中的一部分人。
哈佛管理层采取这一措施——尽管遭到了相当一部分学生的反对——是为了对抗成绩通胀。成绩通胀确实存在:许多大学一直在向越来越多的学生颁发A和B等级,这导致平均绩点(GPA)作为学生技能信号的作用变得越来越小。与此同时,我们希望学生能够成功。问题的核心在于教育机构的角色。我们的目标应该是:
- 帮助学生成功?
- 评判学生?
这两者都有价值。但我在从事教育工作时几乎完全是专注于帮助学生成功。
在我看来,很明显许多人想要学习,想要获得能力,想要培养让他们能够做新事情的技能!这是我们在DeepLearning.AI专注的重点。这种哲学也是为什么我的在线课程(可以追溯到我早期在Coursera上的斯坦福在线课程)允许分级作业无限次重试。
我相信让——甚至鼓励——某人重新做某事直到成功。这与对他们第一次没有做对的事实进行评判相对立。此外,我认为家庭作业应该主要设计用来帮助人们练习和学习,而不是评判他们的技能水平。这就是为什么我更喜欢创建"练习题"和"练习实验室"——当你思考这些问题时,它们能帮助你获得练习并巩固你知道的知识。而不是主要设计用来评判技能的"评估题"。

但是哈佛的这一举措不会让GPA更有意义,并帮助潜在雇主识别优秀候选人吗?由于我曾从哈佛和其他机构招聘过大量人员,我可以肯定地说GPA并不是一个重要信号。我们有筛选和面试流程,能提供远比GPA准确的方式来判断某人是否真正有技能。我不需要申请人的GPA分数有更宽的分布来判断谁真的优秀!
需要明确的是,评估也有其价值。即使标准化测试备受厌恶,像SAT、ACT、GRE、TOEFL等高质量测试仍能在某个领域提供客观的能力衡量标准。我发现大多数人都想学习和成功。也有些人想要严格的评估(例如申请学校入学),但这需求较小,也不是我在构建教育产品时的关注重点。
哈佛通常被描述为"精英"教育机构。成为精英有两种方式:一种选择涉及限制招生名额,然后即使在录取的学生中,也将表现优异的人数限制在20%。我宁愿追求不同的路径:设定高标准并教授精英级、前沿的技能,但不懈努力帮助每个人成功。这样,精英地位不是通过排除他人来定义,而是通过帮助尽可能多的人变得卓越来定义。
持续学习!
安德鲁
- * *
[DEEPLEARNING.AI](http://deeplearning.ai/)的公告

构建能够生成图像和视频、评估自身输出并迭代改进结果的AI代理。在这门新的短期课程中,您将在构建用于UI原型和多场景视频解释器的视觉媒体代理时应用图像文本相似度评分、LLM评判和结构化评分标准。免费注册
新闻

Hermes代理挑战OpenClaw
OpenClaw这个极受欢迎的AI代理正面临快速崛起的竞争。
最新动态:Hermes Agent,一个由总部位于纽约的AI实验室Nous Research于二月发布的开源代理,最近在追踪代理每日消耗token数量的排行榜上超越了OpenClaw,该数据由AI模型平台OpenRouter统计。一些用户抱怨Hermes Agent的token效率较低,但它定义和精炼新技能(专业指令、工作流程和/或领域知识)的能力突出了自我改进作为核心代理能力的重要性。您可以在此处下载它这里。
工作原理: Hermes Agent 的功能与 OpenClaw 大部分重叠。Hermes Agent 主要在内存架构和自动构建技能的能力方面有所不同。它设计用于本地或云端运行,支持各种大型语言模型,并集成了约 20 种消息服务。使用本地运行的模型(或从浏览器登录后生成新访问令牌的模型)可以无需存储 API 密钥即可启动运行。它通过代理通信协议与集成开发环境协作。
- 代理循环: 与 OpenClaw 类似,Hermes Agent 的代理循环工作如下:(i) 代理根据其定义的个性、指令、工具、技能、内存、用户知识以及包含最新消息的对话历史组装提示词。(ii) 如果提示词超出关联 LLM 的输入限制,它会要求 LLM 总结对话历史中的旧消息以减少大小。(iii) 它将组装的提示词发送给 LLM 并调用工具、调用技能或回复用户。(iv) 如果它调用技能或工具,它会执行该调用,这也会输出工具调用、技能调用或用户的响应。此循环重复直到模型为用户生成响应。
- 技能: Hermes Agent 使用标准的 SKILL.md 格式作为指令文件,告诉代理如何通过调用运行 bash 脚本、搜索网络或文件、查询数据库等工具来完成任务。它带有内置技能,还可以从技能中心获取额外技能(目前远小于 OpenClaw 庞大且众包的技能库)。然而,它也能自动创建新技能。当 Hermes Agent 长时间处理问题或修复错误并决定已成功完成任务时,它会调用工具创建技能。为防止代理生成的技能失控增长,一个名为策展人(Curator)的额外后台系统 (i) 将超过 90 天未使用的每个技能移动到单独文件夹进行归档,以及 (ii) 使用 LLM 判断每个技能应保持原样、与其他技能合并还是归档。
- 内存: Hermes Agent 维护两个通用内存文件并将其添加到提示词中。一个详细记录用户偏好,另一个包含工作流程和学习经验的信息。它调用内置内存工具向这些文件添加内容。当决定添加内存时,它检查内存以确定是否值得添加以及添加到哪个文件。(例如,如果类似内存已存在或内存过于模糊,则不会添加。)当确定添加内存会超过预设文件长度时,它会检查相关内存文件并合并相关条目。Hermes Agent 还维护一个对话数据库,可通过单独工具进行搜索。此外,它可以利用外部内存提供者如Honcho,后者在每条消息后分析用户身份以推导偏好、目标和模式。
- 持续目标跟踪: 用户可以在消息中指定目标。代理完成响应后,将调用评判模型评估目标是否已完成。如果没有,则继续工作。此循环持续直到目标被判断为已完成或代理达到最大轮次。Anthropic Claude Code、OpenAI Codex 和 OpenClaw(通过插件)提供类似功能。
新闻背景: 随着大型语言模型获得跨多步骤规划、反思早期输出以及使用外部工具在线执行操作的能力,代理能力开始出现。2025年,像 Anthropic 的 Claude Code 和 OpenAI 的 Codex 等编码代理在软件开发者中获得关注,帮助推动了对更自主 AI 系统的热情。2026年初,OpenClaw 成为开源现象,其个人代理持续运行以执行在线任务并通过 WhatsApp 和 Telegram 等消息平台交互;其发明者随后加入 OpenAI。OpenClaw 的流行及其发布时的安全问题,催生了一波"爪"类代理,包括2026年2月的 Hermes Agent。随着连续版本使使用更加便捷且自我改进行为更加稳健,兴趣在4月底和5月加速增长。
重要性: 通用代理正在快速扩展 AI 驱动能力的格局。典型功能组合开始形成,但新功能仍在涌现。Hermes Agent 凭借更复杂的内存和将成功行为转化为技能的能力就是例证。它指向从无状态 AI 助手向积累经验、适应用户并自动化持续工作的代理转变。
我们的思考: 开源代理不受特定 LLM、消息平台或技能格式约束,这似乎很自然,但特别有价值。这些代理可在您常用的消息渠道中使用,并能在其框架限制内利用最佳 AI 模型。
- * *

内置对话互动性
对话模型通常等待轮次后才响应。Thinking Machines Lab 的系统同时监听、观看和回复。
新动态: TML-Interaction-Small 是一个多模态系统,能够同时处理音频、视频和文本输入并生成输出,而无需等待用户完成输入。该系统目前正在测试中,Thinking Machines 实验室预计将在今年晚些时候推出。
- 输入/输出: 并发音频、视频、文本输入,并发音频和文本输出
- 架构: 专家混合变换器(总计2760亿参数,每个token激活120亿参数),独立的背景推理模型(架构未公开)
- 功能: 实时轮流对话和打断,同步输入和输出(例如实时翻译),基于视觉线索的主动插话,以及一个独立模型在不中断对话的情况下进行推理和调用工具
- 性能: 在交互性基准测试中领先其他语音模型,但在智能基准测试中落后于GPT-Realtime-2的最强推理模式
- 可用性: 未来几个月内进行封闭研究预览,2026年晚些时候更广泛发布
- 未公开信息: 训练数据和方法、知识截止时间、上下文窗口、定价、背景模型架构
工作原理: TML-Interaction-Small 配对了两个组件:一个实时处理对话的快速交互模型,以及一个执行推理的异步后台模型。交互模型交替处理200毫秒的输入处理和输出生成块,Thinking Machines 实验室称之为微轮次,而不是在典型的输入和输出轮次之间切换。它将音频、视频和文本作为并行流处理,消除了输入结束和输出生成之间的感知边界。
- 交互模型接收离散化音频标记、40x40像素图像块的嵌入(由分层多层感知器生成)和文本嵌入。
- 它通过流匹配解码器生成音频和文本。Thinking Machines 实验室称这种方法为_无编码器早期融合_,因为它跳过了许多多模态系统所需的大型预训练编码器(如OpenAI Whisper用于音频,视觉变换器用于图像)。团队从零开始训练了变换器、感知器和解码器。
- 交互模型将推理、网络浏览和工具调用委托给异步运行的后台模型。两者共享相同的上下文。交互模型在适当时将后台模型的输出编织到对话中。
性能: 在Thinking Machines实验室的测试中,TML-Interaction-Small在评估交互性的基准测试中优于其他语音模型,但在智能测试中落后于GPT-Realtime-2的最强推理模式。
- 在测量对话轮次中音频延迟的FD-bench V1上,TML-Interaction-Small响应时间为0.40秒,明显快于设置为最小推理的Gemini-3.1-flash-live-preview(0.57秒)和设置为最小推理的GPT-Realtime-2(1.18秒)。
- 在评估模型管理打断、"嗯哼"等插入语以及前景与背景语音能力的FD-bench V1.5上,TML-Interaction-Small实现了77.8的平均质量分数,远高于设置为xhigh推理的GPT-Realtime-2(47.8平均质量)和设置为高推理的Gemini-3.1-flash-live-preview(45.5平均质量)。
- 在测试多轮音频对话中推理和遵循指令能力的Audio MultiChallenge上,TML-Interaction-Small实现了43.4%的APR(平均通过率,即满足所有标准的对话比例),落后于设置为xhigh推理的GPT-Realtime-2(48.5% APR),但领先于设置为高推理的Gemini-3.1-flash-live-preview(36.1% APR)。
- 在音频推理测试BigBench Audio上,TML-Interaction-Small在激活背景模型时实现了96.5%的准确率,略低于设置为高推理的GPT-Realtime-2和设置为高推理的Gemini-3.1-flash-live-preview(均以96.6%准确率并列)。
新闻背后: TML-Interaction-Small在Mira Murati创立Thinking Machines实验室约15个月后推出,有望成为该公司首个公开模型。这家初创公司已于10月推出了名为Tinker的微调API。今年,还有四家公司推出了能够实时聆听、说话、观看视频或图像并优雅处理打断的模型:OpenBMB在2月开源了90亿参数的MiniCPM-o 4.5,Google在3月推出了Gemini 3.1 Flash Live,阿里巴巴在3月推出了Qwen3.5 Omni,OpenAI在5月推出了GPT-Realtime-2。
重要意义: 多模态模型通常需要让用户等待一秒或更长时间才能响应,比如 GPT-Realtime-2,或者无法适当地响应提示信号。能够实时倾听、观察和回应的模型开启了回合制系统无法支持的交互方式,比如指导体育训练或监控手术。在已公开规模的此类模型中,TML-Interaction-Small 是专门为交互性能训练的最大模型——拥有 2760 亿参数,而参数数量最接近的竞争者 MiniCPM-o 4.5 只有 90 亿参数。Thinking Machines Lab 表示他们拥有更大的预训练交互模型,但目前还无法以足够快的速度提供实时交互服务,并计划在今年晚些时候发布这些模型。
我们的思考: 值得注意的是,TML-Interaction-Small 的架构与我们之前报道过的 AI Fund 投资组合公司 Vocal Bridge 所采用的方法有何不同。虽然 TML-Interaction-Small 的前景模型和背景模型是联合训练的,但 Vocal Bridge 采用了编排方法:实时语音模型通过工具调用来将繁重查询委托给单独的推理模型,并将其输出重新编织到对话中。优势在于灵活性,因为任何实时模型都可以与任何推理器配对,无需训练。缺点是延迟受底层 API 限制,系统本质上仍是回合制的,而且前景和背景之间的交接是通过编排而非学习来实现的。
- * *

网络安全警报越来越响亮
根据谷歌的一份报告,一个用于绕过双因素认证的AI生成脚本标志着大规模网络攻击时代的到来
最新进展: 谷歌安全研究人员报告称,黑客使用大语言模型识别了一个此前未知的漏洞,使他们能够控制一款广泛使用的网页管理工具。研究人员认为,犯罪分子计划大规模使用这种技术,而其发现阻止了更大范围的攻击。他们的研究报告概述了大语言模型稳步发展所带来的各种网络安全威胁。
工作原理: 谷歌团队确定了大语言模型使网络攻击执行更快更容易的几种方式。大语言模型此前已经协助过网络攻击,Anthropic 最近也警告说其 Claude Mythos Preview 模型能够找到此前未知的漏洞,但这份报告提供了新兴方法的目录。
- 变形恶意软件: 大语言模型可以生成通过改变代码元素来逃避检测的恶意软件。这类程序包含所谓的变异引擎,每次复制或感染新系统时,都会重写自己的解密例程,用实现相同结果的替代命令替换命令,添加非功能性子程序等等,同时不改变其功能。这种方法可以在保持恶意载荷完整的同时逃避杀毒软件检测,增加数据窃取、安装后门或加密文件等攻击的危险性。
- 识别逻辑缺陷: 与网络安全专业人员通常用于查找代码错误的工具不同,那些工具往往通过查找已知模式或用随机数据轰炸直到崩溃来工作,而大语言模型可以推理代码的预期用途并将这种推理应用于识别逻辑缺陷。这种能力可以发现常规工具无法察觉的漏洞,而这些漏洞通常需要人类专家进行重点审查才能发现。
- 混淆网络: 威胁行为者经常临时组织路由器、服务器和专门技术的集合来隐藏其源头、掩盖行踪并绕过防御。AI驱动的工具可以将恶意流量通过多个受损的中间服务器转发,同时避免触发典型安全监控器的模式。
- 不安全的AI基础设施: AI基础设施本身正成为黑客的诱人目标。除了使用AI来掩盖攻击外,攻击者越来越多地将AI工具、模型和辅助软件作为进入网络的入口点。破坏不安全组件为攻击者提供了深入系统内部、窃取数据、部署勒索软件或干扰运营的立足点。
新闻背后: 安全人员和政策制定者正在根据 Claude Mythos Preview 的情况审查防御和治理措施。网络安全公司 Calif 的研究人员使用该模型渗透了苹果著名的坚固安全防护。Calif 将漏洞利用提交给了苹果,苹果正在开发补丁。与此同时,英国支持的AI安全研究所(AISI)报告称,Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能够可靠地执行预计需要人类3小时的攻击——远长于他们此前1小时的预测。(在首次亮相时,Claude Opus 4.6 能够执行需要人类30分钟的攻击。) AISI 的测试将模型限制在250万个输出token。当他们允许模型使用更多token时,模型能够执行需要人类攻击者更长时间的攻击。
重要意义: 谷歌的发现指出了大型语言模型发现安全漏洞的能力与广泛使用的安全方法之间的差距正在扩大。该报告对自动化、工业规模攻击的描述暗示,下一代大型语言模型可能能够比网络安全团队实施补丁的速度更快地利用漏洞。其研究结果可能会引发更多的联邦监管审查,并使监管和商业努力变得更加复杂,因为人工智能既是防御工具,也是进攻工具,同时也是攻击的主要目标。
我们的思考: 使用过 Claude Mythos Preview 的专家证实,它在安全威胁和防御方面都有明显进步。我们乐观地认为,当前一轮的补丁将使网络更加安全,所学到的经验教训将有助于进一步人工智能进展的安全部署。除此之外,软件开发人员将需要更多地关注主动防御研究,以便在威胁行为者之前发现漏洞。
- * *

面向反映人类工作的代理基准测试
AI代理似乎越来越能够执行具有经济价值的任务,但当前的基准测试仅从狭窄的角度衡量这种能力。
最新进展: 卡内基梅隆大学和斯坦福大学的王佐等人将从代理基准测试中提取的示例映射到代表美国劳动力的统计数据。映射揭示了测试与大多数人的多样化工作之间的不匹配,这些测试通常强调软件开发。
关键见解: 工程师倾向于用技术术语描述基准示例,比如"实现冒泡排序",而经济学家使用标准化描述来描述工作活动,比如"编写、更新和维护计算机程序或软件包以处理特定任务,如跟踪库存、存储或检索数据,或控制其他设备"。工作也根据完成某项工作所需的技能来描述,例如"使用计算机"。大型语言模型可以在这些语言之间进行转换。这种能力使得比较基准示例和工作活动及技能的相对分布成为可能。
工作原理: 作者收集了来自43个代理基准测试的超过10,000个代表性示例,如SWE-bench和WebArena。作者基于美国政府的O*NET建立了两个分类法:(i)职业(包括5,806个基于计算机的工作活动)和(ii)41项相关技能。
- 他们检索了每个职业在美国的就业人数和中位工资数据,并计算了与每个职业和技能相关的总工人数和资本(就业乘以工资)。
- 他们使用Claude 3.5 Sonnet将基准示例与所有相关的基于计算机的工作活动和技能进行匹配(例如,将基准示例"实现冒泡排序"与工作活动"编写、更新和维护计算机程序……"和技能"使用计算机"进行匹配)。
- 为了限制费用,他们每次从每个基准测试中随机抽取五个示例的批次,并将其映射到工作活动和技能。当任一分类法中的总覆盖率增加少于0.1%时,他们就停止。实际上,这意味着如果基准测试包含少于300个示例,他们会包含全部;对于大多数其他基准测试,他们大约抽样300个示例。
结果: 映射显示,代理基准测试主要衡量软件工程方面的表现,这与就业市场中更广泛的就业和资本分布明显不同。
- 这些基准测试更多地关注"计算机和数学"职业(8,622个示例)而不是"办公室和行政支持"(3,186个示例)和"管理"(676个示例)。相比之下,美国在"计算机和数学"职业(520万员工)的雇员数量远少于"办公室和行政支持"(1,820万)和"管理"(1,100万)。同样,美国雇主每年支付给"计算机和数学"专业人员的总额为5636亿美元,比"办公室和行政支持"(8698亿美元)和"管理"(13263亿美元)少数百亿美元。
- 每个基准测试覆盖了不到50%的所有工作活动和不到60%的所有技能。在两个类别中覆盖最好的基准测试是GDPval,涵盖了47.8%的工作活动和58.5%的技能。所有基准测试加在一起覆盖了56.5%的工作活动,尽管它们覆盖了作者41个技能类别的85.4%。
重要意义: 代理已经迅速提高了软件工程的生产力,它们也可以为占经济很大份额的其他职业做同样的事情。识别代理基准测试与人类劳动分布之间的差距突出了未开发的机会。为行政、金融和管理领域构建代理可以产生更高的经济价值并帮助更大比例的劳动力。
我们的思考: 当前的代理性能基准测试专注于软件工程是有道理的——代理编码正蓬勃发展!在某种程度上,软件工程是将代理AI应用于其他类型工作的孵化器,我们相信衡量更广泛工作活动性能的基准测试将在适当的时候出现。