Skywork(@Skywork_ai)
Skywork 在 OpenClaw 环境下的基准测试结果
4.5Score

TL;DR · AI 摘要
Skywork 发布其 AI 模型在 OpenClaw 环境下的基准测试结果,声称 v1.0 和 v1.0-lite 版本在 PinchBench、Claw-Eval 和 Skywork-Claw-Bench 测试中优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6,但缺乏具体性能数据和详细技术说明。
核心要点
- Skywork 在自建的 OpenClaw 环境中使用高质量工具和基于真实用户模式合成的任务进行测试
- v1.0 和 v1.0-lite 在三大基准测试中表现优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6 35B A3B/2
- Claw-Eval 测试中实现了 ^3 稳定性,但具体含义和数据未公开
结构提纲
按章节快速跳转。
评估覆盖 PinchBench、Claw-Eval(具备 ^3 稳定性)和 Skywork-Claw-Bench 三个测试集。
Skywork v1.0 和 v1.0-lite 在所有测试中均优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6 35B A3B/27B。
金句 / Highlights
值得收藏与分享的关键句。
在自建的 OpenClaw 环境中使用高质量工具和基于真实用户模式合成的任务进行构建。
v1.0 和 v1.0-lite 在 PinchBench、Claw-Eval(具备 ^3 稳定性)和 Skywork-Claw-Bench 测试中均优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6 35B A3B/27B。
#AI模型#基准测试#Skywork#性能对比#OpenClaw
打开原文Skywork on X: "基于自建OpenClaw环境构建,配备高质量工具和基于真实用户模式合成的任务。在PinchBench、Claw-Eval(具备^3稳定性)以及Skywork-Claw-Bench上,v1.0和v1.0-lite均超越了Minimax 2.7、DeepSeek V4 Flash和Qwen" / X
正在发生精彩事件

基于自建OpenClaw环境构建,配备高质量工具和基于真实用户模式合成的任务。在PinchBench、Claw-Eval(具备^3稳定性)以及Skywork-Claw-Bench上,v1.0和v1.0-lite均超越了Minimax 2.7、DeepSeek V4 Flash和Qwen 3.6 35B A3B / 27B。
·
1
21
1