Skywork 在 OpenClaw 环境下的基准测试结果

Skywork(@Skywork_ai)

Skywork(@Skywork_ai)2026年5月19日

Skywork 在 OpenClaw 环境下的基准测试结果

4.5Score

TL;DR · AI 摘要

Skywork 发布其 AI 模型在 OpenClaw 环境下的基准测试结果，声称 v1.0 和 v1.0-lite 版本在 PinchBench、Claw-Eval 和 Skywork-Claw-Bench 测试中优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6，但缺乏具体性能数据和详细技术说明。

核心要点

Skywork 在自建的 OpenClaw 环境中使用高质量工具和基于真实用户模式合成的任务进行测试
v1.0 和 v1.0-lite 在三大基准测试中表现优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6 35B A3B/2
Claw-Eval 测试中实现了 ^3 稳定性，但具体含义和数据未公开

结构提纲

按章节快速跳转。

§测试环境介绍
Skywork 在自建的 OpenClaw 环境中进行模型评估，使用高质量工具和基于真实用户模式合成的任务。
§基准测试概述
评估覆盖 PinchBench、Claw-Eval（具备 ^3 稳定性）和 Skywork-Claw-Bench 三个测试集。
§性能对比结果
Skywork v1.0 和 v1.0-lite 在所有测试中均优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6 35B A3B/27B。

金句 / Highlights

值得收藏与分享的关键句。

在自建的 OpenClaw 环境中使用高质量工具和基于真实用户模式合成的任务进行构建。
— 帖子内容
⬇︎ 下载 PNG 𝕏 分享到 X
v1.0 和 v1.0-lite 在 PinchBench、Claw-Eval（具备 ^3 稳定性）和 Skywork-Claw-Bench 测试中均优于 Minimax 2.7、DeepSeek V4 Flash 和 Qwen 3.6 35B A3B/27B。
— 帖子内容
⬇︎ 下载 PNG 𝕏 分享到 X

#AI模型#基准测试#Skywork#性能对比#OpenClaw

打开原文

Skywork on X: "基于自建OpenClaw环境构建，配备高质量工具和基于真实用户模式合成的任务。在PinchBench、Claw-Eval（具备^3稳定性）以及Skywork-Claw-Bench上，v1.0和v1.0-lite均超越了Minimax 2.7、DeepSeek V4 Flash和Qwen" / X

正在发生精彩事件

Skywork

@Skywork_ai

基于自建OpenClaw环境构建，配备高质量工具和基于真实用户模式合成的任务。在PinchBench、Claw-Eval（具备^3稳定性）以及Skywork-Claw-Bench上，v1.0和v1.0-lite均超越了Minimax 2.7、DeepSeek V4 Flash和Qwen 3.6 35B A3B / 27B。

2026年5月19日下午12:23

·

4,145 次浏览

1

21

1