美团 LongCat 开源 General 365:树立推理评测新标尺
美团技术团队2029 字 (约 9 分钟)
85
美团开源 General 365 基准测试,揭示大模型在通用推理上的真实能力边界。
入选理由:Gemini 3 Pro 在 General 365 上准确率仅 62.8%,多数模型未达及格线
精选文章#大模型#推理评测#通用推理中文
产品
别名:General365
美团开源的通用推理评测基准测试平台。
已跟踪 1 条高相关材料
最近变化
2026-05-15 · Gemini 3 Pro 在 General 365 上准确率仅 62.8%,多数模型未达及格线
为什么值得关注
General 365 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
已收录 1 条与 General 365 相关的内容,按评分排序。
美团开源 General 365 基准测试,揭示大模型在通用推理上的真实能力边界。
入选理由:Gemini 3 Pro 在 General 365 上准确率仅 62.8%,多数模型未达及格线