5个小语言模型用于代理工具调用

KDnuggets

KDnuggets2026年5月14日

5个小语言模型用于代理工具调用

8.5Score

TL;DR · AI 摘要

小语言模型在代理工具调用中表现优异，适合资源受限场景。

核心要点

SmolLM3-3B 支持双模式推理和6种语言，适用于边缘设备。
Qwen3-4B-Instruct-2507 优化了非思考模式，适合低延迟应用。
Phi-3-mini-4k-instruct 在4K上下文长度下保持高性能。

结构提纲

按章节快速跳转。

§引言
代理AI系统依赖模型可靠调用工具的能力，大模型存在成本和硬件限制。
§模型介绍
本文列举了五款小型语言模型，支持代理工具调用。
·SmolLM3-3B
SmolLM3-3B 是一款3B参数模型，支持双模式推理和多种语言。
·Qwen3-4B-Instruct-2507
Qwen3-4B-Instruct-2507 优化了非思考模式，适合低延迟场景。
·Phi-3-mini-4k-instruct
Phi-3-mini-4k-instruct 在4K上下文长度下保持高性能。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

小语言模型与代理工具调用
- 模型概述
  - SmolLM3-3B
  - Qwen3-4B-Instruct-2507
  - Phi-3-mini-4k-instruct
- 技术特性
  - 双模式推理
  - 多语言支持
  - 高效内存管理

金句 / Highlights

值得收藏与分享的关键句。

SmolLM3-3B 使用 GQA 和 NoPE 架构，在64K上下文长度下表现优异。
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
Qwen3-4B-Instruct-2507 通过非思考模式实现快速响应，适合聊天机器人。
— 第3段
⬇︎ 下载 PNG 𝕏 分享到 X
Phi-3-mini-4k-instruct 在4K上下文长度下保持高性能，适合资源受限场景。
— 第4段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#小模型#工具调用

打开原文

标题：5款支持智能体工具调用的小型语言模型 - KDnuggets

引言

智能体AI系统的运行依赖于模型可靠调用工具的能力，包括选择正确的函数、准确格式化参数以及将结果整合到多步骤工作流中。虽然ChatGPT、Claude和Gemini等大型前沿模型在此方面表现优异，但它们在成本、延迟和硬件需求方面的权衡使得其在实际部署中往往不具可行性。小型语言模型正在迅速弥合这一差距，目前已有多个紧凑型开源方案提供一流的工具调用支持，且无需依赖数据中心即可运行。

以下按随机顺序介绍5款支持智能体工具调用的小型语言模型。为方便统一，所有模型链接均指向Hugging Face平台托管的模型。

1. SmolLM3-3B

发布日期： 2025年7月8日
开发团队： Hugging Face
模型地址：HuggingFaceTB/SmolLM3-3B

| 技术维度 | 详细信息 | | --- | --- | | 参数量 | 30亿 | | 架构 | 纯解码器Transformer（GQA + NoPE，3:1比例） | | 上下文长度 | 原生64K；通过YaRN外推法最高可达128K | | 训练词元数 | 11.2万亿 | | 多语言支持 | 6种语言（英/法/西/德/意/葡） | | 推理模式 | 双模式（可切换思考/非思考模式） | | 工具调用 | 支持：JSON/XML（xml_tools）和Python（python_tools） | | 许可证 | Apache 2.0 |

[SmolLM3](https://huggingface.co/HuggingFaceTB/SmolLM3-3B) 是一款30亿参数的语言模型，旨在突破小型模型的性能边界，支持双模式推理、6种语言和长上下文处理。该模型采用纯解码器Transformer架构，结合分组查询注意力（GQA）和无位置嵌入（NoPE）技术（3:1比例），通过分阶段课程学习在网页、代码、数学和推理数据上进行了11.2万亿词元的预训练。训练后阶段包含1400亿推理词元的中期训练，随后进行监督微调和基于锚定偏好优化（APO）的对齐处理——这是HuggingFace的离策略偏好对齐方法。模型支持两种不同的工具调用接口：通过xml_tools的JSON/XML数据块调用，以及通过python_tools的Python风格函数调用，使其在智能体流水线和RAG系统中具有高度灵活性。作为包含权重、数据集和训练代码的完全开源版本，SmolLM3非常适合在边缘设备或低显存机器等受限硬件上部署聊天机器人、RAG系统和代码助手。

2. Qwen3-4B-Instruct-2507

发布日期： 2025年8月6日
开发团队： 阿里巴巴（千问团队）
模型地址：Qwen/Qwen3-4B-Instruct-2507

| 技术维度 | 详细信息 | | --- | --- | | 参数量 | 40亿（非嵌入参数36亿） | | 架构 | 因果语言模型，36层，GQA（32个查询头/8个键值头） | | 上下文长度 | 262,144词元（原生支持） | | 推理模式 | 仅非思考模式（不支持$think%块） | | 多语言 | 100+语言 | | 工具调用 | 支持：通过Qwen-Agent/MCP原生调用 | | 许可证 | Apache 2.0 |

[Qwen3-4B-Instruct-2507](https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507) 是Qwen3-4B非思考模式的升级版本，在指令遵循、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力方面有显著提升。该模型在多种语言的长尾知识覆盖范围上也取得重大进展。指令版和思考版变体均包含40亿总参数（嵌入层外36亿），构建于36个Transformer层，采用32查询头/8键值头的分组查询注意力机制，为超长上下文提供高效内存管理。此特定非思考变体针对直接快速响应场景进行优化，例如无需显式思维链痕迹的简洁答案生成，使其特别适合对低延迟有要求的聊天机器人、客服系统和工具调用智能体。Qwen3在工具调用能力方面表现卓越，阿里巴巴推荐使用Qwen-Agent框架，该框架内置工具调用模板和解析器以降低编码复杂度，并支持MCP服务器配置文件。

3. Phi-3-mini-4k-instruct

发布日期： 2024年4月
开发团队： 微软
模型地址：microsoft/Phi-3-mini-4k-instruct

| 技术维度 | 详细信息 | | --- | --- | | 参数量 | 38亿 | | 架构 | 纯解码器Transformer | | 上下文长度 | 4K词元 | | 词表大小 | 32,064词元 | | 训练数据 | 合成数据+过滤后的公开网页数据 | | 训练后处理 | SFT + DPO | | 工具调用 | 支持：通过对话模板（需HF transformers ≥ 4.41.2） | | 许可证 | MIT |

[Phi-3-Mini-4K-Instruct](https://huggingface.co/microsoft/Phi-3-mini-4k-instruct) 是一款拥有 38 亿参数的轻量级尖端开源模型，采用 Phi-3 数据集训练而成。该数据集包含合成数据及经过筛选的公开网络数据，注重高质量和强推理能力。模型在训练后阶段结合了监督微调（SFT）和直接偏好优化（DPO），以提升指令遵循能力和安全性。作为微软旗舰级“小而精”模型，Phi-3-mini 在发布时因其能在智能手机等设备端运行，并在能力基准测试中媲美 GPT-3.5 而备受关注。该模型主要面向内存和计算资源受限的环境、延迟敏感场景，以及需要强推理能力（尤其是数学和逻辑）的任务。尽管它是本文所列模型中发布时间较早、且上下文窗口限制在 4K 的模型，但其采用的 MIT 许可证使其成为授权最宽松的选择之一，其强大的通用推理能力也使其成为商业应用微调的热门基础模型。

#4. Gemma-4-E2B-it

发布日期： 2026 年 4 月 2 日
开发商： Google DeepMind
地址：google/gemma-4-E2B-it

| 技术维度 | 详细信息 | | --- | --- | | 有效参数量 | 23 亿（含嵌入层总计 51 亿） | | 架构 | 稠密网络，混合注意力（滑动窗口 + 全局）+ PLE | | 层数 | 35 | | 滑动窗口 | 512 个词元 | | 上下文长度 | 128K 词元 | | 词表大小 | 262K | | 模态支持 | 文本、图像、音频（≤30 秒）、视频（帧处理） | | 多语言能力 | 35+ 种原生语言，训练涵盖 140+ 种语言 | | 工具调用 | 支持：原生函数调用 | | 许可证 | Apache 2.0 |

[Gemma-4-E2B](https://huggingface.co/google/gemma-4-E2B-it) 属于 Google DeepMind 的 Gemma 4 系列，采用混合注意力机制，结合了局部滑动窗口注意力和完整全局注意力。这种设计既保持了轻量级模型的处理速度和低内存占用，又兼顾了复杂长上下文任务所需的深度感知能力。E2B 中的“E”代表“有效”参数量，这得益于名为逐层嵌入（PLE）的关键架构创新——在每个解码器层添加专用条件向量。正是这一机制使得 E2B 模型在量化后仅需不到 1.5 GB 内存即可运行，并仍能生成有价值的结果。该模型支持原生函数调用，可实现智能体工作流，并针对移动端和物联网设备部署进行优化，能够处理文本、图像、音频和视频输入。Gemma 4 E2B 采用 Apache 2.0 许可证（较早期 Gemma 系列的限制性自定义许可证更为宽松），对于构建完全在边缘运行的多模态智能体应用的开发者而言极具吸引力。

#5. Mistral-7B-Instruct-v0.3

发布日期： 2024 年 5 月 27 日
开发商： Mistral AI
地址：Mistral-7B-Instruct-v0.3

| 技术维度 | 详细信息 | | --- | --- | | 参数量 | 72.5 亿 | | 架构 | Transformer，分组查询注意力 + 滑动窗口注意力 | | 上下文长度 | 32,768 个词元 | | 词表大小 | 32,768 个词元（较 v0.2 版本扩展） | | 分词器 | v3 Mistral 分词器 | | 函数调用 | 支持：通过 TOOL_CALLS / AVAILABLE_TOOLS / TOOL_RESULTS 专用词元（详见此处） | | 许可证 | Apache 2.0 |

[Mistral-7B-Instruct-v0.3](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3) 是基于 Mistral-7B-v0.3 进行指令微调的版本，相比 v0.2 主要带来三项重要改进：词表扩展至 32,768 个词元、支持 v3 分词器以及新增函数调用支持。该模型采用分组查询注意力以加速推理，并通过滑动窗口注意力（SWA）高效处理长序列。函数调用功能则通过扩展词表实现，其中包含用于 TOOL_CALLS、AVAILABLE_TOOLS 和 TOOL_RESULTS 的专用词元。作为本次汇总中参数量最大（72.5 亿）的模型，Mistral-7B-Instruct-v0.3 在通用指令遵循性能方面表现最佳，已成为行业标准的主力模型，通过 Ollama、vLLM 及大多数推理平台广泛可用。

#总结

本文介绍的五款模型——SmolLM3-3B、Qwen3-4B-Instruct-2507、Phi-3-mini-4k-instruct、Gemma-4-E2B-it 和 Mistral-7B-Instruct-v0.3——在架构、参数量、上下文窗口和发布日期等方面各不相同，但都有一个重要共同点：它们都以紧凑的开源权重包形式支持结构化工具调用。

从 Hugging Face 完全透明的 SmolLM3，到 Google DeepMind 为边缘计算优化的多模态 Gemma 4 E2B，这些模型表明，强大的智能体模型不再需要依赖庞大基础设施和尖端模型。无论您的优先需求是设备端推理、长上下文处理、多语言覆盖还是最宽松的许可证，本列表中总有一款模型值得探索。

需要注意的是，这些并非唯一具备工具调用能力的小型语言模型。但它们确实很好地代表了我有直接使用经验，并根据实测结果认为值得推荐的模型。

[](https://www.linkedin.com/in/mattmayo13/)**[Matthew Mayo](https://www.kdnuggets.com/wp-content/uploads/profile-pic.jpg) ([@mattmayo13**](https://twitter.com/mattmayo13)) 拥有计算机科学硕士学位和数据挖掘研究生文凭。作为 KDnuggets&Statology 的执行主编，以及 Machine Learning Mastery 的特约编辑，Matthew 致力于让复杂的数据科学概念变得通俗易懂。他的专业兴趣包括自然语言处理、语言模型、机器学习算法以及探索新兴人工智能技术。推动数据科学领域知识普及是他的核心使命。Matthew 从 6 岁起就开始接触编程。