llama.cpp 最近有什么新动态？

traeai 已收录 6 篇与 llama.cpp 相关的内容。最新一篇是「Gemma 4 12B: The Developer Guide」，由 Google Developers Blog 发布。

产品

llama.cpp

别名：llama-server

文中提及的本地推理引擎，用于在消费级硬件上运行Gemma 4 12B。

已跟踪 6 条高相关材料

Gemma 4 12B: The Developer Guide

Google Developers Blog · 9.2 分

Gemma 4 12B采用无编码器多模态架构，可在16GB显存设备上本地运行并原生支持音频输入。该模型通过移除独立视觉与音频编码器显著降低延迟，配合专用MTP模型提升推理速度，是首个支持macOS桌面端全离线交互的中型多模态模型。

Reachy Mini goes fully local

Hugging Face Blog · 8.5 分

Reachy Mini 现在可以在本地运行语音后端，无需连接到云端服务器。

This is where we are right now. And i’m not gonna lie it feels pretty magical 🧚‍♀️ Qwen3.6 27B run...

Julien Chaumond(@julien_c) · 7.8 分

Julien Chaumond 展示 Qwen3.6-27B 模型通过 Llama.cpp 在 MacBook Pro 上本地运行 Pi 编程代理，处理 Hugging Face 代码库任务时性能逼近 Claude Opus，且完全离线。

Google Developers Blog6月5日1171 字 (约 5 分钟)

入选理由：Gemma 4 12B移除独立编码器，视觉仅用35M参数嵌入层，音频直接线性投影至LLM输入空间

精选文章#Gemma 4#多模态大模型#无编码器架构#本地AI#Google英文

Hugging Face Blog5月27日1966 字 (约 8 分钟)

Reachy Mini 现在可以在本地运行语音后端，无需连接到云端服务器。

入选理由：部署本地语音后端于 Reachy Mini 上。

精选文章#Reachy Mini#语音后端#本地服务中文

Julien Chaumond(@julien_c)5月2日376 字 (约 2 分钟)

Julien Chaumond 展示 Qwen3.6-27B 模型通过 Llama.cpp 在 MacBook Pro 上本地运行 Pi 编程代理，处理 Hugging Face 代码库任务时性能逼近 Claude Opus，且完全离线。

入选理由：Qwen3.6-27B 已可在消费级 Mac 本地高效运行编程任务

精选推文#Qwen#Llama.cpp#Pi Agent#Local LLM#Hugging Face中文

clem 🤗(@ClementDelangue)5月24日92 字 (约 1 分钟)

llama.cpp 加入 MTP 支持后，本地模型推理速度提升 78%，Qwen3.6-27B 在 A10G 上从 25 token/s 提升至 45 token/s。

入选理由：MTP 支持使 llama.cpp 推理速度提升 78%

精选推文#llama.cpp#MTP#Qwen#本地模型#推理加速英文

Julien Chaumond(@julien_c)5月20日255 字 (约 2 分钟)

MTP是llama.cpp内置的投机解码新特性，可将大多数用例的token生成速度提升约2倍，通过Dense 27B模型可达~30 tok/sec，MoE模型可达~100 tok/sec。

入选理由：MTP是内置于模型本身的投机解码新特性，可将token生成速度提升约2倍

精选推文#llama.cpp#MTP#投机解码#Qwen#大模型推理优化英文

Google AI Developers(@googleaidevs)6月4日78 字 (约 1 分钟)

Google 宣布其模型权重与主流开源生态兼容，可在 Hugging Face 和 Kaggle 直接下载，降低部署门槛。

入选理由：Gemma 4 权重与 llama.cpp、vLLM、Ollama 等生态兼容，便于本地部署与推理。

精选推文#Gemma#开源生态#模型部署#Hugging Face#Kaggle英文

回答基于：llama.cpp 相关 6 条材料