T
traeai
登录

产品

llama.cpp

别名:llama-server

文中提及的本地推理引擎,用于在消费级硬件上运行Gemma 4 12B。

已跟踪 6 条高相关材料

TraeAI 观察

相关材料

已收录 6 条与 llama.cpp 相关的内容,按评分排序。

Gemma 4 12B: The Developer Guide

Gemma 4 12B:开发者指南

Google Developers Blog1171 字 (约 5 分钟)
92

Gemma 4 12B采用无编码器多模态架构,可在16GB显存设备上本地运行并原生支持音频输入。该模型通过移除独立视觉与音频编码器显著降低延迟,配合专用MTP模型提升推理速度,是首个支持macOS桌面端全离线交互的中型多模态模型。

入选理由:Gemma 4 12B移除独立编码器,视觉仅用35M参数嵌入层,音频直接线性投影至LLM输入空间

精选文章#Gemma 4#多模态大模型#无编码器架构#本地AI#Google英文
Hugging Face Blog 图标

Reachy Mini goes fully local

Hugging Face Blog1966 字 (约 8 分钟)
85

Reachy Mini 现在可以在本地运行语音后端,无需连接到云端服务器。

入选理由:部署本地语音后端于 Reachy Mini 上。

精选文章#Reachy Mini#语音后端#本地服务中文
This is where we are right now. And i’m not gonna lie it feels pretty magical 🧚‍♀️

Qwen3.6 27B run...

Julien Chaumond 展示 Qwen3.6-27B 模型通过 Llama.cpp 在 MacBook Pro 上本地运行 Pi 编程代理,处理 Hugging Face 代码库任务时性能逼近 Claude Opus,且完全离线。

入选理由:Qwen3.6-27B 已可在消费级 Mac 本地高效运行编程任务

精选推文#Qwen#Llama.cpp#Pi Agent#Local LLM#Hugging Face中文
llama.cpp with MTP support makes local models fast enough to use as daily drivers 🚀 

Qwen3.6-27B d...

llama.cpp 加入 MTP 支持,本地模型性能大幅提升

clem 🤗(@ClementDelangue)92 字 (约 1 分钟)
75

llama.cpp 加入 MTP 支持后,本地模型推理速度提升 78%,Qwen3.6-27B 在 A10G 上从 25 token/s 提升至 45 token/s。

入选理由:MTP 支持使 llama.cpp 推理速度提升 78%

精选推文#llama.cpp#MTP#Qwen#本地模型#推理加速英文
I've seen some confusion online on how to run llama.cpp with MTP (Multi-token prediction) in the sim...

如何在llama.cpp中运行MTP(多token预测)

Julien Chaumond(@julien_c)255 字 (约 2 分钟)
75

MTP是llama.cpp内置的投机解码新特性,可将大多数用例的token生成速度提升约2倍,通过Dense 27B模型可达~30 tok/sec,MoE模型可达~100 tok/sec。

入选理由:MTP是内置于模型本身的投机解码新特性,可将token生成速度提升约2倍

精选推文#llama.cpp#MTP#投机解码#Qwen#大模型推理优化英文
> Ecosystem: Compatible with llama.cpp, MLX, @LMStudio, vLLM, @ollama, @UnslothAI, and SGLang.
&g...

Google AI Developers:Gemma 4 生态兼容与下载

Google AI Developers(@googleaidevs)78 字 (约 1 分钟)
65

Google 宣布其模型权重与主流开源生态兼容,可在 Hugging Face 和 Kaggle 直接下载,降低部署门槛。

入选理由:Gemma 4 权重与 llama.cpp、vLLM、Ollama 等生态兼容,便于本地部署与推理。

精选推文#Gemma#开源生态#模型部署#Hugging Face#Kaggle英文

跨材料问答 · llama.cpp

回答基于:llama.cpp 相关 6 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容