Benchmark and optimize LLMs on-device with AI Edge Portal
Google AI Edge Portal新增LLM基准测试和调试功能,支持在120+ Android设备上优化模型性能,提供初始化时间、解码速度等关键指标分析及可视化调试工具。
入选理由:AI Edge Portal支持在120+ Android设备上测试LLM,提供初始化时间、预填速度等4项核心性能指标
产品
轻量级大语言模型运行时,支持通过CLI在本地启动兼容OpenAI格式的服务端点。
已跟踪 4 条高相关材料
最近变化
2026-06-05 · Gemma 4 12B通过LiteRT-LM在消费级笔记本运行,支持本地Agent与多模态任务。
为什么值得关注
LiteRT-LM 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Benchmark and optimize LLMs on-device with AI Edge Portal
Google Cloud Blog · 8.5 分
Google AI Edge Portal新增LLM基准测试和调试功能,支持在120+ Android设备上优化模型性能,提供初始化时间、解码速度等关键指标分析及可视化调试工具。
Bringing Gemma 4 12B to your Laptop: Unlocking Local, Agentic Workflows with Google AI Edge
Google Developers Blog · 8.2 分
Gemma 4 12B模型结合Google AI Edge栈已实现笔记本端本地运行,支持macOS上的代码生成、语音编辑及OpenAI兼容API服务。该组合使设备端Agent工作流成为可能,指令遵循质量提升超60%,且全程离线保障数据隐私。
Blazing fast on-device GenAI with LiteRT-LM
Google Developers Blog · 7.5 分
Google AI Edge 发布 LiteRT-LM 推理引擎,专为在边缘设备上高效运行 Gemma 4 模型设计,支持 Android、iOS、Web 多平台,GPU 推理可达 76 tokens/sec,结合 Multi-Token Prediction 技术实现 2.2...
已收录 4 条与 LiteRT-LM 相关的内容,按评分排序。
Google AI Edge Portal新增LLM基准测试和调试功能,支持在120+ Android设备上优化模型性能,提供初始化时间、解码速度等关键指标分析及可视化调试工具。
入选理由:AI Edge Portal支持在120+ Android设备上测试LLM,提供初始化时间、预填速度等4项核心性能指标
Gemma 4 12B模型结合Google AI Edge栈已实现笔记本端本地运行,支持macOS上的代码生成、语音编辑及OpenAI兼容API服务。该组合使设备端Agent工作流成为可能,指令遵循质量提升超60%,且全程离线保障数据隐私。
入选理由:Gemma 4 12B通过LiteRT-LM在消费级笔记本运行,支持本地Agent与多模态任务。
Google AI Edge 发布 LiteRT-LM 推理引擎,专为在边缘设备上高效运行 Gemma 4 模型设计,支持 Android、iOS、Web 多平台,GPU 推理可达 76 tokens/sec,结合 Multi-Token Prediction 技术实现 2.2 倍加速。
入选理由:LiteRT-LM 在 Android GPU (OpenCL) 上实现 52 tokens/sec 解码速度,iOS (Metal) 达 56 tokens/sec,WebGPU 在 MacBook Pro 上可达 76 tokens/sec
Google 提出 TLMs(Tiny Language Models)与 LiteRT-LM 框架,支持在边缘设备上高效部署轻量级 LLM 和自主 Agent,兼顾低延迟、隐私保护与离线能力。
入选理由:TLMs 是专为边缘设备优化的 sub-100M 参数 LLM,通过结构压缩与量化实现毫秒级推理。