T
traeai
登录

产品

LiteRT-LM

轻量级大语言模型运行时,支持通过CLI在本地启动兼容OpenAI格式的服务端点。

已跟踪 4 条高相关材料

TraeAI 观察

相关材料

已收录 4 条与 LiteRT-LM 相关的内容,按评分排序。

Benchmark and optimize LLMs on-device with AI Edge Portal

Benchmark and optimize LLMs on-device with AI Edge Portal

Google Cloud Blog924 字 (约 4 分钟)
85

Google AI Edge Portal新增LLM基准测试和调试功能,支持在120+ Android设备上优化模型性能,提供初始化时间、解码速度等关键指标分析及可视化调试工具。

入选理由:AI Edge Portal支持在120+ Android设备上测试LLM,提供初始化时间、预填速度等4项核心性能指标

精选文章#LLM优化#边缘计算#Android设备#Google AI Edge Portal#Model Explorer英文
Bringing Gemma 4 12B to your Laptop: Unlocking Local, Agentic Workflows with Google AI Edge

Gemma 4 12B登陆笔记本:用Google AI Edge解锁本地Agent工作流

Google Developers Blog988 字 (约 4 分钟)
82

Gemma 4 12B模型结合Google AI Edge栈已实现笔记本端本地运行,支持macOS上的代码生成、语音编辑及OpenAI兼容API服务。该组合使设备端Agent工作流成为可能,指令遵循质量提升超60%,且全程离线保障数据隐私。

入选理由:Gemma 4 12B通过LiteRT-LM在消费级笔记本运行,支持本地Agent与多模态任务。

精选文章#Gemma 4#Google AI Edge#端侧AI#LiteRT-LM#Agent工作流英文
Blazing fast on-device GenAI with LiteRT-LM

LiteRT-LM:设备端 GenAI 的极速体验

Google Developers Blog1574 字 (约 7 分钟)
75

Google AI Edge 发布 LiteRT-LM 推理引擎,专为在边缘设备上高效运行 Gemma 4 模型设计,支持 Android、iOS、Web 多平台,GPU 推理可达 76 tokens/sec,结合 Multi-Token Prediction 技术实现 2.2 倍加速。

入选理由:LiteRT-LM 在 Android GPU (OpenCL) 上实现 52 tokens/sec 解码速度,iOS (Metal) 达 56 tokens/sec,WebGPU 在 MacBook Pro 上可达 76 tokens/sec

精选文章#Google AI Edge#LiteRT-LM#Gemma 4#边缘AI#端侧推理英文
TLMs: Tiny LLMs and Agents on Edge Devices with LiteRT-LM — Cormac Brick, Google

Google 提出 TLMs(Tiny Language Models)与 LiteRT-LM 框架,支持在边缘设备上高效部署轻量级 LLM 和自主 Agent,兼顾低延迟、隐私保护与离线能力。

入选理由:TLMs 是专为边缘设备优化的 sub-100M 参数 LLM,通过结构压缩与量化实现毫秒级推理。

精选视频#LLM#edge computing#Google#LiteRT-LM#TLM英文

跨材料问答 · LiteRT-LM

回答基于:LiteRT-LM 相关 4 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容