AI Engineer视频
TLMs: Tiny LLMs and Agents on Edge Devices with LiteRT-LM — Cormac Brick, Google
7.2Score
可直接观看的视频资源打开原视频
TL;DR · AI 摘要
Google 提出 TLMs(Tiny Language Models)与 LiteRT-LM 框架,支持在边缘设备上高效部署轻量级 LLM 和自主 Agent,兼顾低延迟、隐私保护与离线能力。
核心要点
- TLMs 是专为边缘设备优化的 sub-100M 参数 LLM,通过结构压缩与量化实现毫秒级推理。
- LiteRT-LM 是开源运行时,提供统一 IR、动态 token 调度和硬件感知算子融合。
- 端侧 Agent 不依赖云端编排,可本地完成规划-工具调用-反思闭环,降低通信开销与隐私风险。
结构提纲
按章节快速跳转。
指出传统云侧 LLM 在延迟、隐私与连接依赖上的瓶颈,提出端侧小型化模型与 Agent 的必要性。
强调参数精简(<100M)、架构适配(如状态空间模型 SSM 替代 Transformer)、训练后量化与知识蒸馏。
介绍其轻量 IR、内存零拷贝调度、NPU/GPU/ARM CPU 多后端支持及动态 KV 缓存管理。
描述基于 TLM 的本地规划器、工具注册机制、受限 sandbox 环境及自反思 prompt 链。
在 Pixel 8 和 Raspberry Pi 5 上达成 <80ms 响应,支持离线语音助手、实时翻译与传感器协同决策。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- TLMs 与 LiteRT-LM 边缘智能框架
- 核心组件
- Tiny Language Models (TLMs)
- LiteRT-LM 运行时
- 端侧 Agent 引擎
- 关键技术
- 硬件感知量化与算子融合
- 动态 token 预算调度
- 本地工具沙箱执行
- 落地约束
- ≤2GB RAM / ≤5W 功耗
- 离线优先 & 隐私默认
- 毫秒级端到端延迟
金句 / Highlights
值得收藏与分享的关键句。
‘TLMs aren’t just quantized Llama — they’re rethought from the silicon up for memory bandwidth, not FLOPs.’
LiteRT-LM’s ‘token budget scheduler’ dynamically allocates compute across sub-tasks in an agent loop, preventing OOM on 2GB RAM devices.
The local agent doesn’t call APIs — it loads tool binaries (e.g., SQLite, libusb) directly into its runtime sandbox.
No cloud fallback by default: if network is down, the agent degrades gracefully using cached context and cached tool schemas.
#LLM#edge computing#Google#LiteRT-LM#TLM