T
traeai
登录
返回首页
AI Engineer视频

TLMs: Tiny LLMs and Agents on Edge Devices with LiteRT-LM — Cormac Brick, Google

7.2Score
可直接观看的视频资源打开原视频

TL;DR · AI 摘要

Google 提出 TLMs(Tiny Language Models)与 LiteRT-LM 框架,支持在边缘设备上高效部署轻量级 LLM 和自主 Agent,兼顾低延迟、隐私保护与离线能力。

核心要点

  • TLMs 是专为边缘设备优化的 sub-100M 参数 LLM,通过结构压缩与量化实现毫秒级推理。
  • LiteRT-LM 是开源运行时,提供统一 IR、动态 token 调度和硬件感知算子融合。
  • 端侧 Agent 不依赖云端编排,可本地完成规划-工具调用-反思闭环,降低通信开销与隐私风险。

结构提纲

按章节快速跳转。

  1. 指出传统云侧 LLM 在延迟、隐私与连接依赖上的瓶颈,提出端侧小型化模型与 Agent 的必要性。

  2. ·TLMs 设计原则

    强调参数精简(<100M)、架构适配(如状态空间模型 SSM 替代 Transformer)、训练后量化与知识蒸馏。

  3. ·LiteRT-LM 运行时架构

    介绍其轻量 IR、内存零拷贝调度、NPU/GPU/ARM CPU 多后端支持及动态 KV 缓存管理。

  4. 描述基于 TLM 的本地规划器、工具注册机制、受限 sandbox 环境及自反思 prompt 链。

  5. 在 Pixel 8 和 Raspberry Pi 5 上达成 <80ms 响应,支持离线语音助手、实时翻译与传感器协同决策。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • TLMs 与 LiteRT-LM 边缘智能框架
    • 核心组件
      • Tiny Language Models (TLMs)
      • LiteRT-LM 运行时
      • 端侧 Agent 引擎
    • 关键技术
      • 硬件感知量化与算子融合
      • 动态 token 预算调度
      • 本地工具沙箱执行
    • 落地约束
      • ≤2GB RAM / ≤5W 功耗
      • 离线优先 & 隐私默认
      • 毫秒级端到端延迟

金句 / Highlights

值得收藏与分享的关键句。

  • ‘TLMs aren’t just quantized Llama — they’re rethought from the silicon up for memory bandwidth, not FLOPs.’

    12:45

    ⬇︎ 下载 PNG𝕏 分享到 X
  • LiteRT-LM’s ‘token budget scheduler’ dynamically allocates compute across sub-tasks in an agent loop, preventing OOM on 2GB RAM devices.

    28:11

    ⬇︎ 下载 PNG𝕏 分享到 X
  • The local agent doesn’t call APIs — it loads tool binaries (e.g., SQLite, libusb) directly into its runtime sandbox.

    35:20

    ⬇︎ 下载 PNG𝕏 分享到 X
  • No cloud fallback by default: if network is down, the agent degrades gracefully using cached context and cached tool schemas.

    41:03

    ⬇︎ 下载 PNG𝕏 分享到 X
#LLM#edge computing#Google#LiteRT-LM#TLM

AI 可能会生成不准确的信息,请核实重要内容

TLMs: Tiny LLMs and Agents on Edge Devices with LiteRT-LM — Cormac Brick, Google | AI Engineer | traeai