LiteRT-LM:设备端 GenAI 的极速体验
Google AI Edge 发布 LiteRT-LM 推理引擎,专为在边缘设备上高效运行 Gemma 4 模型设计,支持 Android、iOS、Web 多平台,GPU 推理可达 76 tokens/sec,结合 Multi-Token Prediction 技术实现 2.2 倍加速。
入选理由:LiteRT-LM 在 Android GPU (OpenCL) 上实现 52 tokens/sec 解码速度,iOS (Metal) 达 56 tokens/sec,WebGPU 在 MacBook Pro 上可达 76 tokens/sec

