Trustpilot 如何使用 Gemma 构建实时数据增强架构

TL;DR · AI 摘要
Trustpilot 使用微调的 Gemma 模型构建了实时数据增强架构,处理百万级评论,延迟低、成本可控,性能接近教师模型且独立可控。
核心要点
- 采用 google/gemma-2-9b 基础模型,通过共识标注生成高质量训练集,微调后准确率仅比教师模型低几个百分点。
- 架构基于 Dataflow + Gemini Enterprise Agent Platform,分离分类器与 LLM 服务端点,支持独立扩缩容,提升系统弹性。
- 使用 A2 VMs(A100 GPU)和 vLLM 优化推理性能,实现每秒数千请求的吞吐量,满足高并发实时处理需求。
结构提纲
按章节快速跳转。
Trustpilot 需在严格延迟和成本约束下实时处理数百万用户评论,传统方法无法满足规模与精度要求。
通过微调 Gemma 获得模型自主权、可预测成本、MLOps 能力扩展及架构延续性,避免依赖闭源 API。
使用 Gemini 2.0/2.5 Pro/Flash 教师模型对分层样本进行共识标注,生成高质量数据集用于微调专用任务模型。
采用 Dataflow 与 Gemini Agent Platform 结合,分离 FastAPI 分类器与 vLLM 服务端点,实现职责解耦与弹性伸缩。
部署于 A2 VMs(A100 GPU),结合 vLLM 引擎优化推理吞吐,达成高并发低延迟的生产级实时处理能力。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Trustpilot 实时数据增强架构
- 核心动机
- 处理百万级评论
- 控制延迟与成本
- 技术选型
- 微调 Gemma-2-9b
- 使用 Gemini 教师模型标注
- 系统架构
- Dataflow 流处理
- 分离分类器与 LLM 端点
- 性能优化
- A2 VMs + A100 GPU
- vLLM 推理加速
金句 / Highlights
值得收藏与分享的关键句。
通过微调 Gemma 等开放权重模型,Trustpilot 完全掌控其 AI 策略——控制再训练、成本和未来升级。
微调后的模型准确率仅比教师模型共识低几个百分点,但成本效率显著更高。
使用配备 A100 GPU 的 A2 VM 和 vLLM,Trustpilot 实现了每秒数千请求的低延迟实时评论处理能力。
标题:Trustpilot 如何使用 Gemma 构建实时数据增强架构
来源网址:https://cloud.google.com/blog/topics/customers/how-trustpilot-built-a-real-time-architecture-for-data-enrichment-using-gemma/
发布日期:2026-06-01
Markdown 内容: 在严格的延迟和成本限制下,实时处理数百万条用户评论绝非易事。Trustpilot 早在大型语言模型(LLM)流行之前,就已通过定制机器学习技术实现这一目标。如今,随着公司核心架构向生成式 AI 转型,本文将介绍我们如何合作构建一个基于微调 Gemma 模型的高吞吐量流式处理管道。
**大规模驱动深度评论智能**
Trustpilot 的核心业务依赖于提供深入、可操作的评论洞察。作为一个倡导透明度与真实反馈的平台,它必须保障数据完整性并最大化价值。这意味着要从每一条新进评论中提取所有元数据——而 LLM 正是完成这项任务的理想工具。
这些模型擅长解析混乱的人类文本,执行命名实体识别(NER)、分类业务领域、评估情感倾向,并精准捕捉客户意图。但尽管为几条评论调用 LLM 很简单,在不大幅增加成本的前提下实时处理数百万条评论却是一个巨大的工程挑战。
**为何选择微调开源模型?**
面对如此庞大的任务,为什么不直接接入像 Gemini 这样强大的现成前沿模型?对于如此关键的核心业务流水线,闭源模型通常并非最佳选择。相反,通过微调如 Gemma 这样的开源权重模型,Trustpilot 完全掌控其 AI 策略。具体体现在:
- 完全的模型自主权:拥有自己的模型意味着 Trustpilot 可以自主控制再训练周期,彻底摆脱第三方供应商的更新节奏或突发 API 变更的影响。
- 可预测的成本结构:从按 token 计费的变动模式转向固定基础设施成本,使运行数百万次预测在财务上可行且可优化。
- 扩展 MLOps 能力:内部构建这些模型使 Trustpilot 能够融入其评论智能的“独家秘方”,同时积累对开源权重模型的操作经验。
- 架构延续性:统一采用开源权重模型体系,确保公司未来能无缝利用基础模型的迭代版本,从而以最小工程投入获得性能提升。
Trustpilot 并未部署单一巨型模型,而是基于轻量级的 google/gemma-2-9b 构建了一套高度专业化的模型组合。
为了从小型模型中获得高性能表现,该公司采用分层抽样方法对 Trustpilot 评论语料库进行共识标注,选用 Gemini 2.0/2.5 Pro/Flash 系列中的多个教师模型。该过程生成了高质量的训练数据集,用于主题分类、NER 和情感提取等专项任务。
随后,这些数据集被用于微调一系列定制化模型,其表现显著优于原有解决方案,准确率仅比教师模型共识结果低几个百分点。
**系统架构**
该架构建立在 Dataflow 和 Gemini Enterprise Agent Platform 端点之上,二者因内置的 VertexAIModelHandlerJSON 功能而完美协同。
我们通过创建两个独立端点,将业务逻辑与原始 LLM 推理解耦:
- 分类器:基于 FastAPI 的端点,负责处理复杂任务,包括预/后处理、提示模板和链式调用。
- LLM:独立的 Agent Platform 端点,专用于通过 vLLM 提供 Gemma 模型服务。
这种方法保持了 Dataflow 作业的简洁性,并确保 LLM 端点专注于其最擅长的任务:生成文本。此外,它还允许 Trustpilot 根据流量独立扩展这两个组件。

**性能调优**
为了充分发挥基于 vLLM 的 Agent Platform 端点的性能,Trustpilot 致力于榨取整个流水线的每一丝性能潜力,尤其针对搭载 A100 GPU 的 A2 VMs。同时,公司也利用了由 Gemini Enterprise Agent Platform 维护的定制优化版 vLLM。
性能调优的重点之一是优化 vLLM 后端配置,避免处理瓶颈。通过精细调整引擎参数、选择合适的数据类型,并启用前缀缓存等实用功能,我们确保模型能够顺畅应对高并发流式请求。
我们还共同创建了一个可复用的负载测试框架,用于确定 vLLM 推理服务器的最佳服务容量并绘制其性能曲线。这使我们能够设定所需基础设施的基线,并使用基于 请求数量 的指标来调整自动扩缩容设置。此外,使用 vLLM 等待请求数量 的新指标可能更适合此场景。

**挑战**
在构建该架构的过程中,Trustpilot 遇到了几个显著的障碍:
- 私有网络:架构目标是通过私有端点和 Private Service Connect 实现完全隔离,但由于缺乏对不同端点之间直接私有通信的原生支持,这一目标未能实现。
- 部署可观测性与可靠性:端点部署可能缓慢或不透明,当进入不健康状态时偶尔需要额外排错。Trustpilot 仍在与 Gemini Enterprise Agent Platform 产品团队紧密合作,协助塑造未来的可观测性功能和平台。
- GPU 资源稀缺:在欧盟地区获取 A100 GPU 非常困难,因此按需虚拟机通常不可行。相比之下,使用预留资源更为理想,但要在开发、生产、训练、推理和实验之间平衡这些资源颇具挑战。
**成果**
Trustpilot 与 Google Cloud 合作,充分利用了 Gemini Enterprise Agent Platform 上 Gemma 的全部潜力,实现了每日近实时处理数百万条评论的能力。在此过程中,他们以极低的成本达到了类似 Gemini 的性能表现。最终,Trustpilot 商业平台得以将数百万条日常客户评论转化为即时、可操作的洞察。您可以在 Trustpilot Medium 博客文章 中阅读更多详情。
- * *
_本文由 Assulan Nurkas(Trustpilot)、Subu Ramasubramanian(Trustpilot)、Konrad Stanek(Trustpilot)、Dario Banfi(Google)和 Michael Cohen Hjertén(Google)撰写,内容基于 2025 年底联合项目期间的工作成果。_
发布于