Amazon Nova Forge 上的超参数优化艺术与科学

TL;DR · AI 摘要
Amazon Nova Forge 提供了在领域特定模型上进行超参数优化的策略与科学方法,通过数据混合和检查点选择解决灾难性遗忘问题,并推荐使用服务默认学习率以避免训练不稳定。
核心要点
- 数据混合和检查点选择是防止灾难性遗忘的关键机制。
- 学习率是最敏感的超参数,偏离默认值可能导致训练不稳定。
- 强化微调(RFT)的有效性依赖于基线任务准确率,需在特定范围内优化。
结构提纲
按章节快速跳转。
- §引言
介绍 Amazon Nova Forge 如何帮助构建领域特定语言模型,并强调超参数优化的重要性。
解释灾难性遗忘现象及其对模型通用能力的影响,Nova Forge 通过数据混合和检查点选择缓解该问题。
说明学习率作为最敏感超参数的作用,偏离默认值会导致训练不稳定,Nova Forge 提供校准服务默认值。
讨论强化微调(RFT)对基线任务准确率的依赖,需在特定范围内优化以确保效果。
提供如何平衡领域性能与通用能力的实用建议,避免昂贵的训练失败。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Amazon Nova Forge 超参数优化
- 挑战一:灾难性遗忘
- 定义与影响
- 解决方案:数据混合、检查点选择
- 挑战二:学习率选择
- 敏感性与风险
- 服务默认值推荐
- 挑战三:基线性能约束
- RFT 的工作原理
- 基线准确率的重要性
- 总结与建议
- 平衡领域与通用能力
- 避免训练失败
金句 / Highlights
值得收藏与分享的关键句。
数据混合和检查点选择是防止灾难性遗忘的关键机制。
学习率是最敏感的超参数,偏离默认值可能导致训练不稳定。
强化微调(RFT)的有效性依赖于基线任务准确率,需在特定范围内优化。
Amazon Nova Forge 上的超参数优化的艺术与科学 | Amazon Web Services
发布时间:2026-06-02T09:39:03-08:00
大型语言模型(LLMs)在通用任务上表现强劲,但在需要理解专有数据、内部流程或领域特定术语的专门工作中往往表现不佳。[Amazon Nova Forge](https://aws.amazon.com/nova/forge/) 通过允许您使用 [Amazon Nova](https://aws.amazon.com/nova/) 构建自己的前沿模型来解决这一问题。您可以从早期模型检查点开始开发,将专有数据与 Amazon Nova 收集的训练数据相结合,并在 AWS 上安全托管自定义模型。一个关键功能是数据混合,它将您的训练数据与精选数据集混合。这有助于模型吸收您的领域知识,同时保留广泛的推理、指令遵循和语言能力。这可以防止通常会破坏领域定制的灾难性遗忘。
成功的定制需要仔细的超参数调优。学习率、数据混合比例、检查点选择和训练技术之间相互作用的方式可能会无声地损害训练运行。如果其中任何一个出错,您就会用一个问题换取另一个问题。本文探讨了 Amazon Nova Forge 上超参数调优的艺术(战略权衡)和科学(基于指标的决策),以帮助您避免昂贵的失败训练运行。
针对特定领域的微调意味着在不降低模型通用能力的情况下提高某一领域的性能,而正确把握这种平衡比看起来要难得多。本文将介绍如何从选择适合您数据和任务的正确定制策略,到配置对结果影响最大的训练参数(如学习率、批量大小和检查点),逐步掌握这种平衡。我们还将讨论导致训练运行浪费的常见错误以及如何尽早发现这些问题,以便在不降低通用能力的情况下提升领域性能,同时避免不必要的计算资源浪费。
最终,您将知道如何在不降低通用能力的情况下提升领域性能,并避免因平衡不当而导致的昂贵失败。
超参数调优的挑战
实现这种平衡比看起来要困难得多。三个基本挑战使得在领域专业化模型上的超参数调优尤为困难。
挑战 1:灾难性遗忘
当您在一个狭窄的领域数据上训练模型时,模型可能会覆盖在预训练期间学到的通用能力。这种现象被称为“灾难性遗忘”,表现为在训练领域之外的任务上性能下降。模型变得高度专业化,但失去了指令遵循能力、推理能力和广泛的知识。在生产环境中,这意味着一个针对您的支持工单微调的客户服务模型可能不再能够处理模糊请求或保持连贯的多轮对话。
这创造了一个稳定性与灵活性之间的权衡。理想情况下,模型足够灵活以学习组织的领域知识,同时又足够稳定以保留通用能力。Nova Forge 通过数据混合来解决这一问题,即在训练过程中将您的训练数据与精选数据集混合,并通过检查点选择来决定保留多少现有的对齐状态。
挑战 2:找到合适的学习率
学习率控制着模型权重在每次训练批次中的变化幅度。它是所有定制技术中最敏感的超参数。学习率过高会导致模型超出最优状态,在训练过程中不稳定,或快速遗忘基础能力。学习率过低则会浪费计算资源,因为收敛速度非常缓慢。正确的值取决于您的数据分布、混合比例和训练技术。
Nova Forge 为每种训练技术提供了经过校准的服务默认值,这些默认值考虑了这些交互的影响。当您使用数据混合时,敏感性进一步增加。在混合 Nova 数据与您自己的数据时偏离默认学习率是最常见的训练不稳定来源,因此这些服务默认值是推荐的起点。
挑战 3:基线性能限制
强化微调(RFT)是一种通过生成多个候选响应并根据质量标准对其进行评分来改进模型行为的技术。模型通过比较自身的输出并强化更好的部分来学习。RFT 在特定范围内的基线任务准确率下才能充分发挥其作用,该准确率衡量的是在微调之前模型产生正确或高质量响应的频率。如果基线准确率过低(模型很少产生正确响应),那么就没有足够的良好示例供奖励引导的探索学习。如果基线准确率已经非常高,额外的训练带来的回报递减,并且有可能损害现有性能。这意味着 RFT 无法弥补模型根本缺乏知识或推理能力的巨大能力差距。它强化和加强模型已经部分展示的行为,而不是从头开始教授全新的能力。
Nova Forge 流程解决了这两个边界。对于低基线场景,首先进行监督微调(SFT)以建立有效的奖励学习所需的基础能力。对于高基线任务,确保您的奖励函数在整个模型的质量范围内具有区分力。如果大多数响应已经得分很高,RFT 就没有有意义的信号可供优化。
Nova Forge 自定义流程
理解这些挑战有助于我们了解 Amazon Nova Forge 自定义流程的设计思路。Nova Forge 提供了三种互补的自定义技术,每种技术在模型开发生命周期中都扮演着独特的角色。
技术 | 作用 | 适用场景 | 输入数据 --- | --- | --- | --- 继续预训练 (CPT) | 通过在大量无标签、领域特定的专有数据上进行自监督学习,扩展基础模型(FM)的知识。CPT 教会模型从文本语料库中掌握领域术语和模式。 | 当你需要模型理解专业词汇、行业概念或基础模型中不存在的组织知识时。 | 大量无标签的领域文本。Nova Forge 支持 CPT,并提供数据混合功能以及三种检查点选项(预训练、中期训练、后期训练),分别适用于不同的数据规模和下游需求。 监督微调 (SFT) | 使用针对目标任务的输入-输出对训练数据集来定制模型行为。SFT 通过演示教会模型“给定 X,输出 Y”的行为。 | 当你需要模型遵循特定的响应格式、采用特定的语气,或执行分类、提取等结构化任务时。 | 每个任务需要 1,000–10,000 个高质量的演示示例。质量、一致性和多样性比数量更重要。Nova Forge 支持 SFT 的数据混合功能,并使用 Amazon Nova 精选的数据集,包括推理指令遵循类别,以保留通用能力。 强化微调 (RFT) | 使用奖励信号引导模型输出朝向期望的结果。RFT 在先前训练建立的行为邻域内优化模型,适用于单轮或多轮对话任务。 | 当你有一个明确的奖励函数,可以评估响应质量,并希望将性能提升至仅靠 SFT 无法实现的程度时。 | 提示词和奖励函数。Nova Forge 支持通过 AWS Lambda 引入外部奖励环境,从而为领域特定的质量评估启用自定义验证逻辑。
当这三个阶段一起使用时(CPT,然后是 SFT,最后是 RFT),它们会产生最佳效果。然而,通过合适的流程,每个阶段都可以是可选的。这取决于你的数据可用性、任务类型和起始点。只有当基础模型缺乏任务所需的领域词汇或知识时,才需要 CPT。SFT 和 RFT 可以独立使用,也可以根据任务需求组合使用。

图 1:Amazon Nova Forge 自定义流程。 CPT 从无标签文本中教授领域知识,SFT 通过演示教授任务特定行为,RFT 则利用奖励信号优化性能。每个阶段都是可选的,当所有三个阶段都适用于你的用例时,完整的流程(CPT,然后是 SFT,最后是 RFT)会产生最强的效果。
Amazon SageMaker AI 提供了不同的自定义环境:SageMaker Serverless 提供了基于 UI 的体验,并自动分配计算资源;SageMaker AI 训练作业(SMTJ)提供了无需集群管理的完全托管体验;而 Amazon SageMaker HyperPod 则为高级分布式训练场景提供了专用环境。
战略性决策
在了解自定义流程后,下一步是理解那些塑造配置的定性权衡。这些战略性决策与任何单个超参数值一样重要:检查点选择、数据混合和训练模式。
检查点选择(最具影响力的决策)
对于 CPT,检查点选择比任何超参数都更具影响力。Amazon Nova Forge 提供了三种 检查点选项,分别适用于不同的数据规模和下游需求。
- 预训练检查点最为灵活,收敛速度最快。这些检查点能够轻松接受新模式,并且在大规模连续预训练(CPT)中表现最佳,尤其是当 token 预算超过 1000 亿时。使用预训练检查点处理大规模数据集时,可以采用较高的学习率(例如 1e-4)来加速知识吸收。随后,你需要逐渐将学习率降低至约 1e-6,以确保模型稳定,然后再进行监督微调(SFT),使模型“适应”所学内容,避免过度拟合。需要注意的是,预训练检查点没有针对调优的指令。完成 CPT 后,必须运行 SFT 才能使模型适用于下游任务。
- 中期训练检查点在灵活性和对齐性之间取得平衡。它们能够接受领域知识,同时保留一定的指令遵循行为。适用于中等规模的数据集,希望比后期训练更快地实现领域适应,但又需要比预训练更高的稳定性。中期训练检查点非常适合全秩训练,即在微调过程中更新模型中的每个参数,尤其适用于大型结构化数据集。
- 后期训练检查点对新模式最具抵抗力,但能保持指令遵循能力和通用能力。适用于小规模 CPT,尤其是在更注重保持对齐性而非最大化领域知识吸收的情况下。后期训练检查点是 LoRA(低秩适配)的推荐起点,LoRA 冻结原始模型权重并在其上训练小型适配器矩阵,以及其他参数高效的微调方法,因为它们能够在保持模型现有能力的同时允许有针对性的适配。对于小规模数据集或后期检查点,建议使用服务默认的保守学习率值。

图 2:持续预训练的检查点选择。 预训练检查点为大规模数据集提供了最大的灵活性,但之后需要进行 SFT 来恢复指令遵循能力。后期训练检查点保持了对齐性,适合小规模数据集或参数高效的微调方法(如 LoRA)。
数据混合策略
如果没有数据混合,在狭窄领域数据上进行训练可能导致模型不稳定,从而出现异常的训练行为(梯度不稳定或损失突增)或性能突然下降。
在配置数据混合时,大多数情况下应将客户数据占比设置为总混合数据的 50% 左右。对于 SFT,始终应在 Nova 数据混合中包含“推理 - 指令遵循”类别。这一单一类别在微调后显著提升了通用基准性能。跳过此类别是微调模型推理性能下降的常见原因。
数据混合对学习率非常敏感。使用数据混合时偏离默认学习率会导致不稳定。这是从业者最常见的错误。如果在使用数据混合时观察到训练不稳定,学习率应首先被怀疑。
找到最佳混合比例需要实验。固定领域数据不变,通过多次运行改变 Nova 数据的比例。领域性能通常保持恒定,而通用能力随着更多 Nova 数据的混合而不断提升。将最高质量的数据放在训练后期,以获得更好的收敛效果。
训练模式:低秩适配(LoRA)与全秩
Amazon Nova Forge 支持两种训练模式,决定了训练期间如何更新模型参数:
- LoRA 仅更新适配器层,提供更低的计算成本、更快的迭代速度,并且与按需推理兼容。LoRA 在大多数任务中能达到接近全秩的性能,同时对次优超参数更具容忍性。默认的缩放因子 alpha 为 64 对于大多数任务都适用。如果 LoRA 对数据的适应不足,则增加 alpha;如果 LoRA 过度适应并失去通用能力,则减少 alpha。建议以后期训练检查点作为 LoRA 训练的起点。
- 全秩更新所有模型参数,提供最大的适应能力。全秩需要 Amazon Bedrock 预置吞吐量才能部署(按需仅适用于基于 LoRA 的定制)。训练期间需要更高的计算资源。当您已验证好流程并且部署架构值得额外成本时,使用全秩。中期训练检查点非常适合全秩训练,尤其适用于大型结构化数据集。
从 LoRA 开始验证您的流程、数据质量和奖励函数(用于 RFT)。当确认方法有效且生产需求合理时,再升级到全秩。
推荐工作流程
将这些战略决策应用于您的具体情况取决于您拥有的数据和目标。以下路径根据您的起始条件映射出正确的技术序列。
如果您有带标签的演示数据和可验证的奖励函数(先进行 SFT,再进行 RFT):
- 使用 LoRA 进行监督微调 (SFT) 开始,以教授目标行为并建立基线能力。
- 启用数据混合,并包含“推理-指令跟随”功能,以在领域适应过程中保留模型遵循结构化提示和生成格式良好输出的能力。
- 使用默认的学习率,无需修改。
- 监控验证损失,以选择最佳的 SFT 检查点。
- 在 SFT 检查点上过渡到奖励反馈训练 (RFT),通过奖励信号进一步优化。
- 仅在使用 LoRA 验证方法后,才考虑全秩训练。
- 在生产部署之前,彻底测试你的领域任务和通用基准(参见实验与洞察部分以获取示例)。
如果你可以定义可验证的结果,但无法轻松大规模标注响应(仅限 RFT):
- 首先评估基础模型在代表性样本上的性能。
- 如果基础模型获得超过约 5% 的正向奖励,则直接进行 RFT。
- 如果奖励分数始终接近零,则退回到 SFT。模型需要基线能力后,奖励引导的学习才能生效。
如果基础模型缺乏任务所需的领域词汇或知识,请从上下文感知训练 (CPT) 开始:
- 运行 CPT,从无标签文本中吸收领域知识。
- 然后进行 SFT。用于 CPT 的预训练检查点没有指令调优,因此在 CPT 之后需要 SFT 才能使模型变得有用。
- 可选地,在此之后进行 RFT,以进一步优化性能。
参数配置
在做出战略决策后,你现在可以优化控制每个技术执行的具体超参数。本节为每种技术提供指导。
学习率配置
学习率控制模型根据训练信号更新的速度。服务默认值代表了在各种用例中都有效的经过测试的配置。
- 对于 CPT:从服务默认值开始。对于超过一万亿 token 的大型数据集,你可以使用更高的学习率(例如 1e-4)来加速知识吸收,但在 SFT 之前需要一个下降阶段将学习率降低到大约 1e-6 以确保模型稳定。
constant_steps参数控制模型在开始下降阶段之前以峰值学习率训练多少步。对于非常大的 token 运行,增加constant_steps可以帮助领域吸收。对于较小的数据集或后期检查点,从一开始就使用默认(较低)的学习率。 - 对于 SFT:坚持使用服务默认值,尤其是在数据混合的情况下。推荐的学习率为 LoRA 的 1e-5 和全秩 SFT 的 5e-6。混合 Nova 数据时偏离默认学习率会导致不稳定。如果你在数据混合时观察到训练不稳定,学习率是首要怀疑对象。
- 对于 RFT:从服务默认值开始。只有在必要时才以小倍数增量调整。如果奖励突然下降且无法恢复,学习率可能过高。即使是小的倍数增加也可能导致性能低于基线。
将预热步骤配置为总训练步骤的约 15%。预热通过逐渐增加学习率而不是从全值开始来稳定初始训练。
批量大小和训练时长
批量大小(由 global_batch_size 控制)是所有训练方法(CPT、SFT、RFT)和所有环境(SageMaker Serverless、SMTJ、HyperPod)中的批量参数。它定义了每次优化器步骤处理的训练样本数量。对于 CPT 和 SFT,这很简单,一个样本等于一个输入-输出对(SFT)或一个 token 序列(CPT)。RFT 引入了一个额外的参数 number_generation,该参数控制每个提示生成的候选响应数量,用于奖励评分。这个参数在 CPT 或 SFT 中不存在,因为这些方法直接在提供的输入-输出对上进行训练,而不是生成候选响应。当存在生成数量参数时,批量大小在不同环境中的语义会有所不同。配置错误会导致意外行为。
- 在 SMTJ 上(仅限 RFT):批量大小表示每步的提示数量。每个提示生成 N 个候选响应(由
number_generation控制)。每步的总样本数等于批量大小乘以生成数量。 - 在 SageMaker HyperPod 上(仅限 RFT):批量大小表示每步的总样本数(提示乘以生成数量)。在不同环境之间移动配置时要小心翻译。
对于 CPT,每步的目标是 200 万到 2000 万 token。对于较大的 token 预算,使用 2000 万;对于较小的预算,使用 200 万。计算全局批量大小为每步 token 数量最接近的 2 的幂除以最大序列长度。例如,每步 400 万 token,序列长度为 4096,则批量大小约为 1024。较小的批量大小会产生更嘈杂的梯度,有助于泛化并实现更快的迭代。较大的批量大小会产生更平滑的梯度,但可能会过度平滑领域特定信号。从适中的批量大小开始以确保稳定性。
将最大序列长度与你的数据分布匹配。不要超过数据所需的最大长度。较短的上下文长度可以提高 token 吞吐量并降低训练成本。对于 CPT,最多处理一个 epoch 的数据集。避免重复数据,因为多个 epoch 在有限的 CPT 数据上会导致过拟合并丧失泛化能力。监控验证损失以跟踪进度。对于 SFT,全秩训练通常比 LoRA 需要更少的 epoch。LoRA 训练可以容忍稍多的 epoch。监控验证损失以检测过拟合并选择最佳检查点。
RFT 特定参数
RFT 引入了 CPT 或 SFT 中不存在的额外参数。
- 生成代数控制模型为奖励函数比较而每提示生成的候选响应数量。较少的候选响应意味着更快的训练但信号多样性减少。过多的候选响应会增加噪声而不会提高信号质量,并且几乎使训练时间翻倍。适度的值能够达到最佳的准确率与时间比。如果您的任务响应质量变化较大,可以增加此值。在开发过程中,为了快速迭代奖励函数,可以减少此值。
- KL散度损失系数限制模型策略偏离其原始行为的程度。此参数仅在SMTJ上可用。低系数允许模型自由探索,但可能找到游戏奖励函数的捷径。高系数通过将模型拉回到起点来防止有意义的学习。如果训练期间KL散度出现峰值,可以增加该系数以平衡真实学习与行为漂移。
- 推理努力控制模型在回答前进行多少链式推理。高推理努力产生最佳准确率,但会增加延迟和部署成本。低推理努力提供更快的推理速度,但准确率略有下降。验证时使用高推理努力以获得最大准确率,然后在延迟敏感的生产部署中考虑降低推理努力。
- Lambda并发限制(仅限SMTJ)控制用于奖励评估的并行AWS Lambda函数数量。对于快速奖励函数,显著增加此值以避免评估吞吐量成为瓶颈。
请注意,批次大小在不同平台上的语义有所不同。在SMTJ上,global_batch_size表示每步的提示数量,每个提示生成N个候选响应。在SageMaker HyperPod上,global_batch_size表示总样本数(提示乘以生成次数)。在环境之间转换时要仔细翻译。
正则化参数
正则化参数有助于防止过拟合,特别是在较小的数据集上。
- 权重衰减默认为零。如果在小数据集上观察到过拟合现象,可以适度增加权重衰减。权重衰减应用L2正则化来约束参数幅度。
- Dropout(隐藏层和注意力层)默认为零。对于较小的数据集,可以适度增加隐藏层Dropout以减少过拟合。谨慎增加注意力层Dropout,因为过高值可能损害复杂推理能力。
- 截断比率和年龄容忍度是高级SageMaker HyperPod参数。截断比率限制单次训练步骤中策略的变化程度。年龄容忍度决定训练数据在被视为过时之前的有效期。重训练频率控制模型收集新鲜训练数据的频率。默认设置适用于大多数用例。只有在理解特定稳定性问题时才调整这些高级设置。
实验与洞察
考虑到这些超参数,我们在公共基准测试中使用Amazon Nova 2.0运行了一系列HPO实验,包括CocoHD、MedReason和LLaVA-CoT。下表总结了每个参数扫描的实验配置和关键发现。
| 数据集 | 排名 | Alpha | GBS | LR | 最大步数 | 热身 | 基准目标性能 | SFT目标性能 | 排名 | 性能差异 | |--------------|------|-------|-----|-----------|----------|--------|----------------|----------------|------|----------| | MedReason | 32 | 64 | 32 | 1.00E-05 | 312 | 47 | 57.38% | 63.54% | 2 | 10.75% ↑ | | MedReason | 64 | 64 | 32 | 1.00E-05 | 312 | 47 | 57.38% | 63.78% | 1 | 11.16% ↑ | | MedReason | 32 | 64 | 32 | 5.00E-06 | 312 | 47 | 57.38% | 63.33% | | | | MedReason | 32 | 64 | 32 | 1.00E-05 | 624 | 94 | 57.38% | 61.42% | | | | LLaVA-CoT | 64 | 64 | 32 | 1.00E-05 | 312 | 47 | 16.22% | 68.47% | 1 | 322.13% ↑| | LLaVA-CoT | 32 | 128 | 32 | 1.00E-05 | 312 | 47 | 16.22% | 65.77% | 2 | 305.49% ↑|
我们在Amazon Nova 2 Lite上使用Nova Forge运行LoRA SFT,设置排名为32,Alpha为64,批次大小为32,热身为15%,1个epoch,仅对学习率进行扫描以隔离其对目标准确率的影响。服务默认的1e-5产生了最佳结果,准确率为63.54%,比v4基础模型高出10.75%。将学习率降至5e-6对目标性能产生了负面影响,而没有显著保护通用能力,因为MMLU、IFEval和GPQA得分与1e-5运行相比在误差范围内。在相同学习率下将epoch加倍至2,准确率降至61.42%,证实了在狭窄领域数据上过度训练会同时侵蚀领域和通用性能。
我们在一个多模态推理任务中变化了LoRA排名(32 vs 64)和Alpha(64 vs 128),该任务的基础模型初始准确率为16.22%。最佳配置为排名64,Alpha 64,将准确率提升至68.47%,相对于基础模型提升了322%的相对改进。在排名32时将Alpha加倍至128,同样获得了65.77%的目标提升,但带来了更高的通用能力退化成本。对于基础准确率较低的任务,增加排名比增加Alpha更具杠杆效应。只有当LoRA适应不足时才应增加Alpha,如果模型失去通用能力,则应减少Alpha。
没有单一的超参数配置适用于所有用例。这些建议的默认值是强大的起点,而非最优性能的保证。
常见陷阱及如何避免它们
下表总结了从业者在调整Amazon Nova Forge模型时应避免的最常见的错误。
陷阱 | 症状 | 解决方案 ---|---|--- 在 RFT 之前跳过 SFT | RFT 不产生任何改进或降低性能 | 首先运行 SFT,使模型进入正确的行为范围,然后再进行 RFT 优化。 偏离默认学习率(使用数据混合) | 训练不稳定、损失峰值、能力崩溃 | 使用数据混合时,请坚持使用服务默认设置。这是最常见的错误。 奖励函数质量差 | 尽管进行了训练,但准确率下降,或模型“游戏”指标 | 在更改任何训练参数之前,先完善您的奖励函数。至少通过两名独立评审员进行验证。 在有限的 CPT 数据上进行多轮次训练 | 过拟合、失去通用能力、记忆化 | 最多处理一轮 CPT 数据集。监控验证损失以尽早检测过拟合。 推理设置不匹配 | 推理行为与训练行为不符 | 确保 reasoning_enabled 在训练和推理之间保持一致。如果您在训练中启用了推理,则在推理时也应启用推理。
当使用 Nova Forge 调整模型时,请优先投资于您的奖励函数。无论其他超参数如何选择,一个糟糕的奖励函数都会降低准确率,而一个完善的奖励函数则能在相同的基础设施上带来持续的提升。确保您的奖励函数在整个模型质量范围内具有区分能力,因为如果所有结果都得分很高,RFT 将没有梯度可供优化。
同样的验证纪律也适用于 LLM-as-judge 的选择。您的评审模型必须能够可靠地区分模型输出范围内的质量差异。在确定训练运行之前,请至少通过两名独立评估者验证评审员的一致性。
请注意,不同平台之间的训练环境稳定性机制有所不同。SMTJ 通过连续的 KL 惩罚作为软约束,而 SageMaker HyperPod 则使用梯度裁剪作为每步的硬上限。两者都能达到类似的准确性,但它们需要不同的调优直觉。不要假设参数可以直接在不同环境中转移。
在整个过程中,优先考虑数据质量而非数量。积极过滤并确保训练样本准确反映目标行为,这将优于简单地扩大低质量数据规模。
衡量成功
当您应用适当的超参数调优时,结果可能会非常显著。AWS 中国应用科学团队在其对 Amazon Nova Forge 的评估中展示了这一点,他们在复杂的客户之声分类任务上实现了 17% 的 F1 分数提升,同时保持了接近基线的 MMLU 分数。
需要监控的关键指标
训练损失 应平稳下降,不应出现突然的峰值。峰值通常表明学习率问题或数据质量问题。
验证损失 可揭示过拟合现象。如果验证损失增加而训练损失减少,则说明您正在过拟合。减少轮次数、增加正则化或添加更多多样化的数据。
KL 散度(用于 RFT)显示策略漂移的程度。突然的峰值表明模型正在进行大幅且可能不稳定的更新。如果发生这种情况,请提高 KL 损失系数。
奖励指标(用于 RFT)应稳步改善。如果奖励迅速提升后趋于平稳或下降,则模型可能在“游戏”奖励函数。重新审视您的奖励设计。
结论
使用 Amazon Nova Forge 优化模型定制需要平衡艺术与科学。艺术在于理解权衡:检查点选择、数据混合策略以及训练模式决策对结果的影响比任何单一超参数都要大。科学在于系统化调优:学习率、批量大小以及特定技术参数需要根据您的数据和目标进行仔细配置。
数据质量和奖励质量的重要性超过任何超参数。在调整训练参数之前,请优化您的数据管道和奖励函数。从服务默认设置开始,特别是学习率和数据混合方面,因为这些默认设置适用于广泛的用例。
对于大多数生产场景,最强的数据管道是 SFT 加上 RFT。RFT 可以优化现有能力,但无法从低基准恢复,因此监督微调需要首先建立良好的性能基础。数据混合应被视为生产工作负载的必备项,而非可选项。它防止灾难性遗忘,并为可靠结果提供所需的优化稳定性。
在继续预训练时,检查点选择是您将做出的最具影响力的决定。根据数据规模匹配检查点灵活性:大规模领域适应时使用早期检查点,小规模数据集时使用后期检查点,以保留指令遵循行为。
要开始使用 Amazon Nova Forge,请探索 Amazon Nova 文档 和 GitHub 上的 SageMaker HyperPod 示例仓库。有关数据混合的实际示例,请参阅 Nova Forge 数据混合博客文章。深入了解 Nova Forge 的 RFT,请阅读 Amazon Nova 的强化微调:通过反馈教学 AI 博客文章。
致谢
作者感谢 AWS AGI 定制科学团队的郑杜、巴拉詹·巴拉吉、方安杰和徐梦农的技术指导。
- * *