T
traeai
登录

产品

NVIDIA A100-SXM4-80GB

别名:nvidia a100

NVIDIA 推出的高性能 GPU,适用于深度学习和高性能计算。

已跟踪 2 条高相关材料

TraeAI 观察

相关材料

已收录 2 条与 NVIDIA A100-SXM4-80GB 相关的内容,按评分排序。

Profiling in PyTorch (Part 1): A Beginner's Guide to torch.profiler

PyTorch 性能剖析入门(第1部分):torch.profiler 使用指南

Hugging Face Blog5278 字 (约 22 分钟)
87

PyTorch 性能剖析入门指南(第1部分)系统讲解了如何使用 torch.profiler 分析矩阵乘加操作的性能瓶颈,通过可视化 trace 和事件链揭示 CPU-GPU 协同执行机制,并对比启用 torch.compile 前后的行为变化,帮助初学者快速掌握性能分析核心技能。

入选理由:使用 `torch.profiler.profile` + `record_function` 可轻松捕获 CPU/GPU 事件与内核调用链,生成可交互 trace 文件

精选文章#PyTorch#profiler#performance#CUDA#torch.compile英文
Hugging Face Blog 图标

Profiling in PyTorch (Part 2): From nn.Linear to a Fused MLP

Hugging Face Blog3813 字 (约 16 分钟)
85

PyTorch 中 nn.Linear 的性能分析显示,其内部的矩阵转置操作显著影响计算效率,通过融合 MLP 可以减少开销。

入选理由:nn.Linear 的矩阵转置操作会增加计算开销。

精选文章#PyTorch#性能优化#深度学习#GPU英文

跨材料问答 · NVIDIA A100-SXM4-80GB

回答基于:NVIDIA A100-SXM4-80GB 相关 2 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容