Hugging Face视频
什么是张量?
7.0Score
可直接观看的视频资源打开原视频
TL;DR · AI 摘要
张量是机器学习中组织数字的基本结构,用于将文本、图像和音频等现实世界数据转换为模型可处理的数值形式,实现从输入到输出的完整数据流。
核心要点
- 机器学习模型通过张量处理数据,张量是按形状组织的数字,标量为0D、向量为1D、矩阵为2D。
- 数据转换流程:文本转为token ID、图像转为像素张量、音频转为数值样本,再经模型推理后转回有用结果。
- Transformers.js等工具负责将现实世界输入转换为张量,使模型能够处理非数值数据。
结构提纲
按章节快速跳转。
机器学习模型通过张量处理数据,张量是按形状组织的数字,是模型理解现实世界数据的基础。
标量是0D张量,向量是1D张量,矩阵是2D张量,更高维度张量扩展了这一概念。
现实世界输入(文本、图像、音频)通过转换为张量进入模型,推理后输出张量再转为有用结果。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 张量
- 定义
- 按形状组织的数字
- 类型
- 标量(0D)
- 向量(1D)
- 矩阵(2D)
- 应用
- 数据转换
- 模型推理
- 结果输出
金句 / Highlights
值得收藏与分享的关键句。
机器学习模型不直接理解文本、图像或音频。它们理解数字。
张量只是按形状组织的数字。单个数字是标量或0D张量。数字列表是向量或1D张量。
文本变为标记和标记ID。图像变为像素张量。音频变为数值样本或特征。
#张量#机器学习#Hugging Face#Transformers.js#数据处理