T
traeai
登录

模型

Whisper

别名:openai whisper

OpenAI开源的语音识别模型,常作为多模态系统中的音频编码组件。

已跟踪 5 条高相关材料

TraeAI 观察

相关材料

已收录 5 条与 Whisper 相关的内容,按评分排序。

Most in-car media systems still expect you to search with keywords.

But when you’re driving, you do...

当前车载媒体系统仍依赖关键词搜索,而驾驶时用户更倾向于用情绪、氛围和意图表达需求;Sarvesh Talele 使用 Qdrant Edge 构建了完全本地化的 AI 驱动媒体发现系统,支持语音/文本/情绪三类语义查询,全程无需云端依赖,实现隐私优先的实时体验。

入选理由:系统采用 Whisper 实现本地语音转录,Qdrant Edge 提供设备端向量检索,全程无云服务依赖

精选推文#Qdrant#向量搜索#边缘 AI#车载系统#隐私保护英文
Spec-driven development: The AI engineering workflow at Notion | Ryan Nystrom

规范驱动开发:Notion 的 AI 工程工作流 | Ryan Nystrom

Lenny's Newsletter487 字 (约 2 分钟)
85

Notion AI 采用规范驱动开发,通过 Codex 自动生成规范并实现功能。

入选理由:使用 Whisper 和 Codex 实现规范驱动开发

精选文章#AI#工程实践#Notion#Codex#开发流程中文
We released Gemma 4 12B yesterday. Here is a visual guide that explains the full architecture.

→ Ho...

Gemma 4 12B发布:原生多模态架构视觉指南

Philipp Schmid(@_philschmid)169 字 (约 1 分钟)
75

Gemma 4 12B通过移除独立视觉与音频编码器,采用原生多模态架构实现单模型处理文本、图像和音频。该设计摒弃传统外挂编码器拼接模式,直接在统一表征空间内完成跨模态对齐,显著降低推理延迟并提升端侧部署效率。

入选理由:Gemma 4 12B移除独立视觉/音频编码器,采用原生多模态统一架构

精选推文#Gemma 4#多模态大模型#原生多模态架构#端侧AI英文
第三个模型 GPT-Realtime-Whisper 是个流式语音转文字模型

原版 Whisper 的设计前提是处理「完整的一段音频」,你录完一段交给它,它出转写结果。新的流式版本是边说边转,延迟极...

第三个模型 GPT-Realtime-Whisper 是个流式语音转文字模型

小互(@imxiaohu)311 字 (约 2 分钟)
55

GPT-Realtime-Whisper 是一款专为实时场景设计的流式语音转文字模型,相比原版 Whisper 处理完整音频的方式,它支持边说边转且延迟极低。

入选理由:新版模型支持流式处理,无需等待整段音频完成即可输出结果。

精选推文#AI#语音识别#流式处理#Whisper#实时通信中文
Adding Benchmaxxer Repellant to the Open ASR Leaderboard

为Open ASR排行榜添加Benchmaxxer防护机制

Hugging Face Blog1283 字 (约 6 分钟)
52

Hugging Face 为防止模型在公开ASR测试集上过度优化,引入私有数据集作为评估补充,但不更新公开平均WER,以维持真实场景性能的衡量标准。

入选理由:引入私有数据集防止模型针对公开测试集过度优化(benchmaxxing)。

精选文章#ASR#基准测试#Hugging Face#Benchmaxxing#WER英文

跨材料问答 · Whisper

回答基于:Whisper 相关 5 条材料
    0 / 500

    AI 可能会生成不准确的信息,请核实重要内容