公司

Together AI

Q: Together AI 最近有什么新动态？

traeai 已收录 9 篇与 Together AI 相关的内容。最新一篇是「Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets」，由 Together AI Blog 发布。

别名：togetherai

云服务提供商，专注于为大型语言模型提供高效的推理平台。

已跟踪 9 条高相关材料

TraeAI 观察

如果只读 3 篇

Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets

Together AI Blog · 8.7 分

Together AI has optimized the deployment of MiniMax M3, a model with 1M-token context and multimodal support, achieving 81–125% throughput...

Engineering voice agents: Latency, quality, and scale — Rishabh Bhargava, Together AI

AI Engineer · 8.5 分

构建高质量、低延迟、可扩展的语音代理已成为工程核心挑战，需解决实时响应（<500ms）、复杂指令处理与工具调用等关键问题，Together AI 提供基础设施支持。

How Together AI built the world’s fastest speech-to-text stack

Together AI Blog · 8.5 分

Together AI optimized their speech-to-text stack, achieving faster transcription speeds by using profile-aware TensorRT, optimizing the dec...

高效推理MiniMax-M3：解锁1M令牌上下文和多模态能力

Together AI Blog6月2日1686 字 (约 7 分钟)

Together AI优化了MiniMax M3模型的部署，通过架构和工程创新实现81–125%吞吐量提升。

入选理由：MiniMax M3 supports 1M-token context and native multimodality, making it suitable for complex real-world tasks.

精选文章#MiniMax#M3#稀疏注意力#多模态#推理优化英文

Engineering voice agents: Latency, quality, and scale — Rishabh Bhargava, Together AI

AI Engineer6月1日6311 字 (约 26 分钟)

入选理由：语音代理必须在500毫秒内响应，否则用户会挂断电话，实时性是核心指标。

精选视频#语音AI#延迟优化#Together AI#代理工程英文

How Together AI built the world’s fastest speech-to-text stack

Together AI 如何构建全球最快的语音转文字堆栈

Together AI Blog5月30日1720 字 (约 7 分钟)

Together AI 通过使用基于 profiles 的 TensorRT 优化其语音转文字堆栈，通过优化解码器循环和改进 CPU 路径，实现了更快的转录速度。他们提供的两个最低延迟模型中，最快的模型可以在不到 10 秒内转录 20 小时的语音。

入选理由：Together AI built the world's fastest speech-to-text stack.

精选文章#Together AI#语音转文字英文

Benchmarking inference at scale: coding agents

大规模推理基准测试：编码代理

Together AI Blog5月21日1358 字 (约 6 分钟)

Together推理引擎在编码代理工作负载中比其他开源引擎多提供31%的TPS，并在饱和状态下保持2倍的TTFT优势。性能提升来自全栈优化。

入选理由：ThunderMLA、自定义内核重写和端到端优化使Together引擎比其他OSS引擎多31%的TPS

精选文章#Together AI#推理引擎#编码代理#性能优化#TTFT英文

Together AI 与 Pearl Research Labs 合作降低 AI 推理成本

Together AI Blog5月18日979 字 (约 4 分钟)

Together AI 与 Pearl Research Labs 合作，通过 FlashAttention-4、ATLAS 等技术降低 AI 推理成本。

入选理由：FlashAttention-4 提升推理速度达 1.3 倍。

精选文章#AI#推理优化英文

Violin：打破语言障碍的开源视频翻译技能

Together AI Blog5月15日1617 字 (约 7 分钟)

Violin 是 Together AI 推出的开源视频翻译工具，通过多模态模型实现高质量视频内容本地化。

入选理由：Violin 支持多语言视频翻译，提升跨语言内容可访问性。

精选文章#AI#视频处理#自然语言处理英文

介绍 Voice Finder —— 一个从超过 600 种声音中快速找到适合应用的声音的新工具

Together AI Blog5月13日1105 字 (约 5 分钟)

Together AI 推出了一个新的工具 Voice Finder，帮助开发者从超过 600 种声音中快速找到适合应用的声音。

入选理由：Voice Finder 提供超过 600 种声音选项。

精选文章#Together AI#Voice Finder#AI工具英文

DeepSeek-V4 Pro 现在可在 Together AI 上使用

Together AI Blog5月11日1895 字 (约 8 分钟)

Together AI 推出 DeepSeek-V4 Pro 模型，提供高性能推理和多种计算选项。

入选理由：DeepSeek-V4 Pro 在 NVIDIA Blackwell 上实现 1.3 倍速度提升。

精选文章#AI#模型部署#深度学习中文

Foundational research powering efficient inference at scale

Together AI Blog5月10日2272 字 (约 10 分钟)

文章介绍了Together AI的多项技术进展，包括FlashAttention-4、ATLAS加速器和Batch Inference API更新，显著提升了大规模推理效率。

入选理由：FlashAttention-4比cuDNN快1.3倍

精选文章#AI#Inference#Efficiency#Together AI英文

跨材料问答 · Together AI

回答基于：Together AI 相关 9 条材料