高效推理MiniMax-M3:解锁1M令牌上下文和多模态能力
Together AI优化了MiniMax M3模型的部署,通过架构和工程创新实现81–125%吞吐量提升。
入选理由:MiniMax M3 supports 1M-token context and native multimodality, making it suitable for complex real-world tasks.
公司
别名:togetherai
云服务提供商,专注于为大型语言模型提供高效的推理平台。
已跟踪 9 条高相关材料
最近变化
2026-06-02 · MiniMax M3 supports 1M-token context and native multimodality, making it suitable for complex real-world tasks.
为什么值得关注
Together AI 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Serving MiniMax-M3 for efficient inference: Unlocking 1M-Token Context and Multimodality Without Regrets
Together AI Blog · 8.7 分
Together AI has optimized the deployment of MiniMax M3, a model with 1M-token context and multimodal support, achieving 81–125% throughput...
Engineering voice agents: Latency, quality, and scale — Rishabh Bhargava, Together AI
AI Engineer · 8.5 分
构建高质量、低延迟、可扩展的语音代理已成为工程核心挑战,需解决实时响应(<500ms)、复杂指令处理与工具调用等关键问题,Together AI 提供基础设施支持。
How Together AI built the world’s fastest speech-to-text stack
Together AI Blog · 8.5 分
Together AI optimized their speech-to-text stack, achieving faster transcription speeds by using profile-aware TensorRT, optimizing the dec...
已收录 9 条与 Together AI 相关的内容,按评分排序。
Together AI优化了MiniMax M3模型的部署,通过架构和工程创新实现81–125%吞吐量提升。
入选理由:MiniMax M3 supports 1M-token context and native multimodality, making it suitable for complex real-world tasks.
构建高质量、低延迟、可扩展的语音代理已成为工程核心挑战,需解决实时响应(<500ms)、复杂指令处理与工具调用等关键问题,Together AI 提供基础设施支持。
入选理由:语音代理必须在500毫秒内响应,否则用户会挂断电话,实时性是核心指标。
Together AI 通过使用基于 profiles 的 TensorRT 优化其语音转文字堆栈,通过优化解码器循环和改进 CPU 路径,实现了更快的转录速度。他们提供的两个最低延迟模型中,最快的模型可以在不到 10 秒内转录 20 小时的语音。
入选理由:Together AI built the world's fastest speech-to-text stack.
Together推理引擎在编码代理工作负载中比其他开源引擎多提供31%的TPS,并在饱和状态下保持2倍的TTFT优势。性能提升来自全栈优化。
入选理由:ThunderMLA、自定义内核重写和端到端优化使Together引擎比其他OSS引擎多31%的TPS
Together AI 与 Pearl Research Labs 合作,通过 FlashAttention-4、ATLAS 等技术降低 AI 推理成本。
入选理由:FlashAttention-4 提升推理速度达 1.3 倍。
Violin 是 Together AI 推出的开源视频翻译工具,通过多模态模型实现高质量视频内容本地化。
入选理由:Violin 支持多语言视频翻译,提升跨语言内容可访问性。
Together AI 推出了一个新的工具 Voice Finder,帮助开发者从超过 600 种声音中快速找到适合应用的声音。
入选理由:Voice Finder 提供超过 600 种声音选项。
Together AI 推出 DeepSeek-V4 Pro 模型,提供高性能推理和多种计算选项。
入选理由:DeepSeek-V4 Pro 在 NVIDIA Blackwell 上实现 1.3 倍速度提升。
文章介绍了Together AI的多项技术进展,包括FlashAttention-4、ATLAS加速器和Batch Inference API更新,显著提升了大规模推理效率。
入选理由:FlashAttention-4比cuDNN快1.3倍