模型

Gemini 3.1 Pro

Q: 什么是 Gemini 3.1 Pro？

Google发布的闭源大语言模型。

Q: Gemini 3.1 Pro 最近有什么新动态？

traeai 已收录 22 篇与 Gemini 3.1 Pro 相关的内容。最新一篇是「Gemini 3.5 Flash: more expensive, but Google plan to use it for everything」，由 Simon Willison's Weblog 发布。

别名：3.1 Pro

Google发布的闭源大语言模型。

已跟踪 22 条高相关材料

TraeAI 观察

如果只读 3 篇

Gemini 3.5 Flash: more expensive, but Google plan to use it for everything

Simon Willison's Weblog · 8.7 分

Google发布Gemini 3.5 Flash，定价提升至3.1 Flash-Lite的6倍，却广泛部署于搜索、AI助手和企业平台，反映大模型厂商正通过高价模型试探API客户支付意愿，同时性能与成本显著高于前代产品。

MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

量子位 · 8.5 分

MiniMax M3是国内首个同时具备长上下文、多模态与Coding能力的开源模型，实测在SWE-Bench Pro上跑出59%成绩，超越GPT-5.5和Gemini 3.1 Pro，效率达上代1/20。

Can LLMs generate Enterprise Quality Code? — Prasenjit Sarkar, Sonar

AI Engineer · 8.5 分

LLMs生成的代码虽功能通过率高（如Gemini 3.1 Pro达84.17%），但存在严重可维护性与安全缺陷，Sonar用4,444个Java任务评估发现其每百万行代码含614个bug，且代码冗长、复杂度高。

Gemini 3.5 Flash：更贵了，但谷歌计划用它做所有事

Simon Willison's Weblog5月20日615 字 (约 3 分钟)

Google发布Gemini 3.5 Flash，定价是前代Flash-Lite的6倍，却广泛部署于搜索、AI助手和企业平台，反映大模型厂商正通过高价模型试探API客户支付意愿。

入选理由：Gemini 3.5 Flash输入价格为$1.50/百万token，输出为$9/百万token，是3.1 Flash-Lite的6倍。

精选文章#Gemini#Google#AI模型#API定价#大模型部署英文

MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

量子位6月2日3891 字 (约 16 分钟)

MiniMax M3是国内首个同时具备长上下文、多模态与Coding能力的开源模型，实测在SWE-Bench Pro上跑出59%成绩，超越GPT-5.5和Gemini 3.1 Pro，效率达上代1/20。

入选理由：M3在SWE-Bench Pro上得分59%，超越GPT-5.5和Gemini 3.1 Pro

精选文章#MiniMax#开源模型#多模态#编程能力#AI评测中文

Can LLMs generate Enterprise Quality Code? — Prasenjit Sarkar, Sonar

LLM能生成企业级代码吗？——Prasenjit Sarkar, Sonar

AI Engineer6月1日3517 字 (约 15 分钟)

入选理由：Gemini 3.1 Pro在SWE Bench测试中功能通过率达84.17%，但生成代码冗长（307,000行）且复杂度高（圈复杂度234）。

精选视频#LLM#代码质量#Sonar#企业级开发英文

Arena's AI Capability Lead @petergostev runs @AnthropicAI's latest Claude Opus 4.8 through 200+ Code...

lmarena.ai(@lmarena_ai)5月30日200 字 (约 1 分钟)

测试包括与 Gemini 和 GLM 的对比，涵盖多种场景。

入选理由：Claude Opus 4.8 在 200 多项前端测试中胜过 Gemini 3.1 Pro 和 GLM 5.1。

精选推文#AI#AnthropicAI#Claude Opus#Gemini#GLM英文

腾讯混元开源全新翻译模型Hy-MT2 ，上线小程序「腾讯Hy翻译」

量子位5月21日1178 字 (约 5 分钟)

腾讯混元开源Hy-MT2翻译模型，提供33种语言互译，7B和30B-A3B模型达开源最佳效果，1.8B模型超商业API，支持1.25-bit量化仅需440MB存储。

入选理由：Hy-MT2的7B和30B-A3B模型在翻译任务中达到开源最佳效果，超越数十倍参数量模型

精选文章#腾讯混元#Hy-MT2#机器翻译#量化技术#开源模型中文

教育科技门槛一夜归零：AI助力单人低成本开发3D教学应用

AI HOT 精选5月10日636 字 (约 3 分钟)

AI使教育科技门槛降低，个人仅需少量成本即可开发高质量3D教育应用。

入选理由：2020年开发同类应用需80万美元，2026年只需不到10美元。

精选文章#AI#教育科技#3D应用中文

百度发布文心 5.1：搜索能力登顶国内，预训练成本仅为业界 6%

量子位5月9日1445 字 (约 6 分钟)

百度发布文心5.1，以6%预训练成本登顶国内搜索榜，Agent能力超DeepSeek-V4-Pro，创意写作媲美Gemini 3.1 Pro。

入选理由：文心5.1预训练成本仅为业界同规模模型的6%，显著降低AI训练门槛。

精选文章#文心大模型#百度#AI训练优化#大模型#搜索增强中文

watching a team of agents tackling a hard theoretical physics problem is quite mesmerizing - self-co...

观看一组智能体解决理论物理难题令人着迷——Physics-Intern 实现新突破

Thomas Wolf(@Thom_Wolf)5月14日177 字 (约 1 分钟)

Physics-Intern 框架通过多智能体协作将 Gemini 3.1 Pro 在 CritPt 基准上的表现从 17.7% 提升至 31.4%，创下理论物理推理新 SOTA。

入选理由：Physics-Intern 使用多智能体协作框架解决复杂理论物理问题。

精选推文#AI Agent#理论物理#LLM 推理#Gemini#CritPt中英混合

The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths ...

文本竞技场排名前五的实验室

lmarena.ai(@lmarena_ai)5月13日277 字 (约 2 分钟)

文章分析了文本竞技场排名前五的实验室及其模型，展示了前沿模型在不同领域的优势和权衡。AnthropicAI的Claude Opus 4.7表现最为全面，而Google DeepMind的Gemini 3.1 Pro在创意写作方面尤为突出。

入选理由：AnthropicAI的Claude Opus 4.7在几乎所有主要类别中都表现出色，是最具统治力的模型。

精选推文#机器学习#自然语言处理#模型评估#文本生成英文

Open source is going to win

We already have an open-weights model competitive with GPT-5.5 and Opus...

开源将赢得胜利

Paul Couvert(@itsPaulAi)6月2日203 字 (约 1 分钟)

开源模型MiniMax M3已达到与GPT-5.5和Opus 4.7相当的性能，尤其在编码任务上优于Gemini 3.1 Pro，且成本仅为它们的1/10，其权重将于下周在Hugging Face开放。

入选理由：MiniMax M3在SWE Bench Pro上与GPT-5.5性能相当

精选推文#开源#AI模型#MiniMax M3#GPT-5.5#Gemini英文

Gemini 3.5 Flash outperforms 3.1 Pro on many vision use cases (like the below Roboflow eval) while b...

Logan Kilpatrick(@OfficialLoganK)5月23日104 字 (约 1 分钟)

Gemini 3.5 Flash在视觉任务上超越3.1 Pro版本，平均速度快6倍，展现了多模态理解能力优势。该性能提升对实时视觉应用具有重要意义。

入选理由：Gemini 3.5 Flash在视觉任务上表现优于3.1 Pro版本

精选推文#Gemini#AI视觉#多模态#性能优化英文

I Let AI Cold-Call 100 Plumbers (Genspark)

我让 AI 给 100 个水管工打冷电话（GenSpark 实验）

Siraj Raval5月23日2009 字 (约 9 分钟)

AI 可通过 GenSpark 平台调用多个专业代理（如研究、语音脚本、呼叫代理等）自动拨打 100 个英国水管工电话，以验证其作为 24/7 接待员的商业化潜力；实验中 AI 成功引导用户跳转至预约页面，但未披露最终转化数据。

入选理由：使用 GenSpark 构建多代理 AI 系统，整合研究、Stripe、语音脚本、呼叫、收件箱等 6 类代理。

精选视频#GenSpark#AI 代理#冷电话营销#语音 AI#GPT-5.5英文

I asked @GoogleDeepMind Gemini 3.1 Pro watch the launch video of @cursor_ai SDK and create a product...

Philipp Schmid(@_philschmid)5月1日190 字 (约 1 分钟)

Philipp Schmid利用GoogleDeepMind的Gemini 3.1 Pro观看cursor_ai SDK的发布视频并生成制作脚本，随后使用Remotion无提示重现视频，展示其视频理解能力。

入选理由：Gemini 3.1 Pro能够理解视频内容并创建生产脚本。

精选推文#GoogleDeepMind#Gemini 3.1 Pro#cursor_ai SDK#Remotion#视频理解英文

A closer look at Gemini 3.5 Flash by @GoogleDeepMind In the Code Arena: Frontend we see sweeping gai...

深入解析Gemini 3.5 Flash：前端编码能力评估

lmarena.ai(@lmarena_ai)5月20日284 字 (约 2 分钟)

Google DeepMind发布的Gemini 3.5 Flash在Code Arena前端编码评估中取得突破性成绩，得分1507分，较3 Flash提升70分，并超越3.1 Pro版本，同时输出速度提升2倍以上。

入选理由：Gemini 3.5 Flash在Code Arena: Frontend评估中得分1507分，较Gemini-3 Flash提升70点

精选推文#Gemini#Google DeepMind#LLM评估#前端编码#AI模型英文

Pareto Code is a new way of looking at the Pareto frontier using real market demand

DeepSeek V4 Pro...

Pareto Code是利用真实市场需求重新审视帕累托前沿的新方法

OpenRouter(@OpenRouterAI)5月11日148 字 (约 1 分钟)

文章介绍了Pareto Code概念，通过真实市场需求重新定义帕累托前沿，DeepSeek V4 Pro目前排名第一。

入选理由：Pareto Code基于真实市场数据优化模型选择

精选推文#AI模型#市场分析#模型路由中文

Here is the @stripe Link recreation. Same Workflow, 1 prompt, 15 minutes.

Philipp Schmid(@_philschmid)5月1日96 字 (约 1 分钟)

Philipp Schmid展示了一个使用@stripe Link重建的示例，通过1个指令和15分钟完成相同工作流程，展示了AI辅助视频创作的能力。

入选理由：Philipp Schmid使用Gemini 3.1 Pro观察cursor_ai SDK的发布视频并生成制作脚本。

精选推文#Stripe#AI#Video Recreation#DeepMind Gemini英文

Gemini flash 3.5 昨晚发布，现已可用

orange.ai(@oran_ge)5月20日340 字 (约 2 分钟)

Google发布Gemini Flash 3.5，模型效果超越3.1 Pro，性能指标接近GPT-5.5，在Agentic和多模态方面更具优势，价格仅为GPT-5.5的三分之一，上下文窗口达1M token。

入选理由：Gemini Flash 3.5模型效果大幅超越3.1 Pro，性能指标与GPT-5.5接近，在Agentic和多模态能力上优于GPT-5.5

精选推文#Google#Gemini#大模型#AI#API定价中文

Gemini 3.5 Flash from @GoogleDeepMind is live on OpenRouter!

Beats Gemini 3.1 Pro on coding, agenti...

Google DeepMind 的 Gemini 3.5 Flash 现已在 OpenRouter 上线

OpenRouter(@OpenRouterAI)5月20日160 字 (约 1 分钟)

Google DeepMind 发布的 Gemini 3.5 Flash 模型已在 OpenRouter 平台上线，在编码、代理任务和工具使用方面超越 Gemini 3.1 Pro，同时保持 Flash 级别的价格和速度优势。

入选理由：Gemini 3.5 Flash 在编码、代理任务和工具使用方面超越 Gemini 3.1 Pro

精选推文#LLM#Google DeepMind#OpenRouter#Gemini#多模态模型英文

Jeff Dean on X: "Highly capable models that are fast are super important. Our new Gemini 3.5 Flash model is a great mix of fast and capable." / X

Jeff Dean(@JeffDean)5月20日118 字 (约 1 分钟)

Google 发布 Gemini 3.5 Flash 模型，强调速度与能力的平衡。相比 3.1 Pro，新模型在几乎所有基准测试中表现更好，尤其在编程任务上有巨大进步，现已通过 API 和产品全面开放。

入选理由：Gemini 3.5 Flash 模型现已上线，平衡了高速度与高性能。

精选推文#Google#Gemini#LLM#AI#Google I/O英文

SWEbench 已失效。

Matthew Berman6月2日212 字 (约 1 分钟)

SWEbench 基准测试已失效，GPT 5.5 在 Deep Suite 上以 70% 准确率领先 Opus 4.7 的 54%，而 SWEbench 显示相反趋势，表明基准不可靠。

入选理由：GPT 5.5 achieves 70% accuracy on Deep Suite, significantly outperforming Opus 4.7 at 54%.

精选视频#SWEbench#Deep Suite#GPT#Opus#Gemini英文

以上就是全部，原作者 @DilumSanjaya

AI Will(@FinanceYF5)5月11日163 字 (约 1 分钟)

文章介绍使用AI工具生成3D生物结构并构建交互式应用的案例，但缺乏技术深度。

入选理由：使用GPT Images 2生成3D生物结构

精选推文#AI#开发#3D建模中文

Gemini 3.5 Flash is here, available in GA!🔥

- frontier performance for agents and coding
- excels ...

Gemini 3.5 Flash 正式发布

Patrick Loeber(@patloeber)5月20日80 字 (约 1 分钟)

这是一则关于 Gemini 3.5 Flash 正式发布的简短推文，仅列举产品卖点，未提供技术细节、基准数据或架构信息，信息密度极低。

入选理由：Gemini 3.5 Flash 已 GA（正式发布），主打 agents 和 coding 场景

精选推文#Gemini#大语言模型#Google#产品发布英文

跨材料问答 · Gemini 3.1 Pro

回答基于：Gemini 3.1 Pro 相关 22 条材料