重建AlphaGo教会我们关于自我对弈、强化学习和大语言模型未来的内容 - Eric Jang
TL;DR · AI 摘要
AlphaGo的重建展示了自我对弈、强化学习和大语言模型未来发展的关键启示。
核心要点
- AlphaGo的重建表明自我对弈是训练AI的关键方法。
- 强化学习在AlphaGo中的应用为大语言模型提供了新思路。
- 未来大语言模型的发展将更加依赖自我对弈和强化学习技术。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- AlphaGo重建与AI发展
- 自我对弈
- 训练AI的关键方法
- 强化学习
- AlphaGo中的应用
- 未来展望
- 大语言模型的发展
金句 / Highlights
值得收藏与分享的关键句。
AlphaGo的重建表明自我对弈是训练AI的关键方法。
强化学习在AlphaGo中的应用为大语言模型提供了新思路。
未来大语言模型的发展将更加依赖自我对弈和强化学习技术。
视频笔记
重建AlphaGo教会我们的关于自我对弈、强化学习和大语言模型未来的事 - Eric Jang - YouTube
跳过导航
搜索
用语音搜索
[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)
[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)
视频2 https://www.youtube.com/watch?v=X_ZVSPcZhtw
[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)
[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)
重建AlphaGo教会我们的关于自我对弈、强化学习和大语言模型未来的事 - Eric Jang
[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)
点击取消静音
2倍速
重建AlphaGo教会我们的关于自我对弈、强化学习和大语言模型未来的事 - Eric Jang
Dwarkesh Patel 75,029 views 2天前
[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)
复制链接
信息
购物
如果播放未开始,请尝试重新启动您的设备。
•
您已退出登录
您观看的视频可能会被添加到电视的观看历史中,并影响电视推荐。为了避免这种情况,请取消登录并重新登录到YouTube。
取消 确认
[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)
分享
[](https://www.youtube.com/watch?v=X_ZVSPcZhtw "分享链接")- [x] 包含播放列表
在获取分享信息时发生错误。请稍后再试。
0:00
[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)[](https://www.youtube.com/watch?v=jGZOi-7haCw "下一集 (SHIFT+n)")
0:00 / 0:00
直播
• 观看完整视频
•
围棋基础
•
2:13:50 David Reich – Bronze Age shock, the Neanderthal puzzle, & the sudden spread of farming Dwarkesh Patel 154K views • 9 days ago Live Playlist ()Mix (50+)1:26:16 The Uncomfortable Truth About AI “Reasoning” | World Science Festival World Science Festival 65K views • 2 days ago Live Playlist ()Mix (50+)1:13:28 Game Theory #25: Trump Visits China Predictive History 1.4M views • 3 days ago Live Playlist ()Mix (50+)37:25 Yann LeCun's $1B Bet Against LLMs Welch Labs 465K views • 2 weeks ago Live Playlist ()Mix (50+)38:36 Dario Amodei & Marc Benioff: Future of AI Salesforce Events 41K views • 5 days ago Live Playlist ()Mix (50+)21:39 The impossible song we'll remember in 500 years David Hartley 1.6M views • 3 weeks ago Live Playlist ()Mix (50+)56:51 Turing Award Winner: Disagreeing with Google, Postgres, Future Problems | Mike Stonebraker Ryan Peterman 303K views • 3 weeks ago Live Playlist ()Mix (50+)2:13:41 How GPT, Claude, and Gemini are actually trained and served – Reiner Pope Dwarkesh Patel 325K views • 2 weeks ago Live Playlist ()Mix (50+)19:31 Why This Is the Most Exciting Time to Be Human | Ken Ono, Axiom Math EO 161K views • 10 days ago Live Playlist ()Mix (50+)52:02 The U.S. and China Are Not In An A.I. Race | Interesting Times with Ross Douthat Interesting Times with Ross Douthat and 2 more 71K views • 3 days ago Live Playlist ()Mix (50+)16:10 Mythos unleashed on Opensource The PrimeTime 746K views • 4 days ago Live Playlist ()Mix (50+)40:57 Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough Y Combinator 205K views • 2 weeks ago Live Playlist ()Mix (50+)
确认您不是机器人。这有助于保护我们的社区。了解更多
重建AlphaGo教会我们的关于自我对弈、强化学习和大语言模型未来的事 - Eric Jang
Dwarkesh Patel
131万订阅者
订阅
已订阅
2.2K
分享
保存
下载
下载
75,029次观看 2天前 Dwarkesh播客
75,029次观看 • 2026年5月15日 • Dwarkesh播客
Eric Jang讲解如何从零开始构建AlphaGo,但使用现代AI工具。有时候,通过倒退理解未来会更清楚。AlphaGo仍然是对基本原理最清晰的示例……更多
更多
目录
查看全部

#### Go 基础知识
0:00

#### 蒙特卡洛树搜索
8:06

#### 神经网络的作用
31:53

#### 自对弈
1:00:22

#### 其他强化学习方法
1:25:27

#### 为什么蒙特卡洛树搜索对大语言模型不起作用
1:45:36

#### 非策略训练
2:00:58

#### 强化学习比你想象的更信息低效
2:11:51
探索播客

Dwarkesh播客
Dwarkesh Patel

字幕
跟随字幕进行观看。
显示字幕

视频关于
显示较少
[](https://www.youtube.com/playlist?list=PLd7-bHaQwnthaNDpZ32TtYONGVk95-fhF)Dwarkesh播客
重建AlphaGo教会我们的关于自对弈、强化学习和大语言模型未来的内容 - Eric Jang
75,029次观看 75K次观看
2026年5月15日
2.2K
分享
保存
下载
下载
128条评论
按评论排序
按顺序排序
添加评论...
由@DwarkeshPatel置顶
[@DwarkeshPatel](https://www.youtube.com/@DwarkeshPatel)
@DwarkeshPatel @DwarkeshPatel2天前
我做了一些闪卡来保留讲座内容。也许对你也有用:https://flashcards.dwarkesh.com/eric-jang/
显示较少 阅读更多
喜欢
27
不喜欢
回复
2个回复
隐藏回复
2个回复
[@rajatady](https://www.youtube.com/@rajatady)
这种黑板设置非常被低估了。感谢你让它实现。
显示较少 阅读更多
喜欢
114
不喜欢
回复
1个回复
隐藏回复
1个回复
[@abhijitpradhan9831](https://www.youtube.com/@abhijitpradhan9831)
Patel 提升了整个播客游戏
显示较少 阅读更多
喜欢
35
不喜欢
回复
[@adrian.valentim](https://www.youtube.com/@adrian.valentim)
太棒了!继续推出黑板系列吧!
显示较少 阅读更多
点赞
58
点踩
回复
1条回复
隐藏回复
1条回复
[@invinoa](https://www.youtube.com/@invinoa)
说实话,这解释非常有价值。邀请他来真是好主意。
显示较少 阅读更多
点赞
12
点踩
回复
1条回复
隐藏回复
1条回复
[@karimalmoukhtar](https://www.youtube.com/@karimalmoukhtar)
这个频道的视频令人难以置信。
显示较少 阅读更多
点赞
7
点踩
回复
[@Hahalol663](https://www.youtube.com/@Hahalol663)
令人惊讶的是,如此高质量的深度技术内容可以免费获取。感谢你的出色工作,Dwarkesh。
显示较少 阅读更多
点赞
2
点踩
回复
[@The_JPo](https://www.youtube.com/@The_JPo)
内容非常棒。我无法形容这有多棒。Dwarkesh和团队现在真的做得很好。
显示较少 阅读更多
点赞
1
点踩
回复
[@TheBlackClockOfTime](https://www.youtube.com/@TheBlackClockOfTime)
嗯,是的。我看了这个节目8分钟,这是我第一次理解Go,并且想开始真正学习深度学习。谢谢Dwarkesh。这真的很棒。
显示较少 阅读更多
点赞
2
点踩
回复
[@skyecase](https://www.youtube.com/@skyecase)
我真的喜欢播客的新黑板风格,它让对话感觉更加互动和易于跟随。有一点可以让它更好:使用共享的Excalidraw风格板(或类似的协作白板)在你和嘉宾的标签上同步。目前黑板工作得很好,但一些内容消失得太快了,尤其是在密集的解释中。如果能在UI或描述中添加白板会话链接,那么观众之后可以重新查看图表和笔记,那就太棒了。
显示较少 阅读更多
点赞
85
点踩
回复
7条回复
隐藏回复
7条回复
[@trqrider94](https://www.youtube.com/@trqrider94)
我认为你花时间学习这个游戏并展示学习过程,而Eric带你一起走,这是非常好的。
显示较少 阅读更多
点赞
1
点踩
回复
[@visuality2541](https://www.youtube.com/@visuality2541)
帕特尔先生,我必须说您是个天才。谢谢。
显示较少 阅读更多
点赞
4
点踩
回复
[@poetac15](https://www.youtube.com/@poetac15)
喜欢新的黑板格式。
显示较少 阅读更多
点赞
点踩
回复
[@bharatatomic](https://www.youtube.com/@bharatatomic)
有趣的是,深度学习能够解决传统上被认为在计算复杂性方面不可行的问题。
显示较少 阅读更多
点赞
4
点踩
回复
[@matthewlones6788](https://www.youtube.com/@matthewlones6788)
感谢这些黑板格式!!
显示较少 阅读更多
点赞
3
点踩
回复
[@jsierra88](https://www.youtube.com/@jsierra88)
当安德烈·卡帕蒂在黑板上时?
显示较少 阅读更多
点赞
13
点踩
回复
1条回复
隐藏回复
1条回复
[@lja-j5g](https://www.youtube.com/@lja-j5g)
这个标题听起来太好了,不可能是真的,但你真是超级厉害。
显示较少 阅读更多
点赞
5
点踩
回复
[@DailySFY](https://www.youtube.com/@DailySFY)
我喜欢这些系列!黑板播客比其他任何形式都好。谢谢!!!
显示较少 阅读更多
点赞
点踩
回复
[@ESYdotcom](https://www.youtube.com/@ESYdotcom)
Dwarkesh,你真是令人敬佩,我注意到你在每个视频中都在不断进步,非常 impressive 的工作和对技艺的投入。
Show less Read more
Like
1
Dislike
Reply
[@benbridgwater6479](https://www.youtube.com/@benbridgwater6479)
一位很棒的嘉宾——非常聪明且演讲出色。听到关于现代机器学习的讨论,不再只是关于大语言模型(LLMs)真是太好了!我认为MCTS(蒙特卡洛树搜索)在大语言模型和推理中的不适用性,不仅仅是由于可能的移动范围广(加上缺乏移动评分函数),还因为可能根本无法枚举出所有可能的移动!在一般情况下,推理不仅仅是搜索,还可能涉及通过探索和发现(即发现新移动)来解决僵局。