T
traeai
登录
返回首页
Dwarkesh Patel视频

重建AlphaGo教会我们关于自我对弈、强化学习和大语言模型未来的内容 - Eric Jang

8.5Score
可直接观看的视频资源打开原视频

TL;DR · AI 摘要

AlphaGo的重建展示了自我对弈、强化学习和大语言模型未来发展的关键启示。

核心要点

  • AlphaGo的重建表明自我对弈是训练AI的关键方法。
  • 强化学习在AlphaGo中的应用为大语言模型提供了新思路。
  • 未来大语言模型的发展将更加依赖自我对弈和强化学习技术。

结构提纲

按章节快速跳转。

  1. 介绍AlphaGo重建及其对AI发展的意义。

  2. 解释自我对弈如何帮助AI提升能力。

  3. ·强化学习的应用

    讨论强化学习在AlphaGo中的具体应用。

  4. 分析AlphaGo对大语言模型未来的影响。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • AlphaGo重建与AI发展
    • 自我对弈
      • 训练AI的关键方法
    • 强化学习
      • AlphaGo中的应用
    • 未来展望
      • 大语言模型的发展

金句 / Highlights

值得收藏与分享的关键句。

#AlphaGo#强化学习#大语言模型

视频笔记

重建AlphaGo教会我们的关于自我对弈、强化学习和大语言模型未来的事 - Eric Jang - YouTube

跳过导航

搜索

用语音搜索

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

登录

![图片2](https://www.youtube.com/ "YouTube首页")

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

视频2 https://www.youtube.com/watch?v=X_ZVSPcZhtw

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

重建AlphaGo教会我们的关于自我对弈、强化学习和大语言模型未来的事 - Eric Jang

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

点击取消静音

2倍速

图片3

重建AlphaGo教会我们的关于自我对弈、强化学习和大语言模型未来的事 - Eric Jang

Dwarkesh Patel 75,029 views 2天前

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

复制链接

信息

购物

图片4
图片5

如果播放未开始,请尝试重新启动您的设备。

您已退出登录

您观看的视频可能会被添加到电视的观看历史中,并影响电视推荐。为了避免这种情况,请取消登录并重新登录到YouTube。

取消 确认

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

分享

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw "分享链接")- [x] 包含播放列表

在获取分享信息时发生错误。请稍后再试。

图片6

0:00

[](https://www.youtube.com/watch?v=X_ZVSPcZhtw)[](https://www.youtube.com/watch?v=jGZOi-7haCw "下一集 (SHIFT+n)")

0:00 / 0:00

直播

• 观看完整视频

围棋基础

2:13:50 David Reich – Bronze Age shock, the Neanderthal puzzle, & the sudden spread of farming Dwarkesh Patel 154K views • 9 days ago Live Playlist ()Mix (50+)1:26:16 The Uncomfortable Truth About AI “Reasoning” | World Science Festival World Science Festival 65K views • 2 days ago Live Playlist ()Mix (50+)1:13:28 Game Theory #25: Trump Visits China Predictive History 1.4M views • 3 days ago Live Playlist ()Mix (50+)37:25 Yann LeCun's $1B Bet Against LLMs Welch Labs 465K views • 2 weeks ago Live Playlist ()Mix (50+)38:36 Dario Amodei & Marc Benioff: Future of AI Salesforce Events 41K views • 5 days ago Live Playlist ()Mix (50+)21:39 The impossible song we'll remember in 500 years David Hartley 1.6M views • 3 weeks ago Live Playlist ()Mix (50+)56:51 Turing Award Winner: Disagreeing with Google, Postgres, Future Problems | Mike Stonebraker Ryan Peterman 303K views • 3 weeks ago Live Playlist ()Mix (50+)2:13:41 How GPT, Claude, and Gemini are actually trained and served – Reiner Pope Dwarkesh Patel 325K views • 2 weeks ago Live Playlist ()Mix (50+)19:31 Why This Is the Most Exciting Time to Be Human | Ken Ono, Axiom Math EO 161K views • 10 days ago Live Playlist ()Mix (50+)52:02 The U.S. and China Are Not In An A.I. Race | Interesting Times with Ross Douthat Interesting Times with Ross Douthat and 2 more 71K views • 3 days ago Live Playlist ()Mix (50+)16:10 Mythos unleashed on Opensource The PrimeTime 746K views • 4 days ago Live Playlist ()Mix (50+)40:57 Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough Y Combinator 205K views • 2 weeks ago Live Playlist ()Mix (50+)

确认您不是机器人。这有助于保护我们的社区。了解更多

登录

重建AlphaGo教会我们的关于自我对弈、强化学习和大语言模型未来的事 - Eric Jang

图片7

Dwarkesh Patel

Dwarkesh Patel

131万订阅者

订阅

已订阅

2.2K

分享

保存

下载

下载

75,029次观看 2天前 Dwarkesh播客

75,029次观看 • 2026年5月15日 • Dwarkesh播客

Eric Jang讲解如何从零开始构建AlphaGo,但使用现代AI工具。有时候,通过倒退理解未来会更清楚。AlphaGo仍然是对基本原理最清晰的示例……更多

更多

目录

查看全部

![Image 8 #### Go 基础知识 #### Go 基础知识 0:00](https://www.youtube.com/watch?v=X_ZVSPcZhtw)

#### Go 基础知识

0:00

![Image 9 #### 蒙特卡洛树搜索 #### 蒙特卡洛树搜索 8:06](https://www.youtube.com/watch?v=X_ZVSPcZhtw&t=486s)

#### 蒙特卡洛树搜索

8:06

![Image 10 #### 神经网络的作用 #### 神经网络的作用 31:53](https://www.youtube.com/watch?v=X_ZVSPcZhtw&t=1913s)

#### 神经网络的作用

31:53

![Image 11 #### 自对弈 #### 自对弈 1:00:22](https://www.youtube.com/watch?v=X_ZVSPcZhtw&t=3622s)

#### 自对弈

1:00:22

![Image 12 #### 其他强化学习方法 #### 其他强化学习方法 1:25:27](https://www.youtube.com/watch?v=X_ZVSPcZhtw&t=5127s)

#### 其他强化学习方法

1:25:27

![Image 13 #### 为什么蒙特卡洛树搜索对大语言模型不起作用 #### 为什么蒙特卡洛树搜索对大语言模型不起作用 1:45:36](https://www.youtube.com/watch?v=X_ZVSPcZhtw&t=6336s)

#### 为什么蒙特卡洛树搜索对大语言模型不起作用

1:45:36

![Image 14 #### 非策略训练 #### 非策略训练 2:00:58](https://www.youtube.com/watch?v=X_ZVSPcZhtw&t=7258s)

#### 非策略训练

2:00:58

![Image 15 #### 强化学习比你想象的更信息低效 #### 强化学习比你想象的更信息低效 2:11:51](https://www.youtube.com/watch?v=X_ZVSPcZhtw&t=7911s)

#### 强化学习比你想象的更信息低效

2:11:51

探索播客

![Image 16128集 128集](https://www.youtube.com/playlist?list=PLd7-bHaQwnthaNDpZ32TtYONGVk95-fhF)

Dwarkesh播客

Dwarkesh Patel

![Image 17 播客](https://www.youtube.com/podcasts)

字幕

跟随字幕进行观看。

显示字幕

![Image 18 ### Dwarkesh Patel 1.31M订阅者](https://www.youtube.com/@DwarkeshPatel)

视频关于![Image 19 Twitter](https://www.youtube.com/redirect?event=Watch_SD_EP&redir_token=QUFFLUhqbVFNcTRBZzR1U1hzQXhWUy1aTi15ZWUwMTFGZ3xBQ3Jtc0tuZU5TRWdJM0k3a0lrZ3h3NXBEbjF2M2dqTzhTNzktSVJVNVlGa04td3ZUMU9wQjdyeUJncmdUQ292V3FuMUNDaWUtcHVaN3BJeUJTb0VtTkV0ZTNST2t2TG9kRER4eFYwRElDYTZjZzZtZDFoX0ZHSQ&q=https%3A%2F%2Ftwitter.com%2Fdwarkesh_sp)![Image 20 视频片段](https://www.youtube.com/@DwarkeshClips)

显示较少

[](https://www.youtube.com/playlist?list=PLd7-bHaQwnthaNDpZ32TtYONGVk95-fhF)Dwarkesh播客

重建AlphaGo教会我们的关于自对弈、强化学习和大语言模型未来的内容 - Eric Jang

75,029次观看 75K次观看

2026年5月15日

2.2K

分享

保存

下载

下载

128条评论

按评论排序

按顺序排序

顶部显示特色评论最新显示最近的评论,包括潜在垃圾评论

Image 21: 默认资料照片

添加评论...

Image 22

由@DwarkeshPatel置顶

[@DwarkeshPatel](https://www.youtube.com/@DwarkeshPatel)

@DwarkeshPatel @DwarkeshPatel2天前

我做了一些闪卡来保留讲座内容。也许对你也有用:https://flashcards.dwarkesh.com/eric-jang/

显示较少 阅读更多

喜欢

27

不喜欢

回复

2个回复

隐藏回复

2个回复

Image 23

[@rajatady](https://www.youtube.com/@rajatady)

2天前

这种黑板设置非常被低估了。感谢你让它实现。

显示较少 阅读更多

喜欢

114

不喜欢

回复

1个回复

隐藏回复

1个回复

Image 24

[@abhijitpradhan9831](https://www.youtube.com/@abhijitpradhan9831)

2天前

Patel 提升了整个播客游戏

显示较少 阅读更多

喜欢

35

不喜欢

回复

Image 25

[@adrian.valentim](https://www.youtube.com/@adrian.valentim)

2天前

太棒了!继续推出黑板系列吧!

显示较少 阅读更多

点赞

58

点踩

回复

1条回复

隐藏回复

1条回复

图片26

[@invinoa](https://www.youtube.com/@invinoa)

2天前

说实话,这解释非常有价值。邀请他来真是好主意。

显示较少 阅读更多

点赞

12

点踩

回复

1条回复

隐藏回复

1条回复

图片27

[@karimalmoukhtar](https://www.youtube.com/@karimalmoukhtar)

1天前

这个频道的视频令人难以置信。

显示较少 阅读更多

点赞

7

点踩

回复

图片28

[@Hahalol663](https://www.youtube.com/@Hahalol663)

1天前

令人惊讶的是,如此高质量的深度技术内容可以免费获取。感谢你的出色工作,Dwarkesh。

显示较少 阅读更多

点赞

2

点踩

回复

图片29

[@The_JPo](https://www.youtube.com/@The_JPo)

15小时前

内容非常棒。我无法形容这有多棒。Dwarkesh和团队现在真的做得很好。

显示较少 阅读更多

点赞

1

点踩

回复

图片30

[@TheBlackClockOfTime](https://www.youtube.com/@TheBlackClockOfTime)

2天前

嗯,是的。我看了这个节目8分钟,这是我第一次理解Go,并且想开始真正学习深度学习。谢谢Dwarkesh。这真的很棒。

显示较少 阅读更多

点赞

2

点踩

回复

图片31

[@skyecase](https://www.youtube.com/@skyecase)

2天前

我真的喜欢播客的新黑板风格,它让对话感觉更加互动和易于跟随。有一点可以让它更好:使用共享的Excalidraw风格板(或类似的协作白板)在你和嘉宾的标签上同步。目前黑板工作得很好,但一些内容消失得太快了,尤其是在密集的解释中。如果能在UI或描述中添加白板会话链接,那么观众之后可以重新查看图表和笔记,那就太棒了。

显示较少 阅读更多

点赞

85

点踩

回复

7条回复

隐藏回复

7条回复

图片32

[@trqrider94](https://www.youtube.com/@trqrider94)

1天前

我认为你花时间学习这个游戏并展示学习过程,而Eric带你一起走,这是非常好的。

显示较少 阅读更多

点赞

1

点踩

回复

图片33

[@visuality2541](https://www.youtube.com/@visuality2541)

2天前

帕特尔先生,我必须说您是个天才。谢谢。

显示较少 阅读更多

点赞

4

点踩

回复

图片34

[@poetac15](https://www.youtube.com/@poetac15)

8小时前

喜欢新的黑板格式。

显示较少 阅读更多

点赞

点踩

回复

图片35

[@bharatatomic](https://www.youtube.com/@bharatatomic)

2天前

有趣的是,深度学习能够解决传统上被认为在计算复杂性方面不可行的问题。

显示较少 阅读更多

点赞

4

点踩

回复

图片36

[@matthewlones6788](https://www.youtube.com/@matthewlones6788)

2天前

感谢这些黑板格式!!

显示较少 阅读更多

点赞

3

点踩

回复

图片37

[@jsierra88](https://www.youtube.com/@jsierra88)

2天前

当安德烈·卡帕蒂在黑板上时?

显示较少 阅读更多

点赞

13

点踩

回复

1条回复

隐藏回复

1条回复

图片38

[@lja-j5g](https://www.youtube.com/@lja-j5g)

2天前

这个标题听起来太好了,不可能是真的,但你真是超级厉害。

显示较少 阅读更多

点赞

5

点踩

回复

图片39

[@DailySFY](https://www.youtube.com/@DailySFY)

1天前

我喜欢这些系列!黑板播客比其他任何形式都好。谢谢!!!

显示较少 阅读更多

点赞

点踩

回复

图片40

[@ESYdotcom](https://www.youtube.com/@ESYdotcom)

2天前

Dwarkesh,你真是令人敬佩,我注意到你在每个视频中都在不断进步,非常 impressive 的工作和对技艺的投入。

Show less Read more

Like

1

Dislike

Reply

图片41

[@benbridgwater6479](https://www.youtube.com/@benbridgwater6479)

1天前

一位很棒的嘉宾——非常聪明且演讲出色。听到关于现代机器学习的讨论,不再只是关于大语言模型(LLMs)真是太好了!我认为MCTS(蒙特卡洛树搜索)在大语言模型和推理中的不适用性,不仅仅是由于可能的移动范围广(加上缺乏移动评分函数),还因为可能根本无法枚举出所有可能的移动!在一般情况下,推理不仅仅是搜索,还可能涉及通过探索和发现(即发现新移动)来解决僵局。

AI 可能会生成不准确的信息,请核实重要内容

重建AlphaGo教会我们关于自我对弈、强化学习和大语言模型未来的内容 - Eric Jang | Dwarkesh Patel | traeai