老黄在CES2025发布了50系显卡,对此我的看法是奸商闹麻了,我将在下文详细介绍这一代Blackwell的实际性能,连带会解释下英伟达到底在这几年做了什么。
Blackwell实际性能。
50系显卡与B100企业级加速卡共用一个核心系列。5090的核心来自于阉割之后的B100。B100/B200/GB200都是Blackwell核心的变种,其中GB200实际上是1个Grace CPU(arm架构处理器变种)以及2个Blackwell满血GPU(这个满血GPU又是两个B100核心,或者说DIE,用胶水粘合的)放在了同一个电路板上,功耗达到了惊人的上千瓦。老黄提出了10年提升100万倍性能,具体他怎么做呢? H100相对于A100的性能提升是可观的,16位和32位精度计算性能(深度学习常用的精度)都提高了3到6倍。在各种常见的大模型里面都是属于非常有力的模型训练硬件。 目前A100依然是不少公共云平台的主流顶级GPU,H100被大企业抢购导致市面上能流通的数量很少。 然而,B100却并没有比H100有这么多的提升,在各大媒体以及英伟达的宣传中,他们有意让GB200和H100进行对比,从而得出Blackwell比Hopper性能强了2倍起步的结论。实际上,如果仅仅是Blackwell的单GPU算力(也就是B100),在传统的单精度计算上,B100不仅没有比H100强,反而掉了性能,只是在单精度张量计算上提高了一倍。在更低的精度上,例如16.8.4位精度上的确提高了性能。这其实是可以预料的。英伟达在硬件层面让GPU支持低精度运算,从而充分开发硬件性能。但是这样做是有代价的:
- 精度并不能无限降低,4位精度已经是下限。
- 降低精度会导致深度学习模型的准确度下降,类似于一个喝醉酒的人在说疯话。
英伟达在Blackwell上得到的所谓性能提升其实也暗示着内部的架构更新似乎没有带来显著的性能提升,与以往的张量计算单元等创新性的架构革命不同,Blackwell的性能提升来自于:
- 低精度计算
- 胶水核心暴力堆算力
Blackwell与Hopper都是用台积电4nm工艺生产,只是前者用了稍微改良提高的工艺。
发布会的信息
老黄把5090定在了1999的价位,这个价格比4090首发价高了500刀。这一代的提高被老黄总结为这几个方面:
- AI性能是4090的3倍(我上面提过了,这是降低精度带来的必然提高,但是英伟达鼓吹的这个3倍性能大概率是FP4精度,这是个低得令人发指的精度,不会对常见的深度学习任务带来什么影响,我个人估计FP32算力这一代会提高20-30%?这主要来自于更多的晶体管和更高频率的核心)
- 支持DLSS4,更高性能的AI辅助画质优化
- 更多的深度学习光追补帧
总而言之,这是一张对打游戏而言可能会有所提高的消费级显卡,对低精度计算也会有提高,但是普通的深度学习任务很难压缩到4位精度。 另一方面,5090的显存极大可能是32GB,仅仅比4090多了8GB,是个非常鸡肋的提高。
游戏价值 8/10
深度学习价值 6/10