Join Ads Marketplace to earn through podcast sponsorships.
Manage your ads with dynamic ad insertion capability.
Monetize with Apple Podcasts Subscriptions via Podbean.
Earn rewards and recurring income from Fan Club membership.
Get the answers and support you need.
Resources and guides to launch, grow, and monetize podcast.
Stay updated with the latest podcasting tips and trends.
Check out our newest and recently released features!
Podcast interviews, best practices, and helpful tips.
The step-by-step guide to start your own podcast.
Create the best live podcast and engage your audience.
Tips on making the decision to monetize your podcast.
The best ways to get more eyes and ears on your podcast.
Everything you need to know about podcast advertising.
The ultimate guide to recording a podcast on your phone.
Steps to set up and use group recording in the Podbean app.
Join Ads Marketplace to earn through podcast sponsorships.
Manage your ads with dynamic ad insertion capability.
Monetize with Apple Podcasts Subscriptions via Podbean.
Earn rewards and recurring income from Fan Club membership.
Get the answers and support you need.
Resources and guides to launch, grow, and monetize podcast.
Stay updated with the latest podcasting tips and trends.
Check out our newest and recently released features!
Podcast interviews, best practices, and helpful tips.
The step-by-step guide to start your own podcast.
Create the best live podcast and engage your audience.
Tips on making the decision to monetize your podcast.
The best ways to get more eyes and ears on your podcast.
Everything you need to know about podcast advertising.
The ultimate guide to recording a podcast on your phone.
Steps to set up and use group recording in the Podbean app.
欢迎收听雪球出品的财经有深度,雪球,国内领先的集投资交流交易一体的综合财富管理平台,聪明的投资者都在这里。今天分享的内容叫英伟达CUDA的优势及挑战,来自wangdizhe。
d s 对英伟达的挑战,并不是简单的“算法平权”,还有开源对闭源的挑战。如果只是了解a h100或者gb200这种东西,意义不大,英伟达的护城河主要是CUDA
CUDA的故事起步于2006年11月份发布的GeForce8800GTX,19年前了,那是一个起点。2007年6月份发布了英伟达的通用图形处理器、CUDA出世,这个跳跃是让显卡不仅能用在图像绘制了,也能用在其他方面。
A I 的本质,其实和 B T C 的哈希算法类似,都是大量的数学计算。这也可以解释为啥近10年金融越来越“数学化”,包括做对冲的幻方能弄出 d s,也是因为它是最具“金融数学化底蕴的对冲私募”。
主要就是transformer那套,也就是比如从一维的向量到二维的矩阵,然后再到三位或高位的张量,核心不在于算的多难,而在于算的题量很大。
G P U 更像一个“事业部经理”,而 C P U 类似于一个“ c e o ”。 i t 世界一开始,c e o 比较重要,因为机会多多,需要面面俱到,就像80到90年代做生意,压对方向很重要。但随着时间发展,需要不断“细分而深化”,尤其是显卡计算部分,这部分其实初期是游戏推进的,但后期科学计算的需求上来了,把控机会需要更好的“项目经理”。
G P U 内部有很多逻辑计算单位,每个单元基本上只做简单的加减乘除,靠着分工协同完成庞大的计算任务。CUDA就是G P U这个项目部经理手下的“调度总管”,比如计算张量这个活,就具体分派谁谁来做,也就是CUDA的作用,其实就是“算力调度者”,它优化算法效率。
这个作用类似于斯隆对通用汽车的管理,也就是在具体的“算力事业部内”,CUDA这个算力调度者,甚至有比肩整个事业部经理的实力。因为所谓的算力,A M D 也有,也就是经理不稀罕,调度总管那套管理方法,却是稀缺的。
算力管理的优化,也是 d s 之所以引人瞩目的地方,因为人们认为“算力调度工作”应该在CUDA逻辑下优化,但没想到 d s 用了一些方法,似乎实现了更大的优化。人们好奇的就是它是如何实现的?以及优化算力之后,对于未来算力需求是不是降低?以及这对于“算力优化”世界,意味着什么?
CUDA的好处,是如果研究者,只会 a i 模型的训练及推理方法,而不会任务分类的话,也没事,英伟达有自动分配的程序库,这样玩ai的,只需要专注于训练或推论就行了。这降低了项目开发的门槛,等于是一个特殊的“懒人包”。所以开发人员都喜欢用,然后20年过去了,用的人越来越多,产生生态影响力和开发依赖度。
未来英伟达还要推行量子计算,比如2023年就推出了 CUDA Quantum 平台,这部分也是为未来布局。其实逻辑核心依然是“并行计算”,也就是用多个处理单元,同时推进,计算量越大,越快,就越容易“大力超快出奇迹”。从一定程度上,可以理解CUDA在G P U 领域,是类似于x86在 C P U 领域的那种“专利优势”。
CUDA未来就没有挑战么?当然有的,大概4个维度
1、硬件挑战
首先基本上,每个做 C P U 的,其实都看着别人火而眼馋。A M D 的mi300x,直接对标英伟达的H100,价格基本是其三分之一。然后 A M D还通过ROCm平台通过兼容CUDA代码吸引开发者,弱化CUDA生态。英特尔虽然遇到困境,但有美国政府撑腰,也没闲着,其G P U 加速器结合了Xe架构和开放标准SYCL,通过OneAPI实现跨硬件统一编程,降低对CUDA的依赖。
然后就是科技巨头的自研芯片,比如谷歌TPU通过专用张量核心和软件栈在 A I 训练中实现更高能效比。亚马逊云科技的自研芯片直接与CUDA生态脱钩,挑战英伟达的云市场份额。
以及中国势力的挑战,主要就是华为昇腾、寒武纪等国产芯片在政策驱动下抢占本土市场,通过兼容PyTorch等框架绕过CUDA绑定。
2、软件挑战
英伟达的闭源属具,让其必然引来开源的挑战, d s 事件其实就是代表之一。
首先就是开源编译器的性能逼近,比如OpenAI Triton,支持Python编写G P U 内核,在英文的 G P U 上性能接近CUDA,同时兼容 A M D和英特尔硬件,成为CUDA的“平替”。
然后就是AI框架的硬件抽象化:比如PyTorch 2.0与TorchDynamo,PyTorch通过编译器技术自动优化计算图,无需手动编写CUDA内核即可实现高性能,降低开发者对CUDA的依赖。
最后是跨平台标准:比如Vulkan Compute和SYCL等开放标准支持多厂商硬件,未来可能挤压CUDA的生存空间
3、cuda本身存在的技术瓶颈
内存墙与通信瓶颈:G P U 显存容量和带宽增长放缓,而大模型训练需要TB级内存,迫使开发者转向分布式计算或多芯片方案,CUDA的单卡优化优势被稀释。其次是NVLink和InfiniBand的私有协议面临通用芯粒互联等开放标准的竞争,可能削弱英伟达全栈技术的协同效应。
能效比挑战: 随着摩尔定律放缓,单纯依靠制程升级提升算力的模式不可持续。CUDA需在稀疏计算、混合精度等算法层创新,但竞争对手通过架构革新实现更高能效。
量子计算与神经形态计算的长期威胁:量子计算在特定领域的突破可能分流HPC需求。神经形态芯片更适合脉冲神经网络,这些新型计算范式与CUDA的SIMT模型不兼容。
4、市场及政策挑战
地缘政治与供应链风险:美国对华高端G P U 出口限制迫使中国厂商加速去CUDA化,华为昇腾和百度的正在逐渐强化替代性生态。未来美国对从香港和新加坡渠道都会加强管理,对Azure华ai芯片营收占到英伟达总量的20到25%,这部分如果管制加强,英伟达业绩会受到影响。
云厂商的“去英伟达化”策略:亚马逊、微软等云服务商通过自研芯片和多元化硬件方案降低对英伟达 G P U 的采购比例,CUDA在云端的统治力可能被削弱。
开发者社区的迁移成本降低:工具链可将CUDA代码自动转换为HIP( A M D)或SYCL(Intel),迁移成本从“月级”降至“天级”,CUDA的生态锁定效应减弱。
英伟达也不傻,早就看到了这些威胁,因此也在CUDA护城河上做出应对,大概做了4点应对:
1、强化全栈优势:首先是软硬件协同设计,通过Grace Hopper超级芯片实现C P U /G P U 内存一致性,提升CUDA在异构计算中的竞争力。然后是,CUDA-X生态扩展,集成更多加速库,覆盖量子计算和科学计算等新领域。
2、拥抱开放标准:有限支持开源编译器,同时推动英伟达贡献标准组织,避免被边缘化。
3、抢占新兴场景:首先是重视“边缘计算”,通过Jetson平台和CUDA-on-ARM支持边缘AI,应对ROS 2等机器人框架的异构计算需求。然后是打造数字孪生与元宇宙,Omniverse平台依赖CUDA实现实时物理仿真,构建新的技术护城河。
4、商业模式创新:打造CUDA-as-a-Service,通过NGC提供预训练模型和优化容器,增加用户粘性。
整体来看,由于20年技术积累,开发者的生态黏性,以及巨大的迁移成本。导致CUDA护城河当下还比较强大。目前追的最快的就是 A M D,但至少3年内英伟达CUDA还是优势明显但从seekingalpha等文章反馈来看,如果CUDA被超越或者被追上,大概有2个临界预警值:
1、技术临界点:当竞争对手的硬件性能超越英伟达且软件生态成熟度达到80%以上。
2、经济临界点:云厂商自研芯片成本低于采购英伟达 G P U 的30%。
所以要想投资互联网或者芯片产业,需要对于技术趋势有深度了解,阅读大量的资料和文献。对于“强科技成长”的估值尤其难,这也是巴菲特基本不碰强成长科技股的原因 (买苹果是当消费股买的)。美股这么贵,我旁观。先积累一些知识和资料,等回调时候方便下手。
Create your
podcast in
minutes
It is Free