DeepSeek并没有完全跳出英伟达的CUDA框架,而是选择绕过了CUDA的高层API,直接操作PTX指令集,进行更细粒度的硬件优化。这种做法本质上是在原有框架内寻求突破,而非彻底脱离英伟达的生态系统。为什么选择PTX?这到底是突破,还是妥协?为什么 ...
综上,CUDA的“魔咒”与英伟达的技术垄断,早已将全球AI产业的算力主权牢牢掌控。这场与英伟达的较量,绝不仅仅是技术上的一场追逐,而是关乎中国在全球科技格局中能否真正崛起的关键赌局。如果我们依然依赖外部技术,坐视CUDA继续作为全球AI算力的“标准”,那中国AI的未来,将永远在别人的“规则”下打拼。
10 小时
来自MSN全球首个AI CUDA工程师来了!将PyTorch原生实现提速10-100倍在当今的科技世界里,人工智能(AI)技术已经成为推动各行各业变革的重要力量。然而,随着AI在计算能力和应用领域上的快速增长,大家开始逐渐意识到一个问题:现有的AI系统需要消耗大量的电力和计算资源,这样的模式是否能持续?
4 小时
钛媒体APP on MSN英伟达想靠并购赢下AI时代DeepSeek引发的海啸,并未让英伟达一蹶不振。
红板报 on MSN16 小时
刚刚,DeepSeek开源FlashMLA,瞬间破1000颗星今早9点30,国内著名开源大模型平台DeepSeek开启了本周连续5天技术分享的第1天,开源了针对Hopper GPU优化的高效MLA解码内核——FlashMLA。
7 小时
光明网 on MSNDeepSeek 发布开源第一弹!让大模型在GPU上跑得更快据介绍,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s 的内存带宽 &580 TFLOPS 的计算性能。”DeepSeek说。
14 小时on MSN
快科技2月23日消息,日前,NVIDIA悄然放弃了RTX 50系列显卡对32位CUDA的支持,也就不再支持32位Physx物理加速,这一技术历经20多年终于要消失了。 值得一提的是,理论上,NVIDIA仍然支持64位PhysX,但相应的游戏极少,只有 ...
IT之家 2 月 24 日消息,DeepSeek 今日启动“开源周”,首个开源的代码库为 FlashMLA—— 针对 Hopper GPU 优化的 高效 MLA 解码内核 ,专为处理可变长度序列而设计。据介绍,FlashMLA 的灵感来自 ...
5 小时
小熊财经 on MSN英伟达:并购之路能否铺就AI时代王者之路?英伟达在面对DeepSeek带来的挑战时,展现出了其不屈不挠的企业精神。DeepSeek发布的开源模型R1,仅需2048个H800芯片和约560万美元的成本,便达到了与OpenAI同类模型相当的性能,这一消息震撼了整个科技界。市场担忧DeepSeek ...
北京时间周一上午 9 点,刚一上班(同时是硅谷即将下班的时候),DeepSeek 兑现了自己的诺言,开源了一款用于 Hopper GPU 的高效型 MLA 解码核:FlashMLA。 众所周知,MLA是 ...
一、前言英伟达新一代旗舰显卡GeForce RTX 5090已经上市了,在这之前,各种有关这款显卡的性能爆料满天飞,而且结论不一、区别很大,令公众莫衷一是。本文将对比GeForce RTX 5090和GeForce RTX ...
2024年第四季度,特斯拉交出了一份令市场错愕的答卷:汽车收入198亿美元,较预期低19亿美元;单车均价环比暴跌2200美元至3.98万美元;汽车毛利率在剔除碳积分后仅有13.6%,创历史新低。这份财报背后,是特斯拉造车帝国根基的动摇——当“以价换量 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果