最近,关于DeepSeek是否能够绕开英伟达的CUDA框架的讨论,引发了广泛关注。这个问题的答案,不仅关乎DeepSeek的未来发展,更可能影响中国GPU产业能否在全球AI竞争中占有一席之地。英伟达的CUDA技术几乎垄断了全球的AI计算市场,国产GP ...
Transformer论文八位作者之一Llion Jones创立的Sakana AI发布重磅成果——全球首个「AI CUDA工程师」!它能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。
IT之家 2 月 23 日消息,英伟达在其最新的 RTX 50 系列(Blackwell)显卡中停止了对 32 位 CUDA 应用的支持,多年来,对 PhysX 技术的支持也在逐渐减少。YouTube 博主 VerbalSilence 和一位 ...
在如此迅速发展的人工智能领域,深度学习的算力支持愈发重要。近期,DeepSeek这一技术平台在尝试绕开英伟达的CUDA框架方面引发了广泛关注。这一挑战不仅代表了国产GPU产业对高壁垒技术的追求,也可能成为未来国际竞争的重要棋子。这一事件揭示了中国在全 ...
DeepSeek的尝试虽然引发了人们的希望,其技术路径究竟能否真正打破英伟达的技术封锁,则充满了未知。实际上,DeepSeek并没有完全脱离CUDA,而是选择了绕过CUDA的高层API,直接操作PTX(Parallel Thread ...
来自 Mirae Asset Securities Research (韩国未来资产证券)的分析称,V3 的硬件效率之所以能比 Meta 等高出 10 倍,可以总结为“他们从头开始重建了一切”。 在使用英伟达的 H800 GPU 训练 DeepSeek-V3 时,他们针对自己的需求把 132 个流式多处理器(SMs)中的 20 个修改成负责服务器间的通信,而不是计算任务 。
9 天
知乎 on MSNDeepSeek绕开CUDA垄断,V3论文细节再挖出!英伟达护城河不存在了?编辑:桃子 好困 【新智元导读】DeepSeek模型开发竟绕过了CUDA?最新爆料称,DeepSeek团队走了一条不寻常的路——针对英伟达GPU低级汇编语言PTX进行优化实现最大性能。业界人士纷纷表示,CUDA护城河不存在了? 原本DeepSeek低成本训出的R1,就已经让整个硅谷和华尔街为之虎躯一震。
结合xAI发布的Grok-3,xAI已经将10万卡集群扩展到20万,确实带来了当下全球最领先的预训练/推理模型性能。对比xAI和DeepSeek,10万卡vs万卡,Grok-3相比R1在某些测评集上提高了20%左右效果,是否有性价比?认为,这并不冲突 ...
快科技2月21日消息, 根据快科技从相关信源证实,RTX 5090 (D)存在芯片级缺陷,可能会出现丢失ROP光栅单元的情况,原本一共176个,实际只有168个,少了8个,也就是大约5%。
硬件媒体Tom‘s Hardware带来开年最新热议: DeepSeek甚至绕过了CUDA,使用更底层的编程语言做优化。 这一次是DeepSeek-V3论文中的更多细节,被人挖掘出来。
10 天
来自MSNDeepseek打破CUDA算力垄断,嘉合劲威发力AI,全力MRDIMM内存研发过往运算基本上就是CPU一言堂,那时的霸主是Intel;挖矿初期,AMD的GCN小核心架构成为时代红利,后续nVidia的CUDA架构不断更新,从而成为了从挖矿、专业应用,以及AI运算都成为了霸主。 而Deepseek的出现打破了CUDA算力垄断。
证券时报网讯, 华泰证券研究认为,DeepSeek在V3中使用了相比CUDA更底层的PTX 来优化硬件算法,PTX是CUDA编译的中间代码,在CUDA和最终机器码之间起到桥梁作用。而NSA则使用了OpenAl提出的Triton编程语言高效编写GPU代码,Triton的底层可调用CUDA,也可调用其他GPU语言 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果