时间:2024-06-28 07:22:00
电子发烧友网报道(文/周凯阳)近日,英伟达股价持续上涨,正式超越微软,成为全球市值最高的公司。当然,这与GPU 作为AI 硬件的流行密不可分,原因如下。一举成为全球最大的公司首先,真正推动公司前进的是围绕CUDA 构建的一套软件生态系统。
我想对GPU有一定了解的人都知道Nvidia最大的护城河是CUDA。 CUDA在后端架构上具有绝对优势,并且随着AI发展的加速,NVIDIA GPU+CUDA开发生态系统已经强化到许多竞争对手无法比拟的水平。自2006 年推出以来,CUDA 在人工智能和深度学习成为主流之前就持续开发并行计算,为开发人员提供了丰富的库、工具和算法。
如今,CUDA 在世界各地拥有庞大的开发者社区。几乎所有深度学习框架都针对CUDA 进行了优化,包括TensorFlow、Pytorch 等。为了尽快进入市场,大多数开发者更愿意选择CUDA作为他们的主要计算平台。
同时,NVIDIA还围绕CUDA进一步创新和升级其硬件架构,采用更先进的工艺和封装技术来提高计算性能和效率。例如,Volta 架构中引入Tensor Core 显着增强了NVIDIA GPU 上的矩阵运算,从而显着提高了深度学习训练和推理的性能。这两者的结合赋予了CUDA 强大的地位。
在游戏软件领域,NVIDIA的DLSS可以说是市场上最先进的专有Super Score技术,并且由于不断的训练,每个版本都能够在图形渲染领域带来突破。
最后,从软件生态的角度来看,由于涉及到生产力工具,Nvidia 在这方面具有更大的优势。当年,当苹果和AMD 还在GPU 上合作的时候,很多生产力工具都针对AMD 的GPU 做了很多硬件优化。然而,随着苹果转向Arm 架构,NVIDIA 在这个市场上正在缓慢增长。
许多多媒体处理软件,无论是来自Adobe 还是独立开发人员创建的,都支持NVIDIA CUDA 硬件加速。甚至Intel的核显在某些软件支持上也比AMD的要好。因此,除了一些特效相关的工作之外,工作站中安装的AMD GPU 越来越少。
谷歌、英特尔、高通等科技巨头也在探索打破CUDA垄断的机会,但合作并不一定意味着软件生态系统的双赢,最终可能只是为市场提供更多选择。但在易用性和性能方面,它仍然比不上一直向前冲锋的CUDA。
AMD对GPU软件生态系统持相对开放的态度,非常致力于开源开发社区。 AMD的ROCm针对的是NVIDIA的CUDA,但没有硬件限制,并且已经扩展到Radeon和Instinct系列GPU,以及其他硬件制造商的设备。这部分是由于AMD 没有在硬件中引入Tensor Cores 等专有硬件,这也是ROCm 在某些任务上稍显逊色的原因。
作为一个开源平台,ROCm提供了对各种库和框架的支持,以及一套完整的开源工具链。因此,在HPC 和云计算等领域,制造商实际上宁愿使用AMD 的GPU,也不愿忍受Nvidia 的专有软件堆栈。然而,NVIDIA 先进的软件生态系统迫使您选择NVIDIA 的GPU。
AMD有ROCm,但整体软件生态系统仍然不如Nvidia那么成熟。在一些不以商业成功为目的的HPC项目中,AMD获得了很大份额,其中包括多款进入TOP500前10名的超级计算机。不过,纵观整个TOP500榜单,NVIDIA依然占据主导地位。不过,对于云提供商来说,短期内NVIDIA的优势仍然无法消除,因为租用这些云服务的客户愿意在NVIDIA的CUDA平台上进行开发。
在驱动软件,尤其是Linux显卡驱动方面,AMD采取开源和闭源两条路线,但也允许开源社区定制开源驱动。以Vulkan驱动AMDVLK为例,它基于Linux系统上的AMD Radeon显卡,支持光线追踪。然而,尽管手动配置和社区贡献使开源驱动程序更加兼容,但如果您正在寻求更高的性能,闭源驱动程序仍然是一个优势。
国产GPU主要分为两个方向:支持图形渲染的GPU和不支持图形渲染的GPU,后者仍然以AI领域的突破为目标,前者是C我们正在推动的副产品。我们还有一系列AI GPU产品。国产GPU产品中,摩尔线程在AI和图形渲染的软件支持方面取得了突出的成绩。
基于MUSA的统一架构,Moore Thread创建了用于服务器应用的MTT S80和MTT S3000等桌面显卡。匹配Moore Thread自创的软件开发平台,包括AI开发平台、MUSA SDK、MT Smart Media、MTVerse XR等。
此外,Moore Threads创建的生态架构与您现有的软件生态系统完全兼容,您可以使用MUSIFY工具将您的代码零成本迁移到MUSA平台。与AMD 的ROCm 一样,MUSA 兼容CUDA,而不是像ZLUDA 那样重新编译二进制代码,因此并不违反NVIDIA 的EULA 条款。
从Moore Thread最近发布的官方消息来看,他们选择了逐步完成对AI中大型模型的自适应支持的路线。 Moore Thread的夸鹅钱卡智能计算集群已完成30亿至700亿参数的大规模模型训练和推理适配。虽然摩尔线程的GPU在算力方面仍逊色于国际大厂,但我们相信未来通过在IP和硬件设计方面取得进一步突破,一定能够为Masu的高性能AI算力奠定基础。
消费级显卡驱动程序也不断更新摩尔线程以优化性能。以5月底发布的v260.70版本驱动为例,不仅提供了对OpenGL 4.0功能的支持并优化了Blender 3.6 LTS体验,还对DirectX 11中众多热门游戏的性能进行了大幅优化。虽然这类驱动更新的规模仍落后于NVIDIA,但这也表明了厂商继续优化性能的决心。
事实上,越来越多的厂商开始涉足GPU,越来越多的GPU厂商正在研发AI。 CUDA 有着深厚的生态根基,但在不断变化的人工智能世界中,其他制造商也是如此。在某些应用中,后来者仍然有可能迎头赶上。然而,制造商在围绕图形渲染的软件生态系统中面临着更厚的技术障碍。我们不仅有研究10年以上的决心,更要不断完善硬件产品,配合工业软件生态,不断发现和培养更多的图形研究人才。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。