博客专栏

EEPW首页>博客> “X”PU的时代,DPU位置何在?

“X”PU的时代,DPU位置何在?

发布人:芯片揭秘 时间:2023-05-14 来源:工程师 发布文章

艾新博盛投资合伙人 曹幻实 (左) 矩向科技CEO 黄朝波(右)


本期话题:
  • 三类视角看DPU的兴起

  • “X”PU的时代,DPU位置何在?

  • 超异构处理系统,解决海量存储大需求

  • 拒绝碎片化,通用才是硬道理

  • 市场前景广阔,DPU将大有作为


点击收听大咖谈芯现场实录↓↓↓



芯片揭秘 第307期:通用性,虚拟化,探索DPU发展的最终形态(上).mp3 14:58
来自芯片揭秘




三类视角看DPU的兴起


幻实(主播):大家好,我是芯片揭秘的主播幻实。节目录了很多期却还没请过DPU方向的从业者和我们分享这一行的发展现状,今天很高兴矩向科技的CEO黄朝波先生作为DPU赛道的科普人做客我们节目,先请他来跟我们大家打个招呼。

黄朝波(嘉宾):大家好,我是矩向科技的黄朝波,很高兴来到芯片揭秘跟大家分享。

幻实(主播):黄总非常谦逊,了解到您曾经写过一本书,叫《软硬件融合——超大规模云计算架构创新之路》,您本人也被业界认为是相关技术的布道者。2020年10月,英伟达GTC大会上官宣了一款新处理器——DPU,我知道黄总对这一块很有心得,所以先请您聊一聊是怎样和DPU结缘的?

《软硬件融合——超大规模云计算架构创新之路》书影

黄朝波(嘉宾):DPU的发展是亚马逊最先开始的。2017年底,亚马逊AWS在re:Invent大会上宣布了它的NITRO系统,这个系统其实就是现在大家说的DPU。也是从这时候开始,NITRO就成为了整个亚马逊云服务的技术底座。我也是因为这个大的背景原因,在2018年初加盟了UCloud,来做类似的一些工作。

关于DPU 的兴起,我们可以从三个视角来看。


第一个视角就是云计算公司的视角,像亚马逊、阿里云等,它们从虚拟化出发。那么虚拟化是什么呢?虚拟化分为三部分:处理器的虚拟化、内存的虚拟化和I/O的虚拟化。处理器和内存的完全硬件虚拟化都是由CPU芯片完成的,但I/O的虚拟化一直都是软件模拟的。现在因为主机CPU的性能瓶颈之后, I/O虚拟化的代价非常之高,所以他们要想办法把这些工作“下沉”到硬件中,最终的做法就是把整个基础设施层整体放在独立的硬件中完成。


还有另外一个视角,就是现在英伟达或一些智能网卡公司的看法。它们认为,DPU是整个数据I/O的加速,因为数据要在不同服务器之间进行大量的传输和处理,他们的视角就是用硬件来专门优化数据的搬运和处理。

最后还有一个点,其实是更本质的,那就是计算。因为所有工作最终都要归结到计算。CPU已经到了性能瓶颈,不得不通过硬件加速的方式来不断提升性能。


以上三个视角其实各有不同,但是有一点是一致的——那就是如果我们只站在一个视角去考虑问题,做出来的东西很有可能有失偏颇。只有把不同的视角都考虑清楚,这样做出来的东西才是均衡的、全面的。


“X”PU的时代 ,DPU位置何在?


幻实(主播):现在这种概念非常多,最传统的有CPU,GPU,DPU,后续还有NPU,每家都说自己不一样,很厉害。很多人戏称现在是“X”PU的时代,因为都不知道前面还会出现什么字母。趁此机会,您也跟我们讲一讲那么多“PU”是指什么,DPU又处在什么角色和位置?

黄朝波(嘉宾):用一条主线可以帮大家把这些概念都梳理清楚,这条主线其实就是它内部所在的这些处理引擎。比方说之前Graphcore提出的IPU,再有像NPU、NP,很多PU其实内部只有一种类型的处理引擎,这些引擎拼成了一颗芯片。但这颗芯片是无法独立工作的,需要通过CPU+XPU异构计算的方式工作。DPU和它们最大的不同在于它本身是一个SoC,内部包含了很多不同类型的处理引擎,既可以独立工作,也能作为CPU的加速助手一起协同工作。

(图源:软硬件融合公众号)

幻实(主播):听起来DPU特别复杂,又能协同又能独立,那独立的话是不是意味着它很难做?

黄朝波(嘉宾):的确是这样的。例如我们讲AI处理器,它就只关注AI这个领域;讲网络处理就关注网络的领域。但是DPU不一样,它要关注的领域非常多,首先就是虚拟化,其次还有网络、存储、安全等,另外还要关注怎么去把云服务“下沉”到里面,这就涉及方方面面软件、硬件的综合能力了。各方面的知识都非常多,要把各种资源整合在一起,这的确是DPU面临的巨大挑战。

幻实(主播):刚刚您提到了CPU、GPU,在它们三者之间来定性的话,是优势互补还是未来有可能存在谁替代谁呢?

黄朝波(嘉宾):CPU、GPU和DPU就是现在大家称之为数据中心的三大处理器,其实它们三者是一个协同的关系,未来会朝着融合的方向发展。具体来说,我们可以把系统大体上分为三大部分:系统的底层称之为基础设施层,在此之上的应用层又可以分成两部分,一部分可以加速,另一部分难以加速。这样一来,基础设施层的工作就适合放到DPU里去完成,再把应用层里可加速的那部分放到GPU里,CPU负责兜底,不可加速的部分就只能放在CPU里。

为什么这样做呢?原因在于应用层里很多东西是不确定的,算法也会经常改变,还会面临不用的应用场景要用同一个硬件平台这种情况,而GPU刚好是相对弹性灵活的,这就使它非常适合用在上述场景中。

系统任务分类 (图源:软硬件融合公众号)

接下来讲三者的协同关系。由于现在chiplet(注:芯粒,是不同功能裸片的拼搭,某种意义上也是不同IP的拼搭)技术越来越流行;而且,并非所有的场景都要用到很重量的独立三芯片的大系统。很多场景其实是一种相对轻量的场景,那么我们就可以把三者合到一起,整合成一颗芯片,这是未来发展的趋势。


不过整合的过程并不是简单地把三颗芯片拼起来,否则它们还是各管各的三张皮。所谓的整合是要打破界限重新做架构,最终形成一个整体,我们称之为“超异构处理器”,这也是我们团队目前正在努力的方向。


超异构处理系统,解决海量存储大需求


幻实(主播):超异构处理器能够打破三者之间的边界。

黄朝波(嘉宾):对,把它合三为一。

幻实(主播):谁会去做“打破”的角色?因为它要用第三方视角来看,任何一方我估计都很难主动打破自己的模式或护城河去兼容别人。

黄朝波(嘉宾):其实它是需要一些落地策略的。比方说,一方面,我们可以把它先当做一个DPU的角色,用它承担CPU助手的工作。另一方面,内部很多通用性的功能,让它可以在其他的场景上落地,像存储服务器,以及更广阔的边缘服务器市场,它都是大有可为的。

幻实(主播):按照这种趋势看会大有可为,但感觉开发成本会十分昂贵。这两年我们发现很多做IP的公司生意都特别好,因为不少企业会花上亿的资金来买IP,投资人也得被动去接受这件事。我想问在您看来DPU除了前期买IP的费用特别高之外,未来的发展还会遇到什么阻碍?它会走怎样的技术发展或产品开发的路径?


黄朝波(嘉宾):DPU在前期大概会花费成本总额的50%左右用于购买IP,另外50%用于自研和整合。成本这块实际上不可避免,因为一开始相对而言比较弱小,许多技术在没有积累的时候也只能如此。不过当第一代产品开发起来以后,第二代、第三代自己贡献的价值就会越来越多,未来自研部分的成本和价值可能会到80%甚至90%。

其实难点在于DPU涉及的领域众多,并且每个领域都可能有很多路线之争,到底应该选择哪种路线或者制式?这就好比有10道选择题,只要有任何一道题做错了,都将前功尽弃,直接零分。为什么会这样?因为你给用户提供产品,而用户是一个综合性的场景,一旦某一种功能无法满足要求,那整体就落不了地。最大的挑战和风险就在这里,不仅要选正确的路线,还要更加前瞻。如果是定制设计,就意味着你最终覆盖的场景和用户数量一定会非常少,这时就要思考如何避免这种情况出现。

幻实(主播):这些也是投资人关心的事,会很担心你进入到一个非常狭窄的方向。

黄朝波(嘉宾):是的,这种狭窄会使得产品和市场碎片化,最后大家都变成了完全碎片化的状态。那么最合适的解决办法是什么样的?这需要把“通用”这个能力做出来。在许多方面我们自己其实不用选择路径,而是让用户来选,就相当于把选择题交给了用户来做,我们只把选择题的硬件提供出来。这样的话,做出来的东西肯定百分之百最满足用户自己的需求。


拒绝碎片化,通用才是硬道理


幻实(主播):听上去感觉非常定制化,那是不是要有很多种型号?

黄朝波(嘉宾):如果是刚才那种自己去选择不同的技术路径的时候,它会变成碎片化的东西。但如果我们做通用器件的话,一个器件就能够把这些场景的不同需求都满足。所以通用性是DPU设计中最核心的能力,也是最关键的。如果通用性做不好那么DPU就很难真正的落地。

幻实(主播):既然您觉得重点在通用性上,我想问问国外大厂比如说英伟达,他们在这个方面怎么样?

黄朝波(嘉宾):相对来说英伟达采用的是一种确定的定制方案,这也是为什么它在落地上存在困境的原因。大家面临的场景和困境是相同的,我们称其为“不同用户的场景差异化”。不仅如此,同一个用户的场景也在持续迭代。

目前来看,每当遇到问题后,行业里会有不同路径的做法。例如,有的公司会针对这种场景做出来一个自认为最优的方案,大家来跟随。但是可能会存在用户的业务逻辑实现和我们的不一样,并且用户的平台迁移风险和成本都非常高,因此芯片落地就存在困境。

还有一种做法是客户自研,自己需求什么就自研什么。它也存在一些问题,就是硬件的迭代周期其实赶不上软件的迭代周期。此外,大公司内部也有不同的团队,团队之间的需求也是千差万别的。

再有一个路径就是通用路径,并不试图帮助用户来决策,而是把权力交给用户,让他们自己来决定想要什么,我们提供的只是一个通用的平台而已。

幻实(主播):我发现目前国内做自动驾驶、汽车方向的公司其实也一样,因为每家主机厂的诉求是不同的。我们之前和地平线交流过,我发现他们很有意思,用户想要芯片可以,想要定制各种IP也可以,总之就是想要什么我都配合你来做。这一点和DPU很类似,不替用户做选择,只把自己的“武器库”准备的充分一点。需要团队的实力很强才能做到这种程度,通用性不是一般的高度。

黄朝波(嘉宾):是的,要求确实不低。我们面对的用户有千差万别的需求,做一千种、一万种这类芯片是不现实的。你要在成千上万的需求里找出共性,把共性变成硬件,再把差异性通过用户编程软件的方式去实现。这考验的是整个团队对需求、产品以及整个系统架构的全面把握,对能力的要求确实非常高。


DPU竞争格局 (图源:智能计算芯世界)

幻实(主播):在您看来目前国内的DPU有没有按照这个方向来做布局的?

黄朝波(嘉宾):还没有。现阶段大家更多的还是考虑先把用户的需求拿到,再把东西实现好。从国际上看,有两家公司可能相对来说做得比较好,第一个当然是亚马逊。

亚马逊的第一代NITRO系统严格来说就是一颗CPU,非常通用但性能很差,它是通过5颗芯片共同来完成整个基础设施的工作。后面更新的第二代、第三代才逐渐把硬件加速部分放进去。并且,放的时候也非常的审慎,并没有把很多功能都固化,而是通过很多软件的方式,再去实现确定的功能。如此一来,它其实也是相对通用的器件了。尽管是自研自用,它也做得非常通用化。

幻实(主播):它是不对外提供的吗?

黄朝波(嘉宾):是的,并不对外提供。

幻实(主播):亚马逊的云之所以能被这么多科技公司所采用,其实还是有一些独到之处。

黄朝波(嘉宾):可以说它从上到下的整个技术链条都非常稳固。此外,英特尔在通用性这一块做得也不错。因为英特尔自身的数据中心业务经过了多年的深耕和技术沉淀,可以说它是最懂数据中心场景的芯片公司。目前他们所倡导的IPU内部的网络处理器支持P4编程,相对而言更加通用。它内部的CPU是Arm的Neoverse N1系列,性能非常强烈,通用性也非常好。另外它们还发起了开源IPDK(Infrastructure Programmer Development kit,基础设施编程开发套件)框架,发起了OPI(Open Programmable Infrastructure Project,开放可编程基础设施项目)联盟,所有这些都是为更加通用和开源开放的生态来服务的。

幻实(主播):这些也用在它的云服务上还是说它会单独把硬件板块对外开售?

黄朝波(嘉宾):它的IPU是对外出售的,对标的就是英伟达的DPU。但是在产品理念和具体实践上,我们还是比较认可英特尔的做法。

幻实(主播):是的,老牌做CPU的公司会更早知道产品的痛点在哪儿。国内目前还没有这种思路开展,哪怕我们有阿里云、腾讯云、华为云等等,可能还是按照传统的路径在做。

黄朝波(嘉宾):对,目前来说,阿里云在这一块其实做了很多的技术积累,但是它现在有很多技术分散在不同的部门,可能还需要一个整合的过程。接下来大家拭目以待,看它们后续资源整合的情况。


市场前景广阔,DPU将大有作为


幻实(主播):刚刚我们聊到了DPU这个行业的现状,请您来做个预判,未来它会按照什么节奏发展?又会形成什么样的态势?

黄朝波(嘉宾):这要分几个方面来说。

第一点要改变认知。现在大家对DPU的定位还停留在它是CPU的助手上,其实这会限制DPU自身的价值。更合适的做法是将DPU看做一个独立处理器,脱离CPU的约束,它才可以面对更广阔的的市场,这样才更有希望最终真正成功。

第二点是提升通用性。DPU一定要能实现更多的通用性,因为不通用的话它就完全碎片化了,可通用性又对设计的能力要求很高,对全系统的驾驭要求也非常高。只有把DPU做得更加通用才能实现性能的极致飞跃,用户完全可编程和定义一切的这种超异构处理器,才是DPU的未来。

第三点是市场前景。首先还是定位在数据中心服务器上,不但可以用在业务服务器中,也可以用在存储服务器里,还可以用在规模更大的边缘服务器上。如此一来,在国内DPU的市场经过我的测算就能达到1000亿元人民币的规模。


2020-2025年全球与中国DPU市场规模预测 (图源:头豹研究院)

幻实(主播):您觉得这几种服务器市场都能用到它?

黄朝波(嘉宾):对的。只有做到这一步才算成功,因为大芯片的研发成本非常高,如果仅仅覆盖碎片化的市场就会很难大规模落地。

幻实(主播):对于那种数据加倍的类似于冷存储的存储中心,对DPU有需求吗?


黄朝波(嘉宾):其实我刚才提到存储服务器大体上又可以分为三类:热存、温存和冷存。简单来说这里面最大的区别就是一颗处理器上能挂多少的存储量。比方热存可能挂的是12块到24块NVMe盘,这已经是极限了;在温存里可能挂的是HDD,这样的话其实相当于挂了五六十块甚至一百块盘;但是在冷存里,现在通过分组sleep/wake up的方式,大部分盘是处于睡眠的状态,所以可以用一颗处理器挂上千块归档型HDD盘。最终平均下来每一块盘、每一个存储容量的功耗和成本就会降得非常低,最终它还是用DPU这种SOC芯片来完成相关的处理。

幻实(主播):所以不要以为数据“睡眠”了就不需要硬件过多干涉了。

黄朝波(嘉宾):对,DPU其实一直在工作。再引申来看,既然它是一个算力和数量级都有所提升的超异构处理器,本质上只要在大算力场景中都能用得到,那么除了云和边缘的服务器,DPU还能用在其他市场中,比方5G核心网、自动驾驶等。例如英伟达在2024年将发布的自动驾驶芯片就是由高性能的CPU、GPU和DPU共同组成的,DPU属于三大核心计算部分之一。站着这个视角来讲,超异构处理器面向的是复杂的计算场景,这种场景在国内就有5000亿以上的市场规模。如果放眼全球,其实已经有数万亿的市场了。

幻实(主播):不得不说在数据爆发增长的情况下就需要灵活调用想办法。一些公司在日常办公可能会遇到云盘存储不够用的情况,这就是数据几何式增长的典型表现。

黄朝波(嘉宾):其实有过一些测算,数据在增长之后大概会有一半最终存在云端,另一半则沉淀在了终端或者边缘端。数据的量大了之后,无论是传输、处理、分析、存储、安全等,对硬件性能的要求都非常高。这些从本质看都是计算,那计算靠什么呢?靠的就是CPU、GPU、DPU,最终它们会被整合成为超异构处理器。

幻实(主播):是的,国家也提出了“东数西算”战略,今天我们讨论的话题很符合国家的科技大趋势和大方向。我知道您正在创业做这个方向,能否展开谈一谈您是以什么角度切入这个行业的?

黄朝波(嘉宾):我以前在Marvell做CPU,后来机缘巧合下去了UCloud做软硬件结合方面的工作,不仅仅是做芯片,我们的视角是如何在需求的驱动下把应用做到最好。做久了之后,我最大的一个体会就是软硬件其实是割裂的,软件不懂硬件,硬件不懂软件。现有的技术体系,平台构建好之后,大家都在上面开发软件,但很难把这些软硬件打开,然后重新再整合。所以这也是我后来写了一本书叫《软硬件融合——超大规模云计算架构创新之路》的原因。在工作中我们思考更多的是要从需求出发,深层次的需求到底是什么?

最开始我们是做虚拟化,发现已经形成的软件应用性能还不够好,但业务逻辑不敢轻易动,因为它里面承载的云服务是千亿、万亿级别的规模,所以只能靠硬件来加速和提升性能,后续业务的更新迭代也要在自己的掌控之下。这样就需要,我们做硬件时并不给用户提供具体功能,而是提供一个工具和平台让他们自己来实现这些功能。这就是所谓深层次“需求”。

幻实(主播):您现在就在做这样的平台。

黄朝波(嘉宾):是的,以前我是甲方,现在我是乙方。做更好的产品,让之前的自己用的更爽。

幻实(主播):对,现在的自己去服务当年的自己。技术创新都源自最真实的需求,这很有价值。我们也在这里做个宣传,如果有想要体验DPU的可以来找黄总试试看。


黄朝波(嘉宾):目前我们基于FPGA做了一些原型的产品,如果做芯片的话投入会更大。现在矩向科技处于融资状态,已经有的原型可供大家来体验一下。

幻实(主播):我觉得这是一条新的赛道、新的路线。体验过后可能会发现跟以前的感受完全不一样了。非常开心今天向黄总请教了很多知识,也希望在数据中心领域,国内的公司不要和国外差距太大,很感谢有你们这样的团队在做这些事。

黄朝波(嘉宾):也谢谢曹总可以提供这样的机会,让我们能够分享自己的一些看法。

幻实与黄朝波先生合影


作为数据中心里继CPU和GPU之后的“第三颗主力芯片”,DPU的出现称得上是异构计算中的阶段性标志,近年来已逐步掀起了一波行业热潮。根据Canalys Cloud Channels Analysis预测,到2023年,中国DPU市场规模将达190亿人民币。当然,还有其它分析机构的预测更加乐观,认为中国DPU市场规模预计将在2025年超过37亿美元,约合240亿人民币。


不过,DPU的使用门槛非常高,只有开发、整合能力较强的用户才能充分利用它。在推向市场的过程中,由于DPU涉及的领域很分散,往往造成碎片化应用的局面,这无疑是一种算力浪费。为了解决这一难题,就需要设计出通用的平台来承载用户丰富、多样和自定义下的使用场景,从而满足个性化需求。


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词:芯片DPU

相关推荐

技术专区

关闭