AI驾临人间四大芯片流派华山论剑

作者：时间：2017-04-04 来源：腾讯研究院

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

编者按：随着AI产业快速突破，各大公司在AI领域的人才动向也在引起极大关注，你来我往、归去来兮，AI江湖上大有一片血雨腥风之势，AI芯片是人工智能产业的演武场。

　　FPGA一帮

本文引用地址：//m.amcfsurvey.com/article/201704/346166.htm

　　GPU美中不足的是就是太贵了，太贵了，而且有副作用，降温是大个问题。怎么办?

　　赛灵思等公司改进了FPGA许多技术，使之价格便宜功耗又很低，操练起来更有趣。于是，跟随FPGA的越来越多，形成了一大流派。

　　FPGA是从哪里来的呢?

　　原来早在1984年赛灵思就发布世界上首款FPGA，当时的FPGA晶片尺寸很大，但成本却不低。1992年后，FPGA因采用新工艺节点，第一次出现了在FPGA上实现卷积神经网络。但直到2000年后，FPGA丹法结合了“易容术”后才略有小成，易容术是指FPGA 已不仅是门阵列，还是集成有可编程逻辑的复杂功能集。2008以来，FPGA不光可以越来越多地整合系统模块，集成重要的控制功能，还可以使用更高效的系统编程语言，如OpenCL和C语言，通过类似软件的流程来编程，降低了硬件编程的难度。于是，自2011年开始，出现了大规模基于FPGA的算法研究。

　　简单来说，FPGA 全称“现场可编程门阵列”(Field Programmable GateArray)，其基本原理是在 FPGA芯片内集成大量的数字电路基本门电路以及存储器，而用户可以通过更新FPGA 配置文件，来定义这些门电路以及存储器之间的连线。

　　这里提及的“可编程”，完全就是“可变成”。这意味着你今天可以把 FPGA 配置成一个微控制器MCU，明天就可以更新配置文件把同一个 FPGA 配置成一个音频编解码器。你是不是想起了孙悟空七十二变，今天是个老头明天是个少女?此乃易容术也。

　　不同于GPU的运行原理，FPGA是以门电路直接运算的，即编程中的语言在执行时会被翻译成电路，优势是运算速度快。

　　在很多领域FPGA的性能表现优异，以至于有人说FPGA可能会取代CPU和GPU成为将来机器人研发领域的主要芯片。当然，这事有点夸张。目前来看FPGA也多作为CPU的协处理器而出现，冲击GPU是显而易见的，但要说取代CPU，还得等等。

　　目前，国内有许多创业企业，自动加入FPGA阵营，提供基于FPGA的解决方案。比如源于清华大学的深鉴科技，专注于深度学习处理器与编译器技术，深鉴科技研发了一种名为“深度压缩”的技术，它不仅可以将神经网络压缩数十倍而不影响准确度，还可以使用“片上存储”来存储深度学习算法模型，减少内存读取，大幅度减少功耗。

　　FPGA流派的厂商有两大两小，两大厂分别是赛灵思、Altera(英特尔于2015年以167亿美元收购Altera)，两小是Lattice和Microsemi。

　　其中，赛灵思和Altera占据了近90%的市场份额，两人旗下的专利超过6000项。而剩下约10%的市场份额，由Microsemi和Lattice瓜分，这两位的专利也有3000余项。由此可以看出，极高的技术门槛将其它希望进入FPGA市场的厂商牢牢挡在门外。

　　FPGA也有两大局限性。

　　第一，FPGA的峰值性能不如GPU。即便使用高端的服务器做FPGA编译都会需要数分钟的时间，放到移动端速度还会更慢。但FPGA的功耗低于GPU，若FPGA的架构和配置合理，从能耗比的角度上来看，则能超过GPU。

　　第二，FPGA的编程难度较高。编程人员需要同时精通软件和硬件两种编程语言，更适合于高段位的的资深技术玩家。FPGA芯片主要面向企业客户，如百度、微软、IBM 等公司都有专门做FPGA的团队为服务器加速。

　　就未来发展来看，FPGA的崛起指日可待。理由有三个：

　　首先，在人工智能起步阶段，算法大致每三个月迭代一次，单凭这一点来说，FPGA可以灵活调整电路配置以适应新的算法，具有一定优势;

　　其次，相比于GPU，FPGA更适用于深度学习的应用阶段;

　　最后，为了降低FPGA的编程难度，FPGA厂商赛灵思专门研发了可重配置加速栈堆，提供基于FPGA的硬件加速方案，这类似于一个App Store，赛灵思是一个平台，用户使用时直接从商店里挑选方案，不需要再自己设计布局布线了。

　　ASIC：由吸星大法突破

　　虽然GPU在并行计算方面有不少优势，但毕竟不是为机器学习专门设计的，FPGA则是需要用户自主编程，主要面向专业领域的企业用户，门槛太高。

　　大众消费领域怎办?如应用到无人驾驶汽车上或是智能家居终端，这款芯片还要同时满足高性能和低功耗的要求，甚至不需要将数据传回服务器端，不必连入互联网，本地即时计算即可。

　　ASIC挺身而出。

　　ASIC的全称是专用集成电路 (Application-Specific Integrated Circuit)。

　　玩过比特币的都知道著名的挖矿大战。ASIC在比特币挖矿领域，展现出了得天独厚的优势。2013年1月Avalon项目团队交付了世界上第一台商用比特币ASIC矿机，轰动了挖矿世界。CPU、GPU矿机几乎在一夜之间消失的无影无踪，引发了比特币挖矿行业第二次重大升级，比特币网络核心开发者Jeff Garzik有幸成为了第一个商业ASIC矿机的拥有者，据说当时收到Avalon矿机的用户在一两天内就回了本。而传说中隐藏在农村的土豪，能动用的ASIC矿机达到了数千台。

　　人工智能深度学习和比特币挖矿有类似之处，都是依赖于底层的芯片进行大规模的并行计算。

　　ASIC分为全定制和半定制。全定制设计需要设计者完成所有电路的设计，因此需要大量人力物力，灵活性好但开发周期长，上市速度慢。专为机器学习设计的ASIC芯片，从设计到制造，对资金和技术的要求都更高。一般来说，基于FPGA的开发周期大约为六个月，而相同规格的ASIC则需要一年左右，需要经过多步验证，可想而知，在这样精细的打磨下，其性能自然也更为出色。