AI算力加速的新方向:神经网络处理器(NPU)

2024-04-02 17:23:49

种种迹象表明,得益于自身对神经网络计算进行的专门优化,在端侧和边缘侧处理复杂神经网络算法时拥有的更高效率和更低能耗,神经网络处理器(NPU)正成为推动AI手机、AI PC和端侧AI市场前行的强大动能,并有望开启属于自己的大规模商用时代。


什么是NPU?


NPU是一种专为实现以低功耗加速AI推理而打造的处理器,其架构随着新AI算法、模型和用例的发展不断演进。一个优秀的、专用的定制化NPU设计必须要在性能、工号、效率、可编程性和面积之间进行权衡取舍,才能够为处理AI工作负载做出正确的选择,与AI行业方向保持高度一致。


早在2015年,面向音频和语音AI用例而设计的NPU就诞生了,这些用例基于简单卷积神经网络(CNN)并且主要需要标量和向量数学运算。从2016年开始,拍照和视频AI用例大受欢迎,出现了基于Transformer、循环神经网络(RNN)、长短期记忆网络(LSTM)和更高维度的卷积神经网络(CNN)等更复杂的全新模型。这些工作负载需要大量张量数学运算,因此NPU增加了张量加速器和卷积加速,让处理效率大幅提升。


到了2023年,大语言模型(LLM)一比如Llama 2-7B,和大视觉模型(LVM)一比如 StableDiffusion赋能的生成式AI使得典型模型的大小提升超过了一个数量级。除计算需求之外,还需要重点考虑内存和系统设计,通过减少内存数据传输以提高性能和能效。未来预计将会出现对更大规模模型和多模态模型的需求。


AI PC将NPU推上竞争新高地


2024年被普遍视为AI PC元年,根据Canalys预测,到2027年,AI PC出货量将超过1.7亿台,其中近60%将部署在商用领域。为了顺应PC行业的发展潮流,并显著提高端侧AI能力,英特尔、AMD、高通等头部芯片厂商也正努力将专用NPU集成到CPU中,相关产品及路线图已经得到公布。


尽管AI PC实际市场表现取决于生态系统的协作水平,但毫无疑问的是,集成了NPU的中央处理器将驱动新一轮AI PC的发展。与此同时,如何在电脑处理器中发挥出NPU的最大功效,也成为了业内热议的话题。


2023年12月,AMD率先发布锐龙8040系列处理器,其最核心的变化之一就是新增了AI计算单元。根据AMD的说法,得益于NPU的加入,锐龙8040系列处理器的AI算力从10TOPS提升到了16TOPS,性能提升幅度达到了60%。这让锐龙8040系列处理器在LLM等模型性能更加突出,例如Llama 2大语言模型性能提升40%,视觉模型提升40%。


一周之后,英特尔新一代酷睿Ultra移动处理器正式发布,这是其40年来第一个内建NPU的处理器,用于在PC上带来高能效的AI加速和本地推理体验,被业界视作英特尔客户端处理器路线图的转折点。英特尔方面将NPU与CPU、GPU共同作为AI PC的三个底层算力引擎,预计在2024年,将有230多款机型搭载酷睿Ultra。


来自Trendforce的消息称,微软计划在Windows12中为AI PC设置最低门槛,需要至少40TOPS算力和16GB内存。也就是说,PC芯片算力跨越40TOPS门槛将成为首要目标,这也将进一步推进NPU的升级方向,比如:提升算力、提高内存、降低功耗,芯片持续进行架构优化、异构计算优化和内存升级。


再来看一下高通的思路。高通是不打算从一开始就只依赖NPU实现移动设备AI体验的,而是将Hexagon NPU、Adreno GPU、Kryo或Oryon CPU、传感器中枢和内存子系统“打包”,组成“高通AI引擎”。这意味着高通NPU的差异化优势在于系统级解决方案、定制设计和快速创新。通过定制设计NPU并控制指令集架构(ISA),高通能够快速进行设计演进和扩展,以解决瓶颈问题并优化性能。目前,高通NPU从2015年初次被集成到SoC至今,在9年左右的时间里其实已经更迭了四代不同的基础架构。


本土NPU企业持续发力


在国内厂商当中,2017年,华为最先将NPU处理器集成到手机CPU中,使得CPU单位时间计算的数据量和单位功耗下的AI算力得到显著提升,让业内看到了NPU应用于终端设备的潜力。OPPO曾经的自研NPU马里亚纳X,在拍照、拍视频等大数据流场景下实现了更好的运算效率,拉开了高端智能手机的体验差距。


2018年11月,作为安谋科技成立后第一款正式对外发布的本土研发IP产品,“周易”Z1 NPU在乌镇举办的第五届世界互联网大会上公开亮相;两年后的2020年10月,能够在单颗SoC中实现128TOPS强大算力的“周易”Z2 NPU面世;2023年推出的“周易”X2 NPU则主要面向智能汽车产业和边缘计算,支持多核Cluster,以及大模型基础架构Transformer,可提供最高320TOPS的算力。商业化落地方面,目前“周易”NPU已和全志科技、芯擎科技、芯驰科技等多家本土芯片厂商实现了合作。


另一家企业芯原则在近日宣布,集成其NPU IP的AI芯片在全球范围内出货超过1亿颗,已被72家客户用于128款AI芯片中,用于物联网、可穿戴设备、智慧家居、安防监控、汽车电子等10个市场领域。其最新推出的VIP9000系列NPU IP结合芯原的Acuity工具包支持含PyTorch、ONNX和TensorFlow在内的所有主流框架。此外,它还具备4位量化和压缩技术,以解决带宽限制问题,便于在嵌入式设备上部署生成式人工智能和大型语言模型算法,如Stable Diffusion和Llama 2。


作为人工智能视觉感知芯片研发及基础算力平台公司,爱芯元智在2023年正式推出的第三代高算力、高能效比的SoC芯片AX650N,也为行业探索Transformer在端侧、边缘侧落地方面做出了有益的尝试。实测数据显示,目前大众普遍采用的Transformer网络SwinT,在爱芯元智AX650N平台上获得了361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的极易部署能力。


生成式AI与多样化处理器


与我们之前谈论的AI不同的是,生成式AI用例需求在有着多样化要求和计算需求的垂直领域不断增加。高通在《通过NPU和异构计算开启终端侧生成式AI》的白皮书中,将这些用例分为三类:


1. 按需型用例由用户触发,需要立即响应,包括照片/视频拍摄、图像生成/编辑、代码生成、录音转录/摘要和文本(电子邮件、文档等)创作/摘要。这包括用户用手机输入文字创作自定义图像、在PC上生成会议摘要,或在开车时用语音查询最近的加油站。


2. 持续型用例运行时间较长,包括语音识别、游戏和视频的超级分辨率、视频通话的音频/视频处理以及实时翻译。这包括用户在海外出差时使用手机作为实时对话翻译器,以及在PC上玩游戏时逐帧运行超级分辨率。


3. 泛在型用例在后台持续运行,包括始终开启的预测性AI助手、基于情境感知的AI 个性化和高级文本自动填充。例如手机可以根据用户的对话内容自动建议与同事的会议、PC端的学习辅导助手则能够根据用户的答题情况实时调整学习资料。


白皮书指出,这些AI用例面临两大共同的关键挑战:第一,在功耗和散热受限的终端上使用通用CPU和GPU服务平台的不同需求,难以满足这些AI用例严苛且多样化的计算需求;第二,这些AI用例在不断演进,在功能完全固定的硬件上部署这些用例不切实际。


例如CPU和GPU是通用处理器,它们为灵活性而设计,非常易于编程,前者擅长顺序控制和即时性,后者适合并行数据流处理。但在运行操作系统、游戏和其他应用时,会随时限制他们运行AI工作负载的可用容量;NPU是以AI为中心定制设计的,擅长标量、向量和张量数学运算,虽然易编程性有所降低,但以此换得了更高的峰值性能、能效和面积效率,从而能够运行机器学习所需的大量乘法、加法和其他运算。


因此,只有支持处理多样性的异构计算架构,才能够发挥每个处理器的优势。正如在工具箱中选择合适的工具一样,选择合适的处理器取决于诸多因素,将增强生成式AI体验。换句话说,就是通过使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,以最大化发挥生成式AI终端用户体验。


端侧AI,千帆竞渡


如前文所述,无论是国际还是国内企业,尽管他们在NPU的技术和路线选择上各有侧重,但端侧AI是显而易见的竞争大市场和新市场,无论是AI手机、XR、AI PC等消费类产品,还是物联网、智慧家居、汽车电子领域,都是如此。


究其原因,还是自2023年起,大模型参数量出现显著分化,轻量化模型的出现逐步推动AI向端侧场景落地。以谷歌发布的开源轻量化大模型Gemma为例,该模型与多模态大模型Gemini采用相同的研究和技术构建,有2B和7B两个版本,可以直接在笔记本和台式机部署。


近几年大有取代CNN之势的Transformer也值得多说几句。由于它可以获取全局特征,有一定的知识迁移性,能够很好地适应各种场景,不仅在COCO榜单上处于霸榜状态,很多以CNN为主的框架也已经切换到了Transformer。目前来看,Transformer大模型在云端主要还是通过GPU部署,在边缘侧、端侧硬件支撑方面,则更多依赖NPU实现对神经网络的加速。


这倒不是指CPU不能运行Transformer模型,只是它的运行速度无法满足实际应用落地需求。另一方面,尽管CNN和Transformer都属于神经网络,但Transformer的计算访存比比CNN低,精度和灵活度高,而此前市面上的一些NPU主要针对CNN网络做了一些过拟合的设计,导致在部署Transformer网络时遇到了功耗、效率等诸多问题,现在需要找到合适的新算力平台,并在算法侧找到能降低大参数模型带宽的新途径。


此外,轻量化AI大模型面世之后,场景应用的AI智能边际成本会大幅降低,因为它不太需要再为这些长尾的场景做专门的适配,预训练的大模型凭借“足够强的学习和推理能力”、“足够宽的知识领域”,一经部署就能达到比较好的效果,从而推动AI在端侧和边缘侧更大范围内的普及和提升。


结语


多模态AI的兴起,使得AI系统能够更全面地理解和处理现实世界中的复杂信息。除传统的语言以及图像间的交互作用,其结合声音、触觉以及动作等多维度信息进行深度学习,从而形成更准确、更具表现力的多模态表示。这也是AI模型走向多模态的必然因素:跨模态任务需求+跨模态数据融合+对人类认知能力的模拟。因此,端侧AI越“卷”,越代表着NPU将快速迎来市场拐点。


来源:国际电子商情微信公众号