据相关媒体报道,中国芯片90%依赖进口,过去十年累计耗资高达1.8万亿美元。即便按照较低的汇率折算,也已经远超10万亿元人民币。然而,这几年中国的创业者和投资者都逐渐开始关注AI芯片,有观点认为在这个新的芯片领域,中国可以说和世界已经在同一个起跑线上了。

那么,中国AI芯片中的玩家到底都有谁呢?我们今天就来盘点一下。

中星微

早在2016年,中星微便宣布他们的中国首款“星光智能一号”嵌入式NPU已经在当年3月6日实现了量产。

据介绍,“星光智能一号”VC0758采用了“数据驱动”并行计算的架构,可以支持Caffe、TensorFlow等多种神经网络框架,支持AlexNet、GoogleNet等各类神经网络。单颗NPU(28nm)能耗仅为400 mW,极大地提升了计算能力与功耗的比例,可以广泛应用于智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。

不过,业内也有观点称这不是一个专为加速Neural Network而开发的处理器,该观点认为其内部集成了多个DSP核(其称为NPU core),通过SIMD指令的调度来实现对CNN、DNN的支持,以这个逻辑,似乎很多芯片都可以叫NPU。

地平线机器人

Horizon Robotics(地平线机器人)由前百度深度学习研究院负责人余凯创办,致力于打造基于深度神经网络的人工智能“大脑”平台-包括软件和芯片,可以做到低功耗、本地化的解决环境感知、人机交互、决策控制等问题。

2017年底,该公司已经发布了面向智能驾驶的征程(Journey)1.0处理器和面向智能摄像头的旭日(Sunrise)1.0处理器。这是完全由地平线自主研发的人工智能芯片,采用地平线的第一代BPU架构——高斯框架,具有全球领先的性能:可实时处理1080p@30视频,每帧中可同时对200个目标进行检测、跟踪、识别,典型功耗1.5W,每帧延时小于30ms。

寒武纪

2016年,寒武纪科技于北京中关村和上海临港注册成立,这一年里,寒武纪科技面向产业界发布了商用深度学习处理器IP产品寒武纪1A。为了让芯片处理速度变得更快,寒武纪还专门为1A设计了专门的存储结构,并设计了完全不同于通用CPU的指令集,在1GHz主频下理论峰值性能为每秒5120亿次半精度浮点运算,对稀疏化神经网络的等效理论峰值高达每秒2万亿次浮点运算。在若干关键人工智能应用上实测,寒武纪1A达到了传统的四核通用CPU 25倍以上的性能和50倍以上的能效。

2017年,集成了寒武纪技术的华为Kirin970手机芯片和Mate 10手机全球发布,实测结果表明寒武纪科技与华为的联合研发成果在图片识别速度上超越了搭载A11芯片的iPhone X。

而去年底,寒武纪又公布了3款新一代AI处理器:面向低功耗场景视觉应用的寒武纪1H8(能效比为1A的2.3倍);拥有更广泛通用性和更高性能的寒武纪 1H16 以及面向智能驾驶领域的寒武纪1M。

另外,寒武纪还发布了面向云端的高性能智能处理器产品线:寒武纪高性能机器学习处理器芯片“寒武纪 MLU100”和“寒武纪 MLU200”,这两款芯片分别偏重推理和训练两个用途。

此外,寒武纪还表示其未来的芯片产品将全面支持多样化的机器学习应用,而不仅仅是常见的深度学习。

深鉴科技

深鉴科技成立于2016年,致力于成为国际先进的深度学习加速方案提供者。该公司号称具备世界顶尖的神经网络压缩、编译、体系结构与指令集结构设计、FPGA开发和系统集成的完整开发能力。

目前,深鉴科技已经自主研发了亚里士多德架构的DPU (Deep Learning Processor Unit) 。据了解,DPU是面向深度学习(DL)应用的可编程通用计算平台,可以处理诸如图像和视频的分类 、分割、检测 、跟踪  等任务。DPU定义和实现了一套用于映射深度神经网络 (DNN) 算法的高度优化可编程指令集,在实现高性能、高能效比目标的同时兼顾通用型和灵活性,不仅支持现有绝大部分流行的卷积神经网络 (AlexNet、VGG,、GoogLeNet、ResNet,Faster-RCNN, SSD, YOLO等),同时具备高度可扩展性,在DPU指令集提供支持的基础上可以无缝运行其它用户自行扩展或衍生的神经网络。

目前,深鉴科技也已经推出了多款人工智能加速模块,2018年还将推出首款SoC系列芯片——听涛Tingtao。

西井科技

西井科技成立于2015年5月,是一家开发“类脑神经元芯片+算法”的科技公司,致力构造一种完全跳脱于冯诺依曼结构的神经形态的芯片结构——即模拟人脑神经元工作原理而制造出的芯片,它既具备人脑的学习能力,又具备强大的特定运算能力,仅需一块邮票大小的芯片,就能模仿人类大脑在短时间内处理海量的感官信息。据称该芯片具有低功耗,高效率,无需联网等优势。

目前,西井科技已经推出了两款芯片:

  1. 可模拟5000万级别“神经元”的仿生类脑神经元芯片——deepsouth(深南),功耗为传统芯片在同一任务下的几十分之一到几百分之一。
  2. 拥有12800万个神经元,通过专属指令集调整芯片中神经元资源分配的深度学习类脑神经元芯片——deepwell(深井)。

云天励飞

云天励飞创始人陈宁曾是中兴通讯 IC 技术总监,带领过 400 多人的芯片研发团队。此外,他还是国家 ” 千人计划 ” 特聘专家,国侨办 ” 重点华侨创业团队 ” 带头人。2014 年 8 月,陈宁创立云天励飞,主打智能视频与图像识别。

该公司一大特色便是其设计开发了一款名叫IPU (intelligent Processing Unit)的芯片,专门面向深度学习的多层神经网络的计算并将它的运算效率提升到100倍以上,通过重新定义一套指令值,使它运行和计算深度神经网络可以更加高效。

有消息显示,该芯片将于今年出货。

Think Force

Think Force成立于2017年,据介绍其团队核心成员主要来自IBM,AMD,INTEL, ZTE等业界龙头芯片企业,且都具备十年以上的专业芯片研发设计经历。该公司主要设计融合一流AI算法和先进制成工艺的智能芯片,并以此构建人工智能硬件平台,提供一站式行业应用解决方案。

据称,该芯片采用自主研发的微内核ManyCore架构,能完成AI云虚拟化调度在芯片级的实现,芯片虚拟化技术在需要弹性计算的场景中能够成倍提高芯片使用率。另外,结合自主研发的固件和相关SDK能够实现对于各类神经网络模型的计算加速,加速单元实际效率在90% – 95%之间,相对于Nvidia的主流计算卡能达到5倍以上的功耗和成本节省。

比特大陆

近年来比特币大火,而这也带来了挖矿行业的繁荣,而比特大陆便是在这次挖矿行业爆发中迅速崛起的企业,该公司凭借自己设计的比特币挖矿专用ASIC芯片,一举跃入2017年中国IC设计公司前五的行列。据称,目前全球80%甚至90%的矿机都由该公司提供。

而去年11月底比特大陆则发布了一款名叫 BM1680 的 TPU 张量加速计算芯片,正式进军AI芯片领域。据了解,该芯片可适用于CNN、RNN和DNN等多种神经网络的预测和训练,其加速核采用了改进型Systolic架构技术,与 Google TPU 体系架构类似。

数据处理方面,该芯片浮点运算能力峰值可达2TFlops,而峰值功耗则为41瓦,平均功耗为25瓦。

启英泰伦

成都启英泰伦科技有限公司是一家专注于人工智能芯片设计及配套智能算法引擎开发的公司,它于2016年9月推出了专用的基于ASIC架构深度神经网络智能语音识别芯片CI1006,并已实现了量产和出货。

CI1006是基于ASIC架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持DNN运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。

据介绍,这是一款专用于智能语音识别芯片方案,包含了脑神经网络处理硬件单元,能够完美支持DNN运算架构,性能相当于数十个CPU核的并行计算能力,成本不到通用芯片方案成本的1/2,功耗则在1/10以下。目前,基于该芯片的单/双麦克风方案均可以实现十米识别距离,识别精度在90%以上。

耐能科技

耐能(Kneron)于2015年由台湾人创立于美国圣地牙哥,创始人刘峻诚表示,公司的核心竞争力在于主打轻量级的NPU,能耗比可以做到100mW到300mW,最新的一款产品甚至可以到10mW以下。

而且其芯片尺寸也比较小,比如耐能(Kneron)于2016年推出终端装置专用的人工智慧芯片——神经网路处理器(Neural Processing Unit,NPU),相较于主流的神经网络芯片,体积可以缩小至1/40。

深思考科技

深思考是一家专注于类脑人工智能与深度学习核心科技的高科技公司。核心团队由来自于中科院自动化所、软件所、计算所、微电子所等中科院院所人工智能、机器学习方向的资深科学家组成。

公司目前已经推出了ARGUS DPU深度学习处理器,可为专用领域(如智能视频处理、安防监控、ADAS、医疗图像处理等) 的人工智能与深度学习计算提供高性能硬件加速,赋予智能终端高性能、高可靠、实时的深度学习计算能力。除各类深度学习算法外,也支持各类传统算法框架(如OpenCV),并提供丰富的接口满足客户产品的应用需求。ARGUS DPU支持处理模组级联,以成倍提高实时算力。不过,目前该公司并没有透露具体的性能参数。

异构智能

异构智能是由著名人工智能专家、计算机博弈专家、异构智能专家吴韧博士挂帅,带领一批人工智能、深度学习和异构计算领域顶尖的技术人才组成团队,于 2015 年 8 月在硅谷创立的公司,专注于提供“ASIC 芯片+训练模型”的全栈式 AI 解决方案。

今年CES期间,该公司发布了其第一款高性能、低功耗的 AI 芯片 NovuTensor。

异构智能方面表示这是截至目前世界上唯一一款能够实际运行的、性能达到主流 GPU/TPU 水平而性能/功耗比却远超主流 GPU/TPU 的芯片——在功耗 12w 的情况下,NovuTensor 每秒可识别 300 张图像,每张图像上,最多可检测 8192 个目标,相比目前最先进的桌面服务器 GPU(250W,每秒可识别 666 张图像),仅使用 1/20 电力即可达到其性能的 1/2;而相比目前最先进的移动端或嵌入式芯片,相同用电的情况下,性能是其三倍以上。

写在最后

需要提及的是,号称“世界首款手机AI芯片”的华为麒麟970并未收录到本文中,因为麒麟970使用的是寒武纪的神经网络处理单元(NPU),在物体识别方面的一整套嵌入式AI解决方案则来自中科创达

无论如何,AI芯片领域发展得相当快,未来也势必将有更多的AI芯片企业入局。中国的这些企业能否破除中国芯片高度依赖进口的魔咒呢?我们拭目以待。

相关阅读:《AI 芯片,是金山还是泡沫?

题图来自123RF