国产芯片之光”燧原科技“发布第二代AI芯片,年底实现量产

在不少芯片创业企业追求最新的工艺以实现最佳性能时,AI芯片厂商燧原科技两代芯片却采用了相同的工艺。燧原科技创始人、CEO赵立东 表示,“邃思2.0”和第一代产品均由格芯的12nm FinFET工艺打造,“邃思2.0”将于年底量产。

7月7日, AI芯片初创企业燧原科技发布第二代人工智能训练产品——“邃思2.0”芯片、基于邃思2.0的“云燧T20”训练加速卡和“云燧T21”训练OAM模组,全面升级的“驭算TopsRider”软件平台以及全新的“云燧集群”。当天,燧原科技还和上海银行、浪潮等生态合作伙伴进行了战略合作框架签约。

据悉,腾讯是燧原科技的投资方,也是其重要的合作伙伴。2018年8月,燧原科技由腾讯领投,获得Pre-A轮融资3.4亿元人民币。

据现场发布会的演示,邃思2.0进行了大规模的架构升级,新一代全自研的GCU-CARA全域计算架构,针对人工智能计算的特性进行深度优化,夯实了支持通用异构计算的基础;支持全面的计算精度,涵盖从FP32、TF32、FP16、BF16到INT8,并成为中国首款支持单精度张量TF32数据精度的人工智能芯片。单精度FP32峰值算力达到40 TFLOPS,单精度张量TF32峰值算力达到160 TFLOPS,均为国内第一。

HBM2E存储带来海量吞吐:邃思2.0共搭载了4颗HBM2E片上存储芯片,高配支持64 GB内存,带宽达1.8 TB/s,是中国第一个支持世界最先进存储HBM2E和单芯片64 GB内存的产品。

高速互联支撑算力扩展:GCU-LARE全域互联技术是燧原专为人工智能训练集群研发的互联技术,提供双向300 GB/s互联带宽,支持数千张云燧CloudBlazer加速卡互联,实现优异的线性加速比。

全新软件驾驭澎湃算力:驭算TopsRider是燧原科技自主知识产权的计算及编程平台,通过软硬件协同架构设计,充分发挥邃思2.0的性能;基于算子泛化技术及图优化策略,支持主流深度学习框架下的各类模型训练;利用Horovod分布式训练框架与GCU-LARE互联技术相互配合,为超大规模集群的高效运行提供解决方案。开放升级的编程模型和可扩展的算子接口,为客户模型的优化提供了自定义的开发能力。

建设原始创新的通用算力和自主生态,加速产品商业化

“第二代人工智能训练产品的发布,是燧原科技开发原始创新的算力产品和构建自主生态又一重要的里程碑。通过芯片架构和软件平台的升级迭代,提升产品竞争力,满足市场需求,从而加速产品商业化的步伐。”燧原科技CEO赵立东指出,“在复杂的国际大环境下,原始创新和自主生态成为发展趋势,这也是燧原科技自创立以来始终坚持的战略选择,是支撑技术和业务长远发展,不断拉近与世界先进水平的距离,并在市场竞争中取得主动的基础。面向泛互联网、传统行业(金融、交通、电力、医疗、工业等)以及新基建三大业务方向,燧原科技正以全新、更具竞争力的产品,服务市场和客户。”

他表示,通过对市场的理解和对竞品的分析确定第一代芯片架构,第二代最大的区别是有了实际的用户,基于实际的业务模型。“在这些业务使用当中有新的算法、模型出现,这是AI跟传统CPU、GPU不一样的地方,再加上其他国际大厂也在迭代。”

具体而言,燧原科技新一代全自研的GCU-CARA全域计算架构,针对人工智能计算的特性进行深度优化,支持全面的计算精度,涵盖从FP32、TF32、FP16、BF16到INT8,单精度FP32峰值算力达40 TFLOPS,单精度张量TF32峰值算力达到160 TFLOPS。

其实成本也是影响工艺选择的重要因素。赵立东表示,从设计到流片,12纳米制程和7纳米制程成本完全不同,“一个3亿多人民币,一个7亿多,公司的商业本质还是要考虑成本。”

此外,同时改架构和工艺的风险太大,他介绍称,“如果最后有问题不知道是工艺造成的还是架构造成的。先进制程的性能、功耗会更好,但是综合考虑成本、风险和供应商产能,我们选择改架构。”

目前,半导体行业产能紧缺,考验着芯片设计企业的供应链管理能力。此前,有媒体报道,格芯单方取消部分企业订单。对此,赵立东表示,和格芯的合作一直很顺利,“同样一家公司,它给你多强的技术支持是不一样的,包括价格,还有交货周期,长6个月短则4个月,完全看你和它的关系。”

在市场应用方面,去年9月,燧原科技宣布,“云燧T10”和由其组成的多卡分布式训练集群已在云数据中心落地,正式进入商用阶段。赵立东介绍称,燧原科技今年在泛互联网、传统行业(金融、交通、电力、医疗、工业等)以及新基建三大业务方向上都将有营收。