性能最高比NV芯片强三倍:百度祭出AI芯片杀手锏

4月2日下午三点,百度智能芯片总经理欧阳剑于第一场公开课中首次对昆仑芯片予以 了具体地分享,并公开了昆仑K200与英特尔T4 GPU的多项对比总体数据,包括最有其优势于一项总体数据是Gemm-Int8 的Benchmark是T4性能的3倍。欧阳剑还予以 视屏 展示了昆仑芯片的杀手锏,与国产处理过程器飞腾的良好适配。

2018年的百度AI开发者大会上,百度创始人、董事长兼CEO李彦宏宣布率先推出自研AI芯片昆仑。百度研发AI芯片的积累得益于其用FPGA做AI非常快的积累,也得益于其在各类软件定义非常快器和XPU架构的多年积累。

百度最早在2010年逐渐用FPGA做AI架构的研发,2011年予以 小规模部署上线,2017年部署已达了10000片FPGA,2018年发布最新自主研发AI芯片,2019年下半年流片成功了,2020年逐渐量产。

昆仑芯片的定位是通用AI芯片,长期目标是公司提供 高性能、低成本、高灵活性的AI芯片。欧阳剑在分享中说:“相比而言GPU,昆仑芯片的通用性和可编程性都在做十分好,此外 接下来接下来现正付出努力把编程性在做最好的。”

昆仑发布最新逐渐,其相关方面媒体报道陆续公布。架构此外 ,昆仑有2个计算单通信达炒股软件下载官网元,512GB/S的内存带宽,16MB SRAM/unit。欧阳剑重点介绍,16MB的SRAM对AI推理很有去帮助,XPU架构上和XPU-S通信达炒股软件下载官网DNN是为Tensor等而设计通信达炒股软件下载官网造型 ,XPU-Cluster则我们可以 各种各种潜在需求通用处理过程的各种潜在需求。

昆仑排名第一代芯片并并无设计NVLink,而在不是予以 PCIE 4.0接口予以 互联。于一星14nm的制造工艺和2.5D封装的需要支持下,昆仑芯片峰值性能我们可以 已达260TOPS,功耗为150W。

在灵活性和易用性此外 ,昆仑面向开发者公司提供 类似于英伟达CUDA的各类软件栈,我们可以 予以 C/C++语言予以 编程,得到持续的提升开发者的开发难度。

目前为止,基于排名第一代昆仑芯片,百度率先推出三两款AI非常快卡,K100和K200,而在算力和功耗这么后者的两倍。

在接下来的分享中,欧阳剑给出于一系列K200对比英伟达T4的总体数据,包括在Gemm-Int8总体数据类型,4K X 4K的矩阵下,昆仑K200的Benchmark分出已达2000,是英伟达T4的3倍多。

在语音用过过Bert/Ernie测试模型下,昆仑此外更为明显性能其优势。

在线上性能总体数据的表现自然上,昆仑的表现自然相比而言英伟达T4愈加稳定,且延迟此外其优势。

在图像分割YOLOV3算法中,昆仑并无有其优势,但其优势如今不这么更为明显。这么欧阳剑并表示百度通信达炒股软件下载官网仍旧在予以 持续而在优化得到持续的提升昆仑的性能。

他此外 并表示,昆仑如今在百度内部规模应用。当然对外公司提供 AI算力,今年今年年初今年年初12月13日百度予以 定向邀请的多种渠道予以 百度云公司提供 昆仑的算力。在与欧阳剑的直播互动中,雷锋网(公众号:雷锋网)深度重点介绍到予以 百度云公司提供 昆仑AI算力目前为止仍旧是定向邀请的多种渠道,且两个方面是私有部署的多种渠道。百度会予以 定向邀请的最终客户的反馈媒体报道,再予以 百度云大规模向外公司提供 昆仑的算力,但他并无给出具体地的时间很长线。

仍旧予以 百度云公司提供 昆仑的算力,欧阳剑也展示了昆仑非常快卡在工业智能设备中有应用。欧阳剑演示仍旧用CPU和昆仑非常快卡去予以 产品产品缺陷检测,昆仑我们可以 大幅得到持续的提升非常快,但并并无给出具体地的对比总体数据。

此外 于一个展示仍旧昆仑的杀手锏,那这么和国产处理过程器平台发展飞腾的适配。在2019飞腾生态伙伴大会上,欧阳剑就透露昆仑AI芯片现正适配国产飞腾体验服务器,做性能调优工作中。在接下来的线上分享中,欧阳剑展示了设计昆仑非常快卡带来什么的图像分割非常快的更为明显非常快。

飞腾CPU处理过程器设计仍旧Armv8指令级,两个方面用在总体数据中心规划和云计算中心规划,之一国产芯的代表行业,昆仑会选择与飞腾予以 十分好地适配显然是看中了国产自研芯片是大整体市场。

予以 飞腾CPU+昆仑AI非常快器的多种渠道,对方我们可以 更最好的能实现国产芯片在体验服务器整体市场的国产化,也我们可以 视为昆仑AI芯片和非常快卡相信未来增长的于一个重要性 动力和杀手锏。