AI芯片产业生态梳理

更新于 2017年10月3日 机器学习
我来说两句
wx:   网页版 2017-10-03 06:31
深度学习 视觉 算法 语音 Andrew Ng GPU Jeff Dean 行业动态 神经网络
「AI芯片产业生态梳理」Inference环节指利用训练好的模型,使用新的数据去“推理”出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。虽然Inference的计算量相比Training少很多,但仍然涉及大量的矩阵运算。在推理环节,GPU、FPGA和ASIC都有很多应用价值。从应用场景来看,可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)”两大类。在深度学习的Training阶段,由于对数据量及运算量需求巨大,单一处理器几乎不可能独立完成一个模型的训练过程,因此,Training环节目前只能在云端实现,在设备端做Training目前还不是很明确的需求。在Inference阶段,由于目前训练出来的深度神经网络模型大多仍非常复杂,其推理过程仍然是计算密集型和存储密集型的,若部署到资源有限的终端用户设备上难度很大,因此,云端推理目前在人工智能应用中需求更为明显。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端Inference环境。在设备端Inference领域,由于智能终端数量庞大且需求差异较大,如ADAS、VR等设备对实时性要求很高,推理过程不能交由云端完成,要求终端设备本身需要具备足够的推理计算能力,因此一些低功耗、低延迟、低成本的专用芯片也会有很大的市场需求。按照上述两种分类,我们得出AI芯片分类象限如下图所示。除了按照功能场景划分外,AI芯片从技术架构发展来看,大致也可以分为四个类型: 1、通用类芯片,代表如GPU、FPGA;2、基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;3、全定制化ASIC芯片,代表如TPU、寒武纪 Cambricon-1A等;4、类脑计算芯片,代表如IBM TrueNorth、westwell、高通Zeroth等。 (一)Training训练2007年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。Andrew Ng和Jeff Dean打造的Google Brain项目,使用包含16000个CPU核的并行计算平台,训练超过10亿个神经元的深度神经网络。但CPU的串行结构并不适用于深度学习所需的海量数据运算需求,用CPU做深度学习训练效率很低,在早期使用深度学习算法进行语音识别的模型中,拥有429个神经元的输入层,整个网络拥有156M个参数,训练时间超过75天。与CPU少量的逻辑运算单元相比,GPU整个就是一个庞大的计算矩阵,GPU具有数以千计的计算核心、可实现10-100倍应用吞吐量,而且它还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。 转自:人工智能学家 完整内容请点击“阅读原文” via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678184&idx=4&sn=69ccfa5590064db348eab040b6cea3a9&scene=0#wechat_redirect

 

回复