比特铃手机diy大师一文揭开AI芯片的神秘面纱-AI启蒙研究院

作者：admin , 分类：全部文章 , 浏览：853

一文揭开AI芯片的神秘面纱-AI启蒙研究院
今天一朋友咨询我AI芯片怎么样？我是搞软件的，历来计算机系专业学生里搞软件的不懂硬件，但是要聊到AI芯片，它真的很简单，哈哈。
1、什么是人工智能（AI）芯片？
广义上讲，能运行AI算法的芯片都叫AI芯片。目前通用的CPU、GPU都能执行AI算法，只是效率不同的问题。但狭义上讲一般将AI芯片定义为“专门针对AI算法做了特殊加速设计的芯片”。
2、AI芯片的主要用处嫡女郡王妃？
目前语音识别、自然语言处理、图像处理等领域，大多使用AI算法，如果能用芯片加速将大大提高效率。如手机里的指纹解锁、面部识别应用等。
3、AI芯片是不是比CPU要难以设计？
恰恰相反，AI芯片很容易实现，因为AI芯片要完成的任务，绝大多是是矩阵或向量的乘法、加法，然后配合一些除法、指数等算法。AI算法在图像识别等领域，常用的是CNN卷积网络，一个成熟的AI算法，就是大量的卷积、残差网络、全连接等类型的计算，本质是乘法和加法。如果确定了具体的输入图形尺寸，那么总的乘法加法计算次数是确定的。在神经网络的训练过程中，用到的后向传播算法海云台恋人们，也可以拆解为乘法和加法。
AI芯片可以理解为一个快速计算乘法和加法的计算器，而CPU要处理和运行非常复杂的指令集，难度比AI芯片大很多。CPU与GPU并不是AI专用芯片落伍文学，为了实现其他功能，内部有大量其他逻辑，这些逻辑对于目前的AI算法来说是完全用不上的，自然造成CPU与GPU并不能达到最优的性价比。
4、在AI任务中，AI芯片到底有多大优势？
以4GHz 128bit的POWER8的CPU为例，假设是处理16bit的数据，比特铃手机diy大师该CPU理论上每秒可以完成16X4G=64G次。再以大名鼎鼎的谷歌的TPU1为例，主频为700M Hz，有256X256=64K个乘加单元，每个时间单元可同时执行一个乘法和一个加法。那就是128K个操作。该YPU论述每秒可完成=128K X 700MHz=89600G=大约90T次。
可以看出在AI算法处理上，AI芯片比CPU快1000倍。如果训练一个模型，TPU处理1个小时，放在CPU上则要41天。
5、AI芯片怎么用？
如果是电脑的话，这个东西直接插在 SATA硬盘接口上，如下图。手机的话，也是一样焊在主板上，手机上主要用于图像处理，如AI美颜、人脸识别等任务，如果系统设计得好的话，AI芯片的存储模块可以大大减少，直接调用摄像头底层存储数据，留出来的空间可以增加更多的计算单元。

6、国内寒武纪AI芯片怎么样？
国内寒武纪成为名副其实的AI芯片设计领域的独角兽圆叶景天，受到投资界的追捧。寒武纪的NPU，也是专门针对神经网络的，与谷歌的TPU类似人蛇大战3。在《DianNao: A Small-Footprint High-Throughput Accelerator》一文中提到艾斯凯尔，DianNao的内部结构如下。分为三个部分，NFU-1高嘉晗，NFU-2，NFU-3. NFU-1全是乘法单元。16X16=256个乘法器。这些乘法器同时计算，也就是说，一个周期可以执行256个乘法。NFU-2是加法树。16个。每个加法树是按照8-4-2-1这样组成的结构。每个加法数有15个加法器。NFU-3是激活单元。16个。看起来也不复杂，但是因为是ASIC，少了许多不必要的逻辑功能，所以速度就是快，功耗就是低，效果就是好。
这种架构，只能适用特定的算法类型，比如深度学习（CNN，DNN，RNN）等。但是，深度学习只是机器学习中的某一类，整个机器学习，有很多其他种类的算法，和深度学习的不太一样，甚至经常用到除法等计算类型。这些算法，目前的应用范围也很广。为了加快常用机器学习算法的运算火爆兵王，寒武纪后续又设计出专门针对这些算法的处理器方案：PuDianNao.PuDianNao，内部实现了7种常用的机器学习算法：k-means喝粥求恋，k-nearest neighbors , naive bayes , support vector machine , linear regression , and DNN。

7、AI芯片也像CPU一样有指令集吗？
有，寒武纪就搞出一个Cambricon指令集架构。为了神经网络计算加速而设计的。但是不要高估指令集的作用，指令集这个东西是谁的市场大，谁就掌握绝对话语权媚肉之香，想当年英特尔搞X86指令集海兔的做法，市面上还有很多比X86更好的指令集，全都挂了，因为Intel绑定了微软，X86指令集向前兼容是个大杀器庆云金山寺啊，古老程序在最新的CPU和windows系统上都可以兼容运行，一下子奠定了市场的基石。AI芯片的指令集想要成为行业的标准，那得靠市场拼杀才能成功，不是简简单单比较一下性能就能成功的。
8、谷歌的TPU怎么样？
谷歌在《In-Datacenter Performance Analysis of a Tensor Processing Unit》中披露了第一代TPU的架构以及性能内田笃人。根据新闻报道，2017年发布的第二代TPU芯片，第二代TPU包括了四个芯片，每秒可处理180万亿次浮点运算；如果将64个TPU组合到一起，升级为所谓的TPU Pods，则可提供大约11500万亿次浮点运算能力。
9、最后的尾巴
不要高估AI芯片的作用，雷晓晨就算在AI芯片领域国内企业能“弯道超车”超过谷歌等，但AI芯片替代不了CPU的作用，CPU才是芯片中的皇冠，AI芯片只是配角而已。另外，AI算法再过几十年后还是不是神经网络这个样子，还不好说，也就是现在搞出的AI芯片，过段时间后随着软件算法的变化，有可能全部都不能用了。
往期回顾：
从“猜画小歌”背后的AI原理，教大家如何得高分
何必心中无码，AI让你眼见为实
党给我智慧给我胆，梯度给我努力的方向
【通俗理解】凸优化
【通俗理解】区块链
外卖机器人诞生！快递小哥会失业吗？
刚刚，有位大神用AI搞定了多位女神
你敢@微信官方，不怕它真送你一顶绿色圣诞帽臻璇？
别人都在晒18岁照片，而我却在学习~
今日头条败给了色情？AI算法不行，还是另有隐情？
【机器学习】python凭什么能被纳入教材
【机器学习】朴素贝叶斯算法分析
【机器学习】主成分(PCA)算法分析
【机器学习】非线性回归算法分析
【机器学习】线性回归算法分析
读AlphaZero论文随想
进击的TensorFlow
【通俗理解】协方差
【通俗理解】贝叶斯统计
从一个双控开关思考神经网络（下）
从一个双控开关思考神经网络（上）

文章归档

吴幼坚

比特铃手机diy大师一文揭开AI芯片的神秘面纱-AI启蒙研究院