一文揭开AI芯片的神秘面纱-AI启蒙研究院
今天一朋友咨询我AI芯片怎么样?我是搞软件的,历来计算机系专业学生里搞软件的不懂硬件,但是要聊到AI芯片,它真的很简单,哈哈。
1、什么是人工智能(AI)芯片?
广义上讲,能运行AI算法的芯片都叫AI芯片。目前通用的CPU、GPU都能执行AI算法,只是效率不同的问题。但狭义上讲一般将AI芯片定义为“专门针对AI算法做了特殊加速设计的芯片”。
2、AI芯片的主要用处嫡女郡王妃?
目前语音识别、自然语言处理、图像处理等领域,大多使用AI算法,如果能用芯片加速将大大 提高效率。如手机里的指纹解锁、面部识别应用等。
3、AI芯片是不是比CPU要难以设计?
恰恰相反,AI芯片很容易实现,因为AI芯片要完成的任务,绝大多是是矩阵或向量的乘法、加法,然后配合一些除法、指数等算法。AI算法在图像识别等领域,常用的是CNN卷积网络,一个成熟的AI算法,就是大量的卷积、残差网络、全连接等类型的计算,本质是乘法和加法。如果确定了具体的输入图形尺寸,那么总的乘法加法计算次数是确定的。在神经网络的训练过程中,用到的后向传播算法海云台恋人们 ,也可以拆解为乘法和加法。
AI芯片可以理解为一个快速计算乘法和加法的计算器,而CPU要处理和运行非常复杂的指令集,难度比AI芯片大很多。CPU与GPU并不是AI专用芯片落伍文学,为了实现其他功能,内部有大量其他逻辑,这些逻辑对于目前的AI算法来说是完全用不上的,自然造成CPU与GPU并不能达到最优的性价比。
4、在AI任务中,AI芯片到底有多大优势?
以4GHz 128bit的POWER8的CPU为例,假设是处理16bit的数据,比特铃手机diy大师该CPU理论上每秒可以完成16X4G=64G次。再以大名鼎鼎的谷歌的TPU1为例,主频为700M Hz,有256X256=64K个乘加单元,每个时间单元可同时执行一个乘法和一个加法。那就是128K个操作。该YPU论述每秒可完成=128K X 700MHz=89600G=大约90T次。
可以看出在AI算法处理上,AI芯片比CPU快1000倍。如果训练一个模型,TPU处理1个小时,放在CPU上则要41天。
5、AI芯片怎么用?
如果是电脑的话,这个东西直接插在 SATA硬盘接口上,如下图。手机的话,也是一样焊在主板上,手机上主要用于图像处理,如AI美颜、人脸识别等任务,如果系统设计得好的话,AI芯片的存储模块可以大大减少,直接调用摄像头底层存储数据,留出来的空间可以增加更多的计算单元。
6、国内寒武纪AI芯片怎么样?
国内寒武纪成为名副其实的AI芯片设计领域的独角兽圆叶景天 ,受到投资界的追捧。寒武纪的NPU,也是专门针对神经网络的,与谷歌的TPU类似人蛇大战3。在《DianNao: A Small-Footprint High-Throughput Accelerator》一文中提到艾斯凯尔,DianNao的内部结构如下。分为三个部分,NFU-1高嘉晗,NFU-2,NFU-3. NFU-1全是乘法单元。16X16=256个乘法器。这些乘法器同时计算,也就是说,一个周期可以执行256个乘法。NFU-2是加法树。16个。每个加法树是按照8-4-2-1这样组成的结构。每个加法数有15个加法器。NFU-3是激活单元。16个。看起来也不复杂,但是因为是ASIC,少了许多不必要的逻辑功能,所以速度就是快,功耗就是低,效果就是好。
这种架构,只能适用特定的算法类型,比如深度学习(CNN,DNN,RNN)等。但是,深度学习只是机器学习中的某一类,整个机器学习,有很多其他种类的算法,和深度学习的不太一样,甚至经常用到除法等计算类型。这些算法,目前的应用范围也很广。为了加快常用机器学习算法的运算火爆兵王,寒武纪后续又设计出专门针对这些算法的处理器方案:PuDianNao.PuDianNao,内部实现了7种常用的机器学习算法:k-means喝粥求恋 ,k-nearest neighbors , naive bayes , support vector machine , linear regression , and DNN。
7、AI芯片也像CPU一样有指令集吗?
有,寒武纪就搞出一个Cambricon指令集架构。为了神经网络计算加速而设计的。但是不要高估指令集的作用,指令集这个东西是谁的市场大,谁就掌握绝对话语权媚肉之香,想当年英特尔搞X86指令集海兔的做法,市面上还有很多比X86更好的指令集,全都挂了,因为Intel绑定了微软,X86指令集向前兼容是个大杀器庆云金山寺啊,古老程序在最新的CPU和windows系统上都可以兼容运行,一下子奠定了市场的基石。AI芯片的指令集想要成为行业的标准,那得靠市场拼杀才能成功,不是简简单单比较一下性能就能成功的。
8、谷歌的TPU怎么样?
谷歌在《In-Datacenter Performance Analysis of a Tensor Processing Unit》中披露了第一代TPU的架构以及性能内田笃人。根据新闻报道,2017年发布的第二代TPU芯片,第二代TPU包括了四个芯片,每秒可处理180万亿次浮点运算;如果将64个TPU组合到一起,升级为所谓的TPU Pods,则可提供大约11500万亿次浮点运算能力。
9、最后的尾巴
不要高估AI芯片的作用,
雷晓晨 就算在AI芯片领域国内企业能“弯道超车”超过谷歌等,但AI芯片替代不了CPU的作用,CPU才是芯片中的皇冠,AI芯片只是配角而已。另外,AI算法再过几十年后还是不是神经网络这个样子,还不好说,也就是现在搞出的AI芯片,过段时间后随着软件算法的变化,有可能全部都不能用了。
往期回顾:
从“猜画小歌”背后的AI原理,教大家如何得高分
何必心中无码,AI让你眼见为实
党给我智慧给我胆,梯度给我努力的方向
【通俗理解】凸优化
【通俗理解】区块链
外卖机器人诞生!快递小哥会失业吗?
刚刚,有位大神用AI搞定了多位女神
你敢@微信官方,不怕它真送你一顶绿色圣诞帽臻璇?
别人都在晒18岁照片,而我却在学习~
今日头条败给了色情?AI算法不行,还是另有隐情?
【机器学习】python凭什么能被纳入教材
【机器学习】朴素贝叶斯算法分析
【机器学习】主成分(PCA)算法分析
【机器学习】非线性回归算法分析
【机器学习】线性回归算法分析
读AlphaZero论文随想
进击的TensorFlow
【通俗理解】协方差
【通俗理解】贝叶斯统计
从一个双控开关思考神经网络(下)
从一个双控开关思考神经网络(上)