为什么 GPU 进行矩阵操作和卷积操作会比 CPU 要快？

demi 在周四, 01/16/2020 - 14:49 提交

比较 GPU 和 CPU ，就是比较它们两者如何处理任务。如下图图1-9所示， CPU 使用几个核心处理单元去优化串行顺序任务，而 GPU 的大规模并行架构拥有数以千计的更小、更高效的处理单元，用于处理多个并行小任务。

CPU 拥有复杂的系统指令，能够进行复杂的任务操作和调度，两者是互补关系，而不能相互代替。

GPU 是大规模并行架构，处理并行任务毫无疑问是非常快的，深度学习需要高效的矩阵操作和大量的卷积操作， GPU 的并行架构再适合不过。简单来说，确实如此，但是为什么 GPU 进行矩阵操作和卷积操作会比 CPU 要快呢？

真正原因是 GPU具有如下特性：
(1) 高带宽
(2) 高速的缓存性能
(3) 并行单元多

在执行多任务时， CPU 需要等待带宽，而 GPU 能够优化带宽。

举个简单的例子，我们可以把 CPU 看作跑车， GPU 是大卡车，如下图图 1-10 所示任务就是要把一堆货物从北京搬运到广州。 CPU（跑车〉可以快速地把数据（货物〉从内存读入 RAM 中，然而 GPU (大卡车〉装货的速度就好慢了。不过后面才是重点， CPU (跑车）把这堆数据（货物）从北京搬运到广州｜需要来回操作很多次，也就是往返京广线很多次，而 GPU (大卡车）只需要一次就可以完成搬运（一次可以装载大量数据进入内存）。换言之， CPU 擅长操作小的内存块，而 GPU 则擅长操作大的内存块。 CPU 集群大概可以达到 50GB/s 的带宽总量，而等量的 GPU 集群可以达到 750GB/s 的带宽量。

如果让一辆大卡车去装载很多堆货物，就要等待很长的时间了，因为要等待大卡车从北京运到广州，然后再回来装货物。设想一下，我们现在拥有了跑车车队和卡车车队（线程并行〉，运载一堆货物（非常大块的内存数据需要读入缓存，如大型矩阵）。我们会等待第一辆卡车，但是后面就不需要等待的时间了，因为在广州会有一队伍的大卡车正在排队输送货物（数据），这时处理器就可以直接从缓存中读取数据了。在线性并行的情况下， GPU 可以提供高带宽，从而隐藏延迟时间。这也就是GPU 比 CPU 更适合处理深度学习的原因。

版权声明：本文截选自CSDN博主「TechXYM」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/zaishuiyifangxym/article/details/98944012

GPU
卷积

【视频】如何在PowerVR模拟器中运行程序？这个框架是如何工作的？	CNN中神奇的1x1卷积	如何评估GPU在并行处理方面的能力？有哪些关键指标？
倒计时1天！与大咖一起聊聊本土GPU的现状与未来	卷积神经网络长尾数据集识别的技巧包	为什么在AI领域GPU比CPU性能更强？

为什么 GPU 进行矩阵操作和卷积操作会比 CPU 要快？

最新文章

最新文章