GPU 不能完全取代 CPU 的4个CPU最大能开多少进程原因是什么？

篮球鞋 | 地理 | 英文名 | 肌肉 | 单反相机 | 华为荣耀 | 赛事 | 镜头 | Windows 7 | 操作系统 | 体育运动 | 阳信县 | 铅山县 | 中国教育 | 俄语 | 跑步鞋 | 电脑配置 | 骑马与砍杀 | 足球欧洲杯 | 大学生就业 | 休学 | 英语翻译 | 处理器 | 采暖 | 模特 | 朝鲜战争（1950-1953） | 大学生创业 | 机械硬盘 | 体育赛事 | 蓝牙音箱 | 西班牙足球甲级联赛 | 固态硬盘SSD | 德州扑克 | 羽毛球 | 大学生兼职 | 自行车运动 | 方言 | 英语词汇 | 榕江县 | 广州恒大淘宝足球俱乐部 | PlayStation 4 | 钢笔 | 中国象棋 | 高考作文 | 新西兰 | 央视 | 山东艺术学院 | Windows | 运动会 | 文具 | 语言学习 | 德国足球甲级联赛 | CPU | 日语语法 | 香港中文大学 | 律师事务所 | 西班牙语 | 男性 | 自行车选购 | 羽毛球技术 | 中央电视台 | 人肉搜索 | 运动损伤 | 摄影师 | 购物 | 环境保护 | 视频 | 口臭 | 键盘 | 情商 | 留学申请 | 排球 | 捷安特 | 电脑故障 | 按键精灵 | 生活 | 徐州市 | 显卡驱动 | 延安大学 | AMD | 容县 | 空气净化器 | 少儿英语 | 中央戏剧学院 | 马克思主义哲学 | 虚拟机 | 机关 | Adobe Photoshop | 插座 | 尤文图斯 | 高中化学 | R（编程语言） | 计算机科学 | 义乌市 | 奎屯市 | 电工 | 烹饪 | 日本文化 | 张宏伟 | 参考文献 | 室内设计 | MacBook Air | 加拿大留学 | 米柚（Miui） | 韩国 | 输入法 | 西餐 | 四大会计师事务所 | 电子书 | 电梯 | 屏幕 | 江宁区 | 身高 | 莎车县 | 骁龙处理器 | 华为Mate30 | MacBook Pro | 小米路由器 | 计算机病毒 | 科比·布莱恩特（人物） | 郭嘉 | 校园网 | 亚洲 | 驾驶经验 | iPhone XR | 天气 | Microsoft Office | 艺术 | 略阳县 | 大学专业选择 | 给排水 | 江苏师范大学 | IP地址 | 潮汕地区 | 中国足球 | 发音 | 名字 | 在线教育 | 电源 | 睡眠 | 易经 | 摄像机 | 小米电视 | ThinkPad | 漫威（Marvel） | 景德镇 | 微单相机 | LED | Microsoft Word | 土拨鼠 | 我的世界（Minecraft） | 比利时 | 皇家马德里 | 德语 | 高考咨询 | 出国读研 | 白兰地 | 芯片（集成电路） | iPhone X | 莱斯特城 | 奥林巴斯 | 锻炼 | 驻马店市 | 视频课程 | 高中英语 | 希腊 | 滑县 | 烹饪学校 | Android应用 | 美国文化 | 山东工艺美术学院 | iPhone 11 Pro | 多肉植物 | 实验 | 留学生 | 方木 | 守门员 | 中医学 | 台式电脑 | Java | 家庭影院 | 荷兰 | 任天堂 | 图形处理器（GPU） | 流量套餐 | 机械键盘 | 洗衣服 | 罗永浩 | 水果 | 地图 | 污水处理 | 记忆力 | 足球规则 | 石家庄市 | 对外经贸大学 | 观音 | 恒大 | 大学军训 | 军训 | 语言学 |

你的位置：网站首页 >> 频道首页 >>图形处理器（GPU） >>GPU 不能完全取代 CPU 的4个CPU最大能开多少进程原因是什么？

GPU 不能完全取代 CPU 的4个CPU最大能开多少进程原因是什么？

来源：蜘蛛抓取(WebSpider) 时间：2023-08-03 04:38 标签： 4个CPU最大能开多少进程

有一个概念叫做图灵完备，描述一个处理器系统是不是可以计算一切可计算的问题。毫无疑问cpu是图灵完备的，至少目前的GPU不是。因为在目前的计算机体系结构中，GPU始终是一个协处理器的存在。GPU需要的数据要CPU喂给它，GPU处理的结果需要返回给CPU，再由CPU调度其他硬件来使用数据。比如把数据教给显示器来显示画面。所以目前阶段，没有CPU的话GPU啥都做不了。那未来能不能把这些调度工作让GPU来实现？答案是可以，但问题是调度任务多数是串行的，控制为主，计算为辅，也就是说这类任务不能用GPU的计算单元直接实现，还要内置一个CPU才行。所以到底算不算GPU实现的呢？

神经网络训练通常是 GPU 大显身手的领域，然而莱斯大学和英特尔等机构对 GPU 的地位发起了挑战。在深度学习与神经网络领域，研究人员通常离不开 GPU。得益于 GPU 极高内存带宽和较多核心数，研究人员可以更快地获得模型训练的结果。与此同时，CPU 受限于自身较少的核心数，计算运行需要较长的时间，因而不适用于深度学习模型以及神经网络的训练。但近日，莱斯大学、蚂蚁集团和英特尔等机构的研究者发表了一篇论文，表明了在消费级 CPU 上运行的 AI 软件，其训练深度神经网络的速度是 GPU 的 15 倍。这篇论文已被 MLSys 2021 会议接收。论文链接：https://proceedings.mlsys.org/paper/2021/file/3636638817772e42b59d74cff571fbb3-Paper.pdf论文通讯作者、莱斯大学布朗工程学院的计算机科学助理教授 Anshumali Shrivastava 表示：「训练成本是 AI 发展的主要瓶颈，一些公司每周就要花费数百万美元来训练和微调 AI 工作负载。」他们的这项研究旨在解决 AI 发展中的训练成本瓶颈。Anshumali Shrivastava。研究动机及进展深度神经网络（DNN）是一种强大的人工智能，在某些任务上超越了人类。DNN 训练通常是一系列的矩阵乘法运算，是 GPU 理想的工作负载，速度大约是 CPU 的 3 倍。如今，整个行业都专注于改进并实现更快的矩阵乘法运算。研究人员也都在寻找专门的硬件和架构来推动矩阵乘法，他们甚至在讨论用于特定深度学习的专用硬件 - 软件堆栈。Shrivastava 领导的实验室在 2019 年做到了这一点，将 DNN 训练转换为可以用哈希表解决的搜索问题。他们设计的亚线性深度学习引擎（sub-linear deep learning engine, SLIDE）是专门为运行在消费级 CPU 上而设计的，Shrivastava 和英特尔的合作伙伴在 MLSys 2020 会议上就公布了该技术。他们表示，该技术可以超越基于 GPU 的训练。在 MLSys 2021 大会上，研究者探讨了在现代 CPU 中，使用矢量化和内存优化加速器是否可以提高 SLIDE 的性能。论文一作、莱斯大学 ML 博士生 Shabnam Daghaghi 表示：「基于哈希表的加速已经超越了 GPU。我们利用这些创新进一步推动 SLIDE，结果表明即使不专注于矩阵运算，也可以利用 CPU 的能力，并且训练 AI 模型的速度是性能最佳专用 GPU 的 4 至 15 倍。」Shabnam Daghaghi。此外，论文二作、莱斯大学计算机科学与数学本科生 Nicholas Meisburger 认为，CPU 仍然是计算领域最普遍的硬件，其对 AI 的贡献无可估量。技术细节在本论文中，该研究重新了解了在两个现代 Intel CPU 上的 SLIDE 系统，了解 CPU 在训练大型深度学习模型方面的真正潜力。该研究允许 SLIDE 利用现代 CPU 中的矢量化、量化和一些内存优化。与未优化的 SLIDE 相比，在相同的硬件上，该研究的优化工作带来了 2-7 倍的训练时间加速。SLIDE 的工作流程包括：初始化、前向-反向传播和哈希表更新。下图 1 为前向-反向传播工作流程图：前向和后向传播示意图。该研究专注于大规模评估，其中所需的神经网络拥有数亿个参数。在两台 Intel CPU 上比较了优化的 SLIDE，分别是 Cooper Laker 服务器（CPX）和 Cascade Lake 服务器（CLX），并与以下以下 5 个基准进行了对比：1)V100 GPU上的 full-softmax tensorflow 实现；2) CPX 上的 full-softmax tensorflow 实现；3)CLX 上的 full-softmax tensorflow 实现；4)CPX 上的 Naive SLIDE；5)CLX 上的 Naive SLIDE。其中，CPX 是英特尔第三代至强可扩展处理器，支持基于 AVX512 的 BF16 指令。CLX 版本更老，不支持 BF16 指令。研究者在三个真实的公共数据集上评估了框架和其他基准。Amazon670K 是用于推荐系统的 Kaggle 数据集；WikiLSH-325K 数据集和 Text8 是 NLP 数据集。详细统计数据见下表 1：对于 Amazon-670K 和 WikiLSH-325K，研究者使用了一个标准的全连接神经网络，隐藏层大小为 128，其中输入和输出都是多个热编码向量。对于 Text8，该研究使用标准 word2vec 语言模型，隐藏层大小为 200，其中输入和输出分别是一个热编码向量和多个热编码向量。下图 6 第一行代表所有数据集的时间收敛图，结果显示了该研究提出的优化 SLIDE 在 CPX 和 CLX（深绿色和浅绿色）上训练时间优于其他基准。图 6 的底部行显示了所有数据集的柱状图。下表 2 给出了三个数据集上的详细数值结果：下表 3 中，研究者展示了 BF16 指令对每个 epoch 平均训练时间的影响。结果表明，在 Amazon-670K 和 WikiLSH325K 上，激活和权重中使用 BF16 指令分别将性能提升了 1.28 倍和 1.39 倍。但是，在 Text8 上使用 BF16 没有产生影响。下表 4 展示了有无 AVX-512 时，优化 SLIDE 在三个数据集上的每个 epoch 平均训练时间对比。结果表明，AVX-512 的矢量化将平均训练时间减少了 1.2 倍。参考链接：https://techxplore.com/news/2021-04-rice-intel-optimize-ai-commodity.html如想了解更多消息，请扫描下方二维码：

GPU 不能完全取代 CPU 的4个CPU最大能开多少进程原因是什么？

我要回帖

更多关于 4个CPU最大能开多少进程的文章

随机推荐

GPU 不能完全取代 CPU 的4个CPU最大能开多少进程原因是什么？

我要回帖

更多关于 4个CPU最大能开多少进程 的文章

随机推荐

更多关于 4个CPU最大能开多少进程的文章