CPU 推理 | 使用英特尔 Sapphire Rapids 加速 PyTorch Transformers

发布时间:2023-02-23 22:52:16 来源：哔哩哔哩

在最近的一篇文章中，我们介绍了代号为 Sapphire Rapids 的第四代英特尔至强 CPU 及其新的先进矩阵扩展 (AMX) 指令集。通过使用 Amazon EC2 上的 Sapphire Rapids 服务器集群并结合相应的英特尔优化库，如英特尔 PyTorch 扩展 (IPEX)，我们展示了如何使用 CPU 进行高效的分布式大规模训练，与上一代至强 (Ice Lake) 相比，Sapphire Rapids 实现了 8 倍的加速，取得了近线性的扩展比。

英特尔 PyTorch 扩展 (IPEX) 项目地址:https://github.com/intel/intel-extension-for-pytorch

(资料图片)

本文我们将重点关注推理。使用基于 PyTorch 的 Hugging Face transformers 模型，我们首先在 Ice Lake 服务器上分别测量它们在长、短两种文本序列上的性能。然后，我们在 Sapphire Rapids 服务器和最新版本的 Hugging Face Optimum Intel 上执行相同的测试，并比较两代 CPU 的性能。这里，Optimum Intel 是一个专用于英特尔平台的硬件加速开源库。

Hugging Face Optimum Intel 仓库地址:https://github.com/huggingface/optimum-intel

让我们开始吧！

为什么你应该考虑使用 CPU 推理

在决定使用 CPU 还是 GPU 进行深度学习推理时需要考虑多个因素。最重要的当然是模型的大小。一般来说，较大的模型能更多地受益于 GPU 提供的强大算力，而较小的模型可以在 CPU 上高效运行。

另一个需要考虑的因素是模型和推理任务本身的并行度。GPU 为大规模并行处理而设计，因此它们可能对那些可以高度并行化的任务更高效。而另一方面，如果模型或推理任务并没有特别高的并行度，CPU 可能是更有效的选择。

成本也是一个需要考虑的重要因素。GPU 可能很昂贵，而使用 CPU 可能是一种性价比更高的选择，尤其是在业务应用并不需要极低延迟的情况下。此外，如果你需要能够轻松扩缩推理实例的数量，或者如果你需要能够在各种平台上进行推理，使用 CPU 可能是更灵活的选择。

现在，让我们开始配置我们的测试服务器。

配置我们的测试服务器

和上一篇文章一样，我们将使用 Amazon EC2 实例:

一个基于 Ice Lake 架构 c6i.16xlarge实例，

一个基于 Sapphire Rapids 架构的 r7iz.16xlarge-metal实例。你可以在 AWS 网站上获取有关新 r7iz 系列的更多信息。

两个实例都有 32 个物理核 (因此有 64 个 vCPU)。我们将用相同的方式来设置它们:

Ubuntu 22.04 和 Linux 5.15.0 (ami-0574da719dca65348),

PyTorch 1.13 与 IPEX (Intel Extension for PyTorch) 1.13，

Transformers 4.25.1。

唯一的区别是在 r7iz 实例上我们多装一个 Optimum Intel 库。

以下是设置步骤。像往常一样，我们建议使用虚拟环境来保证环境纯净。

在两个实例上完成上述步骤后，我们就可以开始运行测试了。

对流行的 NLP 模型进行基准测试

在这个例子中，我们将在文本分类任务上对几个 NLP 模型进行基准测试: distilbert-base-uncased, bert-base-uncased 和 roberta-base。你可以在 Github 上找到完整脚本。当然，你也可以用你自己的模型随意尝试！

distilbert-base-uncased 介绍:https://hf.co/distilbert-base-uncased

bert-base-uncased 介绍:https://hf.co/bert-base-uncased

roberta-base 介绍:https://hf.co/roberta-base

原作者在 GitHub 公开的基准测试脚本:https://gist.github.com/juliensimon/7ae1c8d12e8a27516e1392a3c73ac1cc

我们使用序列长度分别为 16 和 128 的两种句子来测试，同时我们也将在这两种句子上分别测量单句推理和批量推理的平均预测延迟和 p99 预测延迟。该测试方案模拟了真实场景，因此可以较好地近似在真实场景中的预期加速比。

基准测试功能非常简单。在几次预热迭代后，我们使用 pipelineAPI 运行 1000 次预测，把预测时间存下来，并计算它们的均值和 p99 值。

在 c6i (Ice Lake) 实例上，我们只使用普通的 Transformers pipeline。

在 r7iz (Sapphire Rapids) 实例上，我们同时使用普通 pipeline和 Optimum pipeline。在 Optimum pipeline中，我们启用 bfloat16模式以利用到 AMX 指令，并将 jit设置为 True以使用即时编译进一步优化模型。

为简洁起见，我们先看下 distilbert-base-uncased 的 p99 结果。你可以在文章末尾找到所有测例的完整结果。

如上图所示，与上一代至强 CPU 相比，Sapphire Rapids 上单个句子的预测延迟加速了 60-65%。也就是说，由于结合了英特尔 Sapphire Rapids 平台以及 Hugging Face Optimum 的优化，你只需对代码进行很少改动就可将预测速度提高 3 倍。

这让我们即使在长文本序列上也可以达到个位数的预测延迟。在 Sapphire Rapids 之前，这样的性能只有通过 GPU 才能实现。

结论

第四代英特尔至强 CPU 提供了出色的推理性能，尤其是在与 Hugging Face Optimum 结合使用时。这是深度学习在更易得和更具成本效益的道路上的又一个进步，我们期待与英特尔的朋友们在这条道路上继续合作。

以下是一些可帮助你入门的其他资源:

英特尔 IPEX GitHubhttps://github.com/intel/intel-extension-for-pytorch

Hugging Face Optimum GitHubhttps://github.com/huggingface/optimum

如果你有任何问题或反馈，我们很乐意在 Hugging Face 论坛上与你交流。

在线论坛地址:https://discuss.huggingface.co/

感谢阅读！

附录: 完整结果

基准测试软件环境:

Ubuntu 22.04 with libtcmalloc

Linux 5.15.0 patched for Intel AMX support

PyTorch 1.13 with Intel Extension for PyTorch

Transformers 4.25.1

Optimum 1.6.1

Optimum Intel 1.7.0.dev0

英文原文: Accelerating PyTorch Transformers with Intel Sapphire Rapids, part 2:https://hf.co/blog/intel-sapphire-rapids-inference
原文作者: Julien Simon
译者: Matrix Yao (姚伟峰)，英特尔深度学习工程师，工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。
审校、排版: zhongdongy (阿东)

x 广告

CPU 推理 | 使用英特尔 Sapphire Rapids 加速 PyTorch Transformers

为什么你应该考虑使用 CPU 推理

配置我们的测试服务器

对流行的 NLP 模型进行基准测试

结论

附录: 完整结果

CPU 推理 | 使用英特尔 Sapphire Rapids 加速 PyTorch Transformers

印小天爸爸是谁_印小天父亲去世 热议

【天天热闻】国足敲定新帅 扬科维奇或只是过渡人选

全球快看：kernel32.dll放哪里 无法定位程序输入点于动态_无法定位程序输入点于动态链接库kernel32.dll怎么办

天天微头条丨ETF观察丨证券板块再度拉升 湘财股份回封涨停 证券ETF基金（159848）涨近2%

每日速递：母线_什么是母线

善良的死神隐藏英雄密码，冰封王座善良的死神密码是什么哪个最厉害-环球即时

天天百事通！金山一耄耋老人丢失2000多元现金，不到2小时，钱款如数归还……

今日热文：Moose Knuckles 2023春夏系列NO GUILT QUILT轻盈亮相

8C16T最大Boost至5GHzIntel发布第九代Core处理器i9-9900Ki7-9700K和i5-9600K|当前快看

女式西服_关于女式西服的介绍

「爱奇艺认错了，但我的版权意识没有了」|世界关注

头条：当日快讯：凯因科技：2022年年归母净利润同比下降21.87%

中国男篮世预赛后两战7大看点：乔帅对比杜锋改变在哪 周琦成焦点

全球观天下！英飞特电子参加浙江省照明电器协会第六届第三次理事会

藏在古镇里的油菜花海_全球今热点

北京房山法院执结社交平台账号过户首案_环球微动态

下巴短小后缩怎么改善_下巴短小后缩怎么改善 今日播报

普京宣布涉核重大决定后 俄外交部放口风“示弱”

全球热讯:新华全媒+｜碰撞出创新的火花——粤港澳大湾区重大科创平台扫描

二月二吉林这场备受瞩目的“开工”活动，事关汽车产业集群“上台阶”！

4个人字组合起来叫什么_四个人字叠一起读什么 世界观点

便民办税送春风 宁乡税务在行动

容积率高好还是低好

外耳道多毛症是什么遗传方式_外耳道多毛症

全球关注：美利达野狼3有几种_美利达野狼3

梅顿亚宁 世界快播报

2023沃尔沃XC60:浓郁北欧风格,低调又大气,四驱+B6引擎

魔怨国庆版隐藏英雄密码多少_魔怨国庆版隐藏英雄

扭贻贝

江苏两地公布去年新生儿爆款名：“瑞泽”“昕玥”受欢迎

2月20日益生股份涨7.02%，国泰中证畜牧养殖ETF基金重仓该股

港股异动 | 中国能源建设(03996)现涨超4% 拟定增不超150亿元 投向多个新能源项目-每日快报

今日精选：恒辉安防（300952）新增【可降解塑料】概念

全球快资讯丨足球报：陈戌源劝李铁退还武汉长江4800万遭拒绝

安彩高科：公司全资子公司安彩光热是国内第二家实现光热玻璃批量生产的企业

followed by的用法_followedby的用法|环球速看料

世界报道:五险一金和六险二金有何区别？看完你就明白了

「北京号里的节气」今日雨水：一帘新雨后，人间又逢春 每日快报

世界视讯！以这种心态念佛会更亲切

亚历山大：若有机会我最想跟科比对位 基迪是联盟最好传球手_全球新动态

微动态丨时令春菜上市！尝一口春天的滋味，怎一个鲜字了得？

全球观天下！割草机覆盖：湿叶与。干燥

A股尾盘再跳水，发生了什么？

FGO妖精兰斯洛特美图（8），第一张暴击

刚买3个月的新车自燃厂家称非质量问题不予理赔 4S店：建议司法鉴定

血虚的人一定要这么吃！养血安神益心脾

qq身份证绑定怎么解除手机上_qq身份证绑定怎么解除

神舟十四号航天员乘组与记者见面会：为太空之家点赞 为祖国自豪

湖北工业大学发通报_湖北工业大学贴吧

送饺子 包馄饨 帮修床铺

制作游戏东西南北_制作游戏东西南北怎么做

世界热消息：钢坯、铁矿价格涨跌分歧，下周市场怎么走？

民初案号查询0425_民初案件查询

如何修复口袋上的洞

全球焦点！《艺术学院》出征柏林电影节争夺金熊奖中国动画走出国门再登国际舞台

全球实时：《星落凝成糖》少典有琴官配

安福：抢晴晒火腿 世界热推荐

力劲科技(00558.HK)早盘涨超4%，截至发稿，涨4.01%，报10.38港元，成交额4488.14万港元_今日热讯

断融是什么意思

haa肌肽虾青素使用方法_haa肌肽虾青素_天天最新

一笔画奇点数怎么算_一笔画奇点数 全球快播

踢毽子游戏规则注意事项_踢毽子游戏规则_全球时快讯

合并报表抵消分录是什么意思_合并会计报表抵消分录编制方法大全_世界微动态

速递！资讯｜国潮质感前卫街车，奔达LFS700唐刀四缸性价之选38800元

沪铜期货主力合约日内资金流出超7亿元-热资讯

重庆：“一口窖池”激发区域农业经济发展活力

丑小鸭续写_丑小鸭作者是谁 世界视点

隆基绿能勇夺“三冠王”！最高155亿元净利润，超组件三强总和！全球光伏开启“一超多强”时代

环球观热点：k1263到杭州几点

环球快看：速腾外循环是哪个按钮

潘阳个人资料

天天热讯:控盘是什么意思

林西娅个人资料，林西娅 富春山居图，林西娅演过的电影

印小天爸爸是谁_印小天父亲去世热议

【天天热闻】国足敲定新帅扬科维奇或只是过渡人选

全球快看：kernel32.dll放哪里无法定位程序输入点于动态_无法定位程序输入点于动态链接库kernel32.dll怎么办

天天微头条丨ETF观察丨证券板块再度拉升湘财股份回封涨停证券ETF基金（159848）涨近2%

中国男篮世预赛后两战7大看点：乔帅对比杜锋改变在哪周琦成焦点

下巴短小后缩怎么改善_下巴短小后缩怎么改善今日播报

普京宣布涉核重大决定后俄外交部放口风“示弱”

4个人字组合起来叫什么_四个人字叠一起读什么世界观点

便民办税送春风宁乡税务在行动

梅顿亚宁世界快播报

港股异动 | 中国能源建设(03996)现涨超4% 拟定增不超150亿元投向多个新能源项目-每日快报

「北京号里的节气」今日雨水：一帘新雨后，人间又逢春每日快报

亚历山大：若有机会我最想跟科比对位基迪是联盟最好传球手_全球新动态

神舟十四号航天员乘组与记者见面会：为太空之家点赞为祖国自豪

送饺子包馄饨帮修床铺

安福：抢晴晒火腿世界热推荐

一笔画奇点数怎么算_一笔画奇点数全球快播

丑小鸭续写_丑小鸭作者是谁世界视点

林西娅个人资料，林西娅富春山居图，林西娅演过的电影

开州助力乡村振兴做大做强农业品牌_热推荐

本厂定点生产木偶猜一个字字谜本厂定点生产木偶是什么字_环球最新

如何制作孩子们的啦啦队彩球世界关注

证券板块跌0.83% 长城证券涨0.9%居首每日消息

【环球新视野】平常的近义词是什么平常的意思

如何制作超现实主义艺术每日头条

生态环境部张大伟：以“四个更加注重”推动生态环境高水平保护促进钢铁行业高质量发展_每日头条

四月适合种植什么花世界速读

liang开头的成语接龙_liang开头的成语世界最新

奥迪广告被指抄袭刘德华是否担责？专家这样解释焦点速看

青葱岁月指多少岁_青葱岁月是几岁当前播报

达令家下载app下载_达令家最新快讯

盛宴重启背后，18A迎来分水岭环球看点

荣昌生物2022年预亏去年上市募资26亿元|焦点讯息

山东亦可网络科技有限公司世界最新

当前关注：啤酒加味精的作用是什么新闻_啤酒加味精的作用

万事根本全球新资讯

三重棱镜摄谱仪全球微资讯

招行提拔两名行长助理王颖、彭家文任职资格获准_今日聚焦