算力可贵,效率价高:智算中心凭啥是筑基新基建的最优解?

kuaidi.ping-jia.net  作者:佚名   更新日期:2024-07-31
在"新基建"浪潮下,人工智能正成为经济增长的新引擎,各行各业正开启智能化升级转型。算力在其中扮演了重要角色,是国家未来竞争力的集中体现。然而,随着海量数据的快速增长和模型的日益复杂,算力不足和效率不高的问题日益凸显。
算力诚可贵:数据、算法需要更多算力支撑。众所周知,在人工智能发展的三要素中,无论是数据还是算法,都离不开算力的支撑,算力已成为人工智能发展的关键要素。IDC发布的《数据时代2025》报告显示,2018年全球产生的数据量为33ZB (1ZB=1万亿GB),到2025年将增长到175ZB,其中,中国将在2025年以48.6ZB的数据量及27.8%的占比成为全球最大的数据汇集地。另据赛迪顾问数据显示,到2030年数据原生产业规模量占整体经济总返铅答量的15%,中国数据总量将超过4YB,占全球数据量30%。数据资源已成为关键生产要素,更多的产业通过利用物联网、工业互联网、电商等结构或非结构化数据资源来提取有价值信息,而海量数据的处理与分析对于算力的需求将十分庞大。
算法上,先进模型的参数量和复杂程度正呈现指数级的增长趋势。此前 Open AI 发表的一项研究就显示,每三到四个月,训练这些大型模型所需的计算资源就会翻一番(相比之下,摩尔定律有 18 个月的倍增周期)。2012 至 2018 年间,深度学习前沿研究所需的计算资源更是增加了 30 万倍。到2020年,深度学习模型对算力的需求达到了每天百亿亿次的计算需求。2020年2月,微软发布了最新的智能感知计算模型Turing-NLG,参数量高达到175亿,使用125POPS AI计算力完成单次训练就需要一天以上。随后,OpenAI又提出了GPT-3模型,参数量更达到1750亿,对算力的消耗达到3640 PetaFLOPS/s-day。而距离GPT-3问世不到一年,更大更复杂的语言模型,即超过一万亿参数的语言模型SwitchTransformer即已问世。
然而,算力不能快速增长,我们将不得不面临一个糟糕的局面:当规模庞大的数据用于人工智能的训练学习时,数据量将超出内存和处理器的承载上限,整个深度学习训练过程将变得无比漫长,甚至完全无法实现最基本的人工智能。
效率价更高:环境与实际成本高企,提升效率迫在眉睫。在计算工业行业,有个假设是“数字处理会变得越来越便宜”。但斯坦福人工智能研究所副所长克里斯托弗•曼宁表示,对于现有的AI应用来说却不是这样,特别是因为不断增加的研究复杂性和竞争性,使得最前沿模型的训练成本还在不断上升。
根据马萨诸塞大学阿默斯特校区研究人员公布的研究论文显示,以常见的几种大型 AI 模型的训练周期为例漏慧,发现该过程可排放超过 626000 磅二氧化碳,几乎是普通 汽车 寿命周期排放量的五倍(其中包括 汽车 本身的制造过程)。
例如自然语言处理中,研究人员研究了该领域中性能取得最大进步的四种模型:Transformer、ELMo、BERT和 GPT-2。研究人员在单个 GPU 上训练了至少一天,以测量其功耗。然后,使用模型原始论文中列出的几项指标来计算整个过程消耗的总能量。
结果显示,训练的计算环境成本与模型大小成正比,然后在使用附加的调整步骤以提高模型的最终精度时呈爆炸式增长,尤其是调整神经网络体系结构以尽可能完成详尽的试验,并优化模型的过程,相关成本非常高,几乎没有性能收益。BERT 模型的碳足迹约为1400 磅二氧化碳,这与一个人来回坐飞机穿越美洲的排放量相当。
此外,研究人员指出,这些数字仅仅是基础,因为培训单一模型所需要的工作还是比较少的,大部分研究人员实践中会从头开发新模型或者为现有模型更改数据集,这都需要更多时间培训和调整,换言之,这会产生更高的能耗。根据测算,构建和测试最终具有价值的模型至少需要在六个月的时间内训练 4789 个模型,换算成碳排放量,超过 78000 磅。而随着 AI 算力的提升,这一问题会更加严重。
另据 Synced 最近的一份报告,华盛顿大学的 Grover 专门用于生成和检测虚假新闻,训练较大的Grover Mega模型的总费用为2.5万美元;OpenAI 花费了1200万美元来训练它的 GPT-3语言模型;谷歌花费了大约6912美元来训练 BERT,而Facebook针对当前最大的模型进行一轮训练光是电费可能就耗费数百万美元。
对此,Facebook人工智能副总裁杰罗姆•佩森蒂在接受《连线》杂志采访时认为,AI科研成本的持续上涨,或导致我们在该领域的研究碰壁,现在已经到了一个需要从成本效益等方面考虑的地步,我们需要清楚如何从现有的计算力中获得最大的收益。
在我们看来,AI计算系统正在面临计算平台优化设计、复杂异构环境下计算效率、计算框架的高度并行与扩展、AI应用计算性能等挑战。算力的发展对整个计算需求所造成的挑战会变得更大,提高整个AI计算系统的效率迫在眉睫。
最优解:智算中心大势所趋,应从国家公共设施属性做起。
正是基于上述算力需求不断增加及所面临的效率提升的需要,作为建设承载巨大AI计算需求的算力中心(数据中心)成为重中之重。
据市场调研机构Synergy Research Group的数据显示,截至到2020年第二季度末,全球超大规模数据中心的数量增长至541个,相比2015年同期增长一倍有余。另外,还有176个数据中心处于计划或建设阶段,但作为传统的数据中心,随之而来的就是能耗和成本的大幅增加。
这里我们仅以国内的数据中心建设为例,现在的数据中心已经有了惊人的耗电量。据《中国数据中心能耗现状白皮书》显示,在中国有 40 万个数据中心,每个数据中心平均耗电 25 万度,总体超过 1000 亿度,这相当于三峡和葛洲坝水电站 1 年发电量的总和。如果折算成碳排放则大概是 9600 万吨,这个数字接近目前中国民航年碳排放量的 3 倍。
但根据国家的标准,到2022年,数据中心平均能耗基本达到国际先进水平,新建大型、超大型数据中心的 PUE(电能使用效率值,越低代表越节能)达到 1.4 以下。而且北上广深等发达地区对于能耗指标控制还非常严格,这与一二线城市集中的数据中心需求形成矛盾,除了降低 PUE,同等计算能力提升服务器,尤其是数据中心的的计算效率应是正解。
但众所周知的事实是,面对前述庞大的AI计算需求和提升效率的挑战,传统数据中心已经越来越难以承载这样的需求,为此,AI服务器和智算中心应运而生。
与传统的服务器采用单一的CPU不同,AI服务器通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求,为自然语言处理、计算机视觉、语音交互等人工智能应用场景提供强大的算力支持,已经成为人工智能发展的重要支撑力量。
值得一提的是,目前在AI服务器领域,我们已经处于领先的地位。
近日,IDC发布了2020HI《全球人工智能市场半年度追踪报告》,对2020年上半年全球人工智能服务器市场进行数据洞察显示,目前全球半年度人工智能服务器市场规模达55.9亿美元(约326.6亿人民币),其中浪潮以16.4%的市占率位居全球第一,成为全球AI服务器头号玩家,华为、联想也杀入前5(分别排在第四和第五)。
这里业内也许会好奇,缘何中国会在AI服务器方面领跑全球?
以浪潮为例,自1993年,浪潮成功研制出中国首台小型机服务器以来,经过30年的积累,浪潮已经攻克了高速互联芯片,关键应用主机、核心数据库、云数据中心操作系统等一系列核心技术,在全球服务器高端俱乐部里占有了重要一席。在AI服务器领域,从全球最高密度AGX-2到最高性能的AGX-5,浪潮不断刷新业界最强的人工智能超级服务器的纪录,这是为了满足行业用户对人工智能计算的高性能要求而创造的。浪潮一直认为,行业客户希望获得人工智能的能力,但需要掌握了人工智能落地能力和技术的公司进行赋能,浪潮就可以很好地扮演这一角色。加快人工智能落地速度,帮助企业用户打开了人工智能应用的大门。
由此看,长期的技术创新积淀、核心技术的掌握以及对于产业和技术的准确判断、研发是领跑的根本。
至于智算中心,去年发布的《智能计算中心规划建设指南》公布了智能计算中心技术架构,基于最新人工智能理论,采用领先的人工智能计算架构,通过算力的生产、聚合、调度和释放四大作业环节,支撑和引领数字经济、智能产业、智慧城市和智慧 社会 应用与生态 健康 发展。
通俗地讲,智慧时代的智算中心就像工业时代的电厂一样,电厂是对外生产电力、配置电力、输送

  • 算力可贵,效率价高:智算中心凭啥是筑基新基建的最优解?
    答:最优解:智算中心大势所趋,应从国家公共设施属性做起。正是基于上述算力需求不断增加及所面临的效率提升的需要,作为建设承载巨大AI计算需求的算力中心(数据中心)成为重中之重。据市场调研机构Synergy Research Group的数据显示,截至到2020年第二季度末,全球超大规模数据中心的数量增长至541个,相比2015年同期增长一倍有余...
  • 智算中心与云数据中心相比具体在哪些方面有不同?
    答:1. 在智慧时代,计算力被视为核心生产力。智算中心与云数据中心和超算中心相比,其核心区别在于智算中心更加强调以智生智,即通过构建先进的人工智能算力基础设施来推动AI技术创新。2. 智算中心通过促进数据开放共享和加速智能生态建设,旨在推动智能产业的聚合。它将成为支撑和引领数字经济、智能产业、智...
  • 浪潮信息刘军:智算中心是东数西算“提质量、调结构”的体现
    答:所以说,智算中心是推进落实国家“东数西算”战略理念的典型体现。智算中心拥有高质量的领先算力——单位功耗所产生的计算能力、智能能力远远高于传统算力。同时浪潮信息在智算中心率先引入全系统液冷散热的创新技术,使得PUE能够做到更低,减碳表现更出色,节省更多电能。所以在这方面,浪潮信息也是践行者。...
  • 智算中心和超算中心的区别
    答:1、基础架构:从基础架构上看,超算中心包含多个高性能的计算机节点、存储系统和网络设备,存储能力和网络带宽都相当强大。智算中心的基础架构包括AI芯片、大规模存储系统以及高性能算力机组,更侧重于人工智能应用所需的基础设施。2、计算方式:计算方式有所不同,超算中心主要采用并行计算的方式,将任务分配...
  • 智算中心和超算中心的区别
    答:智算中心主要研究人工智能、机器学习等领域,旨在通过大规模数据训练模型,实现智能化应用。智算中心通常需要处理大量的数据,因此对计算能力的要求非常高。为了提高计算效率,智算中心通常会采用分布式计算的方式,将数据分散到多个计算节点上进行处理。此外,智算中心还需要具备高效的数据存储和管理功能,以便...
  • 智算中心和超算中心的区别
    答:1、基础架构不同:超算中心是包含多个高性能的计算机节点、存储系统和网络设备、存储能力和网络带宽;智算中心的基础架构包含AI芯片、大规模存储系统、高性能算力机组。2、计算方式不同:超算中心采用并行计算的方式、将任务分配到多个计算节点计算;智算中心是分布式的计算方式。3、擅长领域不同:超算中心是...
  • 智算中心和超算中心的区别
    答:1. 基础架构差异:超算中心由多个高性能计算机节点、存储系统以及网络设备构成,具备强大的计算和存储能力以及高速网络带宽。而智算中心的基础架构则融合了AI芯片、大规模存储系统以及高性能算力机组。2. 计算方法差异:超算中心运用并行计算方法,将任务分发至多个计算节点进行处理。智算中心则采用分布式计算...
  • 全球算力竞争日趋白热化 智算中心成未来数据中心演进方向
    答:李东红指出,算力资本作为一种新生产投入,能够与传统物质资本形成互补效应。同时,算力资本通过创新的知识和技术改造传统物质资本,促进资源利用效率或劳动生产率的提升,进而提高传统资本的边际收益。算力资本的增长还会产生正网络外部性效应和溢出效应。加大对数据中心等算力基础设施的投资,将进一步增强算力资本...
  • 为什么要建设智算中心?建设智算中心具有怎样的意义?
    答:智算中心就好比智慧社会的高速公路,要想富先修路,修路肯定要先于买车和拉货,它有很多不可量化的,经济效益之外的社会效益;智算中心又像是智慧社会的能力底座,是公共能力平台,在很多方面改变了社会,重塑了社会,对于地域经济竞争力的革新和重构起到催化作用和产业吸纳、聚集作用。
  • 行业首张“算力”认证,吉利凭什么抢跑“智算时代”?
    答:算力是智能化竞争的关键,那么吉利的“超级大脑”实力如何?人工智能的发展主要依赖数据、算法和算力。对于汽车行业来说,强大的算力是实现智能化的基础。吉利作为国内领先的自主品牌,也在积极提升自身的算力能力。吉利星睿智算中心拥有超过1000台超算服务器,接入的智能驾驶和车联网实验数据近100PB,能够支持...