全球掀起AI热，天翼云智算能力已就绪!

天翼云开发者 | 2023-03-20 16:32:44 阅读：133

随着超大规模人工智能模型和海量数据的爆发，人工智能对算力的需求也随之不断走高。根据IDC发布的《2022-2023中国人工智能计算力发展评估报告》显示，中国人工智能计算力保持快速增长，2022年智能算力规模达到268百亿亿次/秒（EFLOPS），超过通用算力规模。

作为云服务国家队，天翼云积极推进算力普惠发展，已形成“2+4+31+X”资源布局，构建了“集中化+区域化+属地化+边缘化”的云网基础设施，为人工智能夯实“算力底座”，助力AI快速完成数据训练，提高计算与模拟的精准性。

为了适应市场智能算力的快速增长，天翼云聚焦人工智能场景创新，推出天翼云智算平台，以普惠智能算力为基础，支持大模型训练、智能推荐、无人驾驶、生命科学、NLP等业务场景。

天翼云智算平台依托天翼云分布式架构的云底座和海量的计算、存储、网络资源，具有高性能、高弹性、高速互联、高性价比等特性，能够满足企业不断增长的高性能算力使用需求。

日前，天翼云智算平台通过中国信息通信研究院《可信算力服务平台技术能力要求第3部分：智算平台》评估，成为业内首批通过该项评估的云服务商。

具体来看，天翼云智算平台主要有以下四个方面的差异化优势：

01 高性能底座支撑能力

天翼云智算平台基于天翼云TeleCloudOS4.0云网底座，覆盖全场景算力需求；打造国产化能力体系，适配国产主流GPU芯片以及各种国产服务器，适配自研云服务器操作系统CTyunOS；集成弹性计算、分布式存储、云网络三大基础核心技术，软硬协同硬件加速，提供全量IaaS产品服务。

02 GPU虚拟化能力

天翼云智算平台支持主流Mediated Passthrough（vGPU）、直通透传等虚拟化技术；支持软硬件层面的容器虚拟化技术，软件方面支持API劫持及其他算力和显存灵活分配能力，硬件方面支持MIG、vNPU等特性，从物理资源层面分配单卡资源。

03 高效的调度能力

资源调度方面，天翼云智算平台实现对GPU、NPU、CPU等异构算力资源的混合调度，训练、推理任务统一调度，实现了异构算力和异构任务的统一调度；任务调度方面，提供基于任务优先级、任务SLA、资源独占式调度、共享式调度、抢占式调度，灵活支持各类差异化的用户需求。

04 分布式训练能力

天翼云智算平台提供分布式训练一站式解决方案，融合GPU拓扑感知、亲和调度、高IO并行文件系统等底层技术，支持多种模型训练方式，兼容主流AI框架，扩展定制业界主流分布式训练方案，提升训练数据量，缩短模型交付周期；提供定制化算法框架，采用代码生成等方式，内置提供丰富的算子，简化数据集导入、特征工程处理、预训练模型依赖等步骤，提升AI训练开发效率；针对大模型分布式环境下的训练，显存优化方面使用ZeRo等技术，打破显存与内存的隔阂，降低训练的显存开销。

随着国内新一波人工智能浪潮袭来以及AI规模化落地应用，具备“更高、更快、更强”能力的智能计算基础设施平台被人工智能行业所青睐。天翼云智算平台适用于城市治理、AI质检、搜索推荐、自动驾驶、金融、科学研究等领域，可提供人工智能应用所需算力服务、数据服务和算法服务，通过算力的生产、聚合、调度和释放，促进AI产业聚集发展。

天翼云智算平台不仅提供算力，还对云能力做“组件化”封装进行输出，能迅速支撑业务上线，提升技术创新能力，加速科技研发进程。此外，智算平台的推广与应用将产生联动效应，带动通信服务网络、大数据、人工智能等技术快速迭代，有助于我国科技创新提速。

在人工智能按下“快进键”的背景下，天翼云不断完善智算基础设施，打造创新性的产品，深度赋能人工智能领域企业跑出“加速度”，并通过多点发力布局走在智算领域的前列，AI应用也将在科技创新的助力下进一步加速“走深向实”，全面推动AI产业高质量发展。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。