AIGC的高速发展将企业对基础架构的需求推上了新的层次,根据中国通服数字基建产业研究院发布的《中国数据中心产业发展白皮书(2023)》报告,互联网行业客户对单机柜功率密度的要求较高,一般在6-8kW,金融行业处于中间,大致在5-8kW,政务和制造行业较低,一般在3-5kW。随着AI应用的不断发展对GPU计算及GPU+CPU的异构混合并行计算需求增加,客户对机柜密度的要求逐渐提升至20-30kW,甚至以上。
而伴随机柜和机架设备的功耗上升,散热方式也从传统的风冷发展至冷板、浸没、相变等众多方式百花齐放,且没有绝对的优劣之说。在更后端的换热、后备电源设计方面亦是如此。可以说,基础架构的功率提升,牵一发而动全身。面对日新月异、飞速迭代的AI业务,数据中心部署如何保持灵活?如何实现卓越运营?也许本文可以提供一些方向。
AIGC时代的基础架构
目前,在以大模型为代表的新一代AI训练应用中,单张SXM接口的H800 GPU峰值功耗可达700W,而如果按照一台服务器安装8张加速计算,单台服务器的峰值功耗便可轻松超越5600W。并且根据行业的普遍预期,新款旗舰级AI加速GPU功耗还将进一步上升,而AI服务器的整机功耗也将持续水涨船高(来源:CPU中文网)。因此,提升机柜功率不仅能让一个机柜安装多台AI服务器,更能大幅提升机房空间利用率,降低数据中心的整体TCO。
与此同时,伴随AI服务器功率的显著提升,也需要充分考虑数据中心整体的变电、配电、散热、UPS、备用电源等一系列“风火水电”问题和对应的管理运维问题。所以,无论是新建还是改造,新一代AI数据中心的规划和建设都将是一个复杂的系统性问题,需要经验丰富的专业团队来进行规划和建设。
朝亚在中国市场拥有超过十年的超大规模数据中心建设和运营专业经验,通过合作伙伴EdgeConneX的全球化平台,可帮助客户迅速进入亚洲及全球50+热门市场,诸如马来西亚、印尼等。朝亚敏锐的发现了客户在AI业务中面临的诸多痛点,并于近期推出Ingenuity高密度数据中心解决方案。方案既考虑了AI业务对高功率、高密度的需求,也为客户提供了更为灵活的数据中心部署方案,以提升客户整体的业务开发效率。
目前Ingenuity方案可支持单机柜最高40kW功率,能够帮助客户部署和利用珍贵的算力资源。在此基础之上,Ingenuity方案在经过市场验证的设计基础之上提供灵活部署选项,客户可在朝亚众多拥有国际化视野的数据中心专家团队的支持下,根据不同业务场景和企业需求定制具体方案。举例来说,针对AI数据中心单机功率大、功率密度高的特点,Ingenuity方案结合客户业务需求,提供能耗低的风液混布的散热方式,以确保AI大模型等高负载业务的稳定运行,同时降低方案的总体成本。
此外,在专业设计施工团队、强大的供应链的协同加持下,朝亚与客户通力协作进一步提升数据中心的安装施工速度,以更高效、更灵活的合作模式加速客户业务上线速度。综合来看,Ingenuity高密度数据中心解决方案能够帮助客户平衡能效、成本、可靠性等诸多因素。
卓越运维,助力企业AI就绪
AIGC时代也为数据中心运维带来了新的挑战,朝亚凭借多年运营超大规模数据中心园区的经验,也有着自己的解答。
首先需要提及的是对客户的公开透明。从访客进入数据中心到设备运营的数据,朝亚始终对客户保持公开透明,确保与客户开展充分交流。同时,灵活的策略对高效运维至关重要,朝亚根据客户的不同业务特点和需求,制定针对性的运维策略,并快速响应客户需求,为客户提供持续有效的支持和维护。
此外,完善的风险灾备至关重要。各类不可预测的自然灾害、人为错误都有可能对数据中心造成重大损失。朝亚在预防和应对灾难方面有着完善的策略和流程,诸如应急响应等,为客户的业务安全保驾护航。同时,为避免或减少人为错误,朝亚还会定期进行个性化的人员培训,针对性地解决员工在运维中遇到的具体问题,并对人员进行定期评估,以确保为用户提供高质素的运维人员。
再有,对数据中心的监测是必不可少的。只有主动、持续的监测才能更好地预防风险。毕竟,预防事故的发生是避免损失的最佳方法。目前,朝亚已经拥有专门面向数据中心运维的360度集中管理系统,在智能化技术的加持下,对数据中心的设备功耗、气温和湿度等进行主动监控,能够有效预防事故的发生。该管理系统也在不久前召开的第十一届数据中心标准大会上,荣膺由科技部国家科学技术奖励办公室批准,中国工程建设标准化协会颁发的“数据中心成果奖”。由此也可见国内业界对朝亚产品和服务的高度认可。
朝亚为用户所提供的一系列专业化的数据中心管理运维服务,为数据中心的持久高效运营带来高规格保障。而这也意味着用户可以更专注于业务拓展和创新。目前,朝亚正在天津运营的超大规模数据中心,其土建设计充分满足高密度机柜部署需求,可为包括大模型在内的众多业务提供强大算力支撑。而天津数据中心园区也拥有优秀的能效表现,平均运维PUE低至1.25。此外,从成立至今天津园区从未发生过重要事故,在运维的安全可靠方面表现卓越,获得了客户高度评价和口碑。
紧贴“航线”,驶向数智未来
以AIGC为代表的新一代AI技术已经在海量应用场景展现出了强大的创造力和广泛的商业价值。而为了驱动AI的快速迭代与创新,基础架构必须与行业发展相匹配,为客户提供更灵活的部署和更卓越的运营,以便满足企业的业务发展、成本需求以及各业监管需求。朝亚助力客户在充满挑战和机遇的业务中紧贴“航线”,并最终驶向彼端的数智未来。