智能云基建指南:构建未来就绪的云原生AI基础设施
引言
由中国信息通信研究院联合多家机构共同编制的《2024云原生AI技术架构白皮书》已正式发布。该白皮书深入探讨了云原生AI技术的最新发展,分析了AI产业在云原生技术推动下面临的挑战与机遇,并提供了一系列的技术指导方案。作为推动AI产业创新的重要力量,云原生AI技术已成为新一轮创新浪潮的核心。本文将从用户的角度,对《2024云原生AI技术架构白皮书》进行解读,探讨云原生AI技术如何助力企业突破发展瓶颈,实现智能化转型。
01 云原生AI技术的发展背景
AI软件及应用市场持续增长,大模型成为产业主要增长点。据国际数据公司(IDC)预测,到2026年,中国人工智能软件及应用市场规模将达到211亿美元。以ChatGPT为代表的AI大模型,凭借其泛化性、通用性和迁移性,为AI的广泛应用带来新机遇,成为企业竞争力的重要体现。
云原生技术为AI应用运行提供了一个可扩展、高可靠的平台,优化了AI开发和使用。云原生AI技术能够有效管理各类网络、存储和计算资源,已逐步演变为实际上的云操作系统,服务于私有云、公有云以及混合云环境。这一技术的发展,使得AI应用的开发和部署更加灵活和高效,降低了企业AI创新的成本。
02 云原生AI基础设施的挑战与演进
基础设施的基石
云原生AI基础设施是云原生AI技术最为基础的一环,它向上为AI训练作业、推理服务及模型开发等各类AI业务提供任务编排和调度能力,向下对多数据中心的异构硬件设备统一纳管并提供高效、可靠的资源供应能力。随着AI技术的发展,新的软硬件接口抽象为云原生基础设施带来了新的挑战和机遇。
AI产业的多方面挑战
AI产业面临数据、算法、算力等多方面发展瓶颈。数据量的高速增长,数据特征的高维、模态格式的多样,使得对数据的AI建模变得更加复杂,计算复杂度呈指数增加。同时,AI应用场景的多元化、复杂化,对算力的需求也在不断提升。云原生AI技术的发展,需要应对这些挑战,提供更加高效、灵活的算力支持。
03 云原生AI技术概论
资源管理与调度
云原生AI技术是AI发展中的一项关键技术,它覆盖了从硬件基础设施到数据中心,再到容器集群管理和调度系统等多个层面。随着AI算力资源的快速增长,企业在构建云原生AI系统时面临诸多挑战,如资源管理复杂度提升、芯片种类繁多以及新型AI资源管理需求等。为了应对这些挑战,云原生AI资源管理系统的建设变得至关重要,它包括AI资源管理、矩阵算力基础设置管理、云原生资源管理、资源画像、垂直弹性、水平弹性以及智能HPA(HorizontalPodAut oscaling)等多个方面,共同构建了一个灵活、高效、智能的AI资源调度与管理框架。
训练系统优化
云原生AI训练系统的关键建设要点在于提升AI模型训练的效率和性能,支持企业的智能化转型。系统通过集成AI调度加速、训练存储加速、Serverless训练和故障自愈等功能,有效应对大模型训练中对数据传输带宽的高需求、资源死锁、算力利用不充分和资源碎片化问题。
推理效能提升
随着技术的发展和应用场景的复杂化,云原生AI推理面临诸多挑战,包括推理时长与资源消耗的关联、模型文件加载的开销、以及冷启动时延问题。云原生AI推理系统的关键建设要点在于提供高效、灵活且可靠的AI服务,特别是在Serverless推理和大型语言模型(LLM)的推理优化方面。
边缘计算集成
边缘计算作为云计算的拓展,将边缘设备从数据消费者转变为兼顾数据生产者和消费者的双重角色。云原生技术应用于边缘环境已成为主流趋势。云原生平台提供商需要考虑如何将云原生技术应用于边缘环境,以满足能耗、隐私保护和实时性等方面的需求。
弹性伸缩能力
在人工智能领域,资源调度的不确定性尤为突出,尤其是在推理场景中,AI任务的资源需求会根据业务量的波动而变化。为了应对这种变化,AI任务需要弹性伸缩能力,以实现资源的动态分配和回收,从而优化成本。在需求高峰期间,AI任务可以通过水平扩展(增加实例数量)来确保服务的稳定性;而在需求低谷时,通过垂直扩展(减少实例数量)来降低成本。弹性伸缩的关键能力包括资源画像、垂直弹性、水平弹性和智能水平pod自动伸缩(HPA)。实现这些能力需要对AI任务的资源消耗进行细致的监控,不仅包括计算、内存和存储等资源,还涉及到跨机器和跨加速卡的网络流量和带宽。
04 云原生AI典型应用场景
跨地域多集群协同
云原生AI跨地域多集群协同可以解决稀缺AI硬件资源未充分使用的问题,提高资源利用率。云原生平台提供商需要构建全局的资源视图,在舰队统一资源池上运行AI任务,实现资源的统一管理和全域调度。
算力效能优化
云原生AI算力效能优化包括AI业务训推一体化和算力资源共享。云原生平台提供商需要提供训推一体调度管理器,通过资源分时复用与多业务驱逐策略统一协调计算资源运行训练和推理任务。
云边协同计算
云原生AI云边协同计算可以解决边缘AI可能存在的资源受限、数据孤岛、小样本以及数据异构等问题。云原生平台提供商需要提供云边协同AI框架,实现云边联合推理、联邦学习、增量学习及终身学习等AI学习模式。
大模型云原生化解决方案
大模型云原生化解决方案需要解决大模型的快速部署和提供性能参数监控和运维能力。云原生平台提供商需要提供推理引擎和部署框架,实现大模型的快速部署,并提供性能参数监控和运维能力。
设备驱动管理
云原生AI设备驱动管理需要解决GPU驱动程序的自动化管理问题。云原生平台提供商需要提供统一兼容性管理、容器化驱动管理以及升级驱动联动应用编排等关键技术,以确保AI系统的稳定运行和最大化计算效率。
05 加速企业智能化转型的云原生AI平台
云原生AI技术架构白皮书为我们全面展示了云原生AI技术如何助力企业在AI领域实现突破。灵雀云AML平台,作为企业智能化转型的核心基础平台,提供全栈开箱即用的GPU算力调度、AI任务管理、模型管理以及智能体开发能力,赋能企业级人工智能落地,并通过先进的技术架构,帮助企业积累行业模型资产,降低AI应用的技术门槛。
可视化智能体编排
灵雀云AML通过可视化智能体编排能力,支持智能体应用和自主流水线编排,使得企业能够无需代码开发即可实现可视化的构建智能体应用。这种创新的方式极大地提高了AI应用的开发效率,使得非技术背景的用户也能轻松构建AI应用,从而推动了AI技术的民主化和普及化。
MLOps/LLMOps实践
灵雀云AML为云原生机器学习/人工智能应用提供端到端支持,涵盖数据管理、模型开发、训练、监控、部署及运维。这一全方位的支持,专注于提升开发效率、确保数据和模型质量,优化运维效率。通过MLOps/LLMOps的实践,灵雀云AML帮助企业实现了AI项目的快速迭代和持续交付,从而加速了AI技术从实验室到生产环境的转化。
AI任务调度
在AI任务调度方面,灵雀云AML集成了Volcano调度器,通过智能算法优化资源分配,提升作业吞吐量和响应速度。这种集成不仅支持批处理任务和AI训练等多种作业类型,还具备弹性伸缩能力,保障任务连续性和稳定性。这使得企业能够更好地应对AI任务的浪涌挑战,实现资源的最优利用。
算力管理
算力管理方面,灵雀云AML采用GPU算力虚拟化技术,提升资源的灵活性与效率,兼容国产算力卡,增强数据安全和自主控制。深度集成RDMA网络和高性能存储,保障数据传输的低延迟和高稳定性。这些技术的应用,为企业提供了强大的算力支持,使得企业能够在AI领域实现更快速的创新和更高效的运营。
随着AI技术的不断发展,云原生AI技术架构也将持续演进,不断为企业提供动能。灵雀云AML平台将引领智能云基础设施行业,助推企业在智能化转型的道路上走得更快、更远。