5月7日,2025聯想創新科技大會(Tech World)在上海世博中心舉行,本屆大會以“讓AI成為創新生產力”為主題,聚焦混合式AI,從終端到云端、從個人到企業,展示一系列創新技術和全新成果。在下午“智能云與智能體技術創新論壇”上,上海交通大學計算機學院陳全教授發表了題為《AI驅動下的智能云架構與系統設計》的演講,深入探討了AI技術與智能云架構的融合以及與聯想智能云的合作。
在“智能云與智能體技術創新論壇”上,陳全教授指出,智能云并非單純的學術概念,而是涉及學術界與產業界的深度合作。他將智能云的特點歸納為“智能”和“云”兩個維度,強調為了實現智能云,需要學術界和產業界的共同配合。學術界負責理論研究和技術預演,產業界則通過產學研合作將技術落地并提供反饋。陳全教授對“Cloud for AI”和“AI for Cloud”進行了分享,前者強調云平臺對AI應用的支持,后者則利用AI技術提升云平臺的智能化水平。
陳全教授進一步指出,在Cloud for AI方面,隨著AI應用的普及,云平臺的負載逐漸從傳統的互聯網應用轉變為多樣化的AI應用。為了高效支持這些AI應用,云平臺需要滿足一系列新的需求:
l異構加速器管理:未來的AI負載將涉及多種計算模式,如稠密計算、動態計算和稀疏計算等,這要求云平臺能夠有效管理各種異構加速器(如GPU、NPU等),實現資源的隔離與共享。
l資源池化與共享:云平臺需要通過軟件定義的資源池化結構,實現資源的快速重新配置,以適應不斷演進的智能計算負載,同時解決池化后性能受損的問題。
l并行機制優化:針對AI的多種并行模式(數據并行、模型并行、流水線并行等),云平臺需根據硬件互聯拓撲選擇合適的并行方式,以提升整體性能。
l全局協同編排:在多個應用同時運行時,云平臺應通過混合動態的全局編排,提高平臺吞吐量,同時確保各應用性能不受損。
而在AI for Cloud方面,AI技術不僅服務于云平臺上的應用,還可以用于提升云平臺本身的智能化水平:
l細粒度資源管理:由于用戶往往難以準確預估應用所需的資源量,導致資源浪費和性能波動。通過AI技術,可以捕捉用戶資源需求的時空波動,實現更加細粒度的資源管控。
l資源用量預測與自動混合擴展:利用時間序列分析和多種AI模型,自動預測資源用量,選擇最佳模型進行資源調度,實現自動混合擴展,快速調整資源分配。
l效率提升與成本優化:通過AI技術,顯著降低調度開銷,減少調度數量40%,改善服務質量,降低典型應用延遲30%以上,節省20%-60%的整體系統資源分配。(數據來源于實驗室環境)
陳全教授還分享了上海交通大學與聯想智能云在智能云領域的合作成果,雙方通過產業界提供技術難題、學術界進行理論研究和原型設計的方式,共同推動智能云技術的發展。在“Cloud for AI”方面,雙方正在探索面向未來AI負載的云平臺形態,包括體系結構設計、加速器管理、并行機制優化等;在“AI for Cloud”方面,雙方合作使用AI技術進行超級細粒度的資源管理,提高資源使用效率。
陳全教授表示,“通過聯想智能云的平臺部署和持續反饋,團隊能夠不斷改進技術,實現AI與智能云的深度融合,為產業升級提供新的動力。”