北京2021年11月11日 /美通社/ -- 隨著新基建逐步發展落地,現代數據中心迅速崛起,數據量呈指數級增長,同時各種新存儲介質和技術的應用,使得存儲系統變得越來越復雜。在運維管理上,完全依賴人工已經不能滿足需求,企業將更多依靠人工智能進行自動化運維,Gartner認為AIOps的廣泛應用將讓IT基礎設施管理變得更主動、更具預測性,減少管理和停機成本。
存儲智能管理就是通過AI技術實現存儲自治,即自我管理、自我修復、自我調優,提高存儲系統的性能、穩定性和易用性,降低存儲使用的復雜性,簡化運維,使存儲設備永遠保持在最優運行狀態,加速數據在線。
近幾年,浪潮一直在致力于該方向研發和探索新特性,目前推出了智能管理軟件InView,包含了4個預測和2個自動化智能運維功能特性。四個預測分別為包括提前兩周識別風險磁盤,降低數據丟失風險;智能預測性能增長需求,預知性能瓶頸;智能預測容量增長需求,給用戶提供科學、準確的擴容建議;預測SSD使用壽命,精準到天。兩個自動化分別為性能瓶頸分析,通過端到端診斷分析,快速發現存儲性能瓶頸狀態,并能定位根因;性能自動調優,結合應用場景和用戶IO模型,自動挖掘最優的客戶端配置和存儲端配置,并主動推薦配置給需要的存儲系統和用戶。
為什么需要性能自動調優?
目前的存儲系統中具有大量的可調參數,以浪潮分布式存儲系統AS13000為例,系統軟硬組件多,內、外部參數多達兩千多個,且90%的參數為數值型和布爾型,參數的可調范圍非常大,修改這些參數往往會對系統性能產生不同的影響。通常默認的參數配置由供應商提供,這些參數值的組合一般都不是最優的參數集合。研究表明,即使調整一小部分的參數值,也可以將系統的能耗和性能效率提高數倍以上。
傳統的參數調整是由系統管理員依據自身的專業知識和經驗完成的,由于存儲系統的復雜性不斷提升,手動調參將較難適應大規模的存儲系統,并且人工調參具有無法全天候的監控以及高額的人力成本等問題。如何結合具體應用場景,在存儲默認配置和性能數據基礎上,自動挖掘最優的存儲配置,并主動推薦配置給需要的存儲系統,對存儲系統的性能優化具有重要意義。
浪潮存儲:基于InView性能自動調優技術,將帶寬提升41%、時延降低29%
在自動調優中,強化學習是一個非常好的解決方案,強化學習(RL)是機器學習的一個分支,涉及代理(agent)如何在當前環境下采取行動(action)以最大程度地獲得回報(reward)。與監督學習和無監督學習不同,強化學習通過試錯機制,與環境進行互動并獲得獎勵,從獎勵中進行學習。
關鍵算法采用的是2016年谷歌DeepMind提出的DDPG算法,算法包含Actor網絡和Critic網絡,其中Actor網絡可根據環境當前運行狀態輸出連續動作,Critic網絡可對當前環境運行狀態和實施的動作進行評估打分,兩者相結合,適用于高維連續動作場景。這是首次使用強化學習方法學習和推薦存儲系統參數。
浪潮智能管理軟件InView強化學習進行存儲系統參數調優整體包含三個模塊,分別是用戶的應用、分布式存儲系統AS13000以及調優模塊。其中,參數推薦引擎可根據浪潮分布式存儲AS13000的當前狀態生成最佳配置,負責將最佳配置動態下發給AS13000,AS13000負責響應客戶端的IO讀寫請求,性能指標采集器負責采集AS13000在新配置下的狀態信息并計算在新配置下的性能提升效果,深度學習引擎根據AS13000的反饋迭代更新Actor和Critic網絡。該過程迭代直到模型收斂,最終將找到最合適的參數設置。
浪潮InView性能自動調優系統具備端到端參數自動調整、提升網絡帶寬同時降低網絡時延、參數的調整不影響集群正常運行三大特點,具體實驗效果如下:橙色框中的前360步,模型隨機探索學習,紅色框為360步之后,模型自動推薦參數,相比默認配置(黑色框中的點),平均帶寬提升41%,時延降低29%,調優效果與性能專項組專家經驗相當。
隨著云、大數據、人工智能、區塊鏈、5G等新技術與實體經濟將加速融合,中國存儲市場未來5年復合增長率將達到8%,其中全閃存儲和分布式存儲將持續高速增長。浪潮存儲基于“云存智用 運籌新數據”的理念,將在包括分布式和集中式存儲的平臺及智能管理軟件領域持續加大投入與創新,釋放數據價值加速企業數字化轉型。