omniture

一区二区三区乱码国产在线_无码精品一区二区三区免费_日韩国产欧美一区二区三区_日韩欧美中文字幕一字不卡

脈山龍專家為鐵道部數據中心運維支招

2012-12-28 16:00 5856
從事數據中心運維服務近10年的專家、脈山龍公司服務業務部總經理謝飛針對鐵道部售票網“三天兩宕”提出了專業的見解和建議,從數據中心運維角度為12306支招。

鐵道部售票網12306“三天兩宕” 脈山龍數據中心運維專家支招

深圳2012年12月28日電 /美通社/ -- 繼12月24日“因機房空調系統故障”停止售票數小時之后,12月26日上午鐵道部12306訂票網站再度癱瘓,直到傍晚6點鐘左右才恢復正常,公告原因仍是“空調系統故障”。從事數據中心運維服務近10年的專家、脈山龍公司服務業務部總經理謝飛對此提出了專業的見解和建議,從數據中心運維角度為12306支招。

鐵道部售票網(www.12306.cn)“三天兩宕”,引發業界、媒體及網友質疑的同時,即將到來的春運購票高峰期更讓不少旅客憂心忡忡。空調故障是導致售票網站癱瘓的罪魁禍首嗎?為什么機房空調故障會導致網站售票系統無法正常運行呢?在現有技術架構下,如何能有效降低設備故障率,保障售票網站正常運行呢?從事數據中心運維服務近10年的專家脈山龍公司服務業務部總經理謝飛提出了專業的見解和建議,從數據中心運維角度為12306支招。

12306癱瘓原因解析:空調故障是造成系統癱瘓的重要因素

回顧12306歷次停擺事件,網站技術架構及中標的相關服務方都成為被外界質疑的熱點話題。數據中心運維整體服務商脈山龍公司服務業務部總經理謝飛認為,12306本質上與蘇寧易購、京東商城、淘寶網等電商網站一樣,對同時并發訪問和下單的響應要求極高,但鐵路售票系統需要處理大量車次、坐席、時間等查詢任務,對服務器請求處理的能力要求非常之高。在現有技術架構下,鐵道部為提高響應速度和購票體驗,不斷增加服務器等硬件設備和功耗無疑給既定的空調系統和動力系統帶來沉重的負擔,壓縮了動力系統和制冷系統冗余空間,可能一臺空調設備發生故障就會導致整個機房的溫度上升,最終導致服務器過熱而宕機。

謝飛表示,空調系統非常重要,數據中心內的服務器、存儲、網絡設備等硬件運行時產生大量的熱量,對于制冷的要求非常之高。國標對于機房的溫度要求一般在23±2度,一般的服務器如果進風口溫度在40攝氏度以上,服務器就會因為熱保護自動關機。如果機房溫度超過30攝氏度就有可能導致部分熱積聚區域的服務器宕機,機房溫度在35攝氏度以上就可能有較多的服務器宕機,超過40攝氏度,將會有大部分的服務器宕機。一旦空調故障停機,機房內的溫度會迅速升溫,半個小時內機房溫度就可達到50攝氏度以上,這時大部分服務器等設備都會因為過熱而宕機,造成系統癱瘓。空調故障是造成系統癱瘓的一個很重要的因素。

專家支招:災備是前提,運維管理是根本

數據中心常見故障如斷電、空調故障、UPS 故障、網絡接口線路松動等,空調故障可能只是造成12306宕機的一個原因,但一般數據中心都有備用空調、UPS 等設備,并輪流使用和定期保養,一旦遇到設備故障,可實現平滑無縫切換備用設備,不會影響系統正常運行。謝飛認為,12306這種支撐超大訪問量的數據中心應該也配有備用空調,“空調故障導致系統停止運行,極大可能是運維技術團隊對空調系統和數據中心的日常運維的缺位。”

同時,為保障業務的連續性,目前大部分企業的數據中心都設有災備中心,通常采用雙機熱備、定時備份以及異地存儲和備份的方式,尤其是金融行業已經開始引入虛擬化和云計算的新技術,形成“兩地三中心”的備份模式,能確保數據的安全。謝飛建議,如果12306業務均集中在一個數據中心處理,安全系數非常低,一定要考慮建設備份中心,進行數據的實時傳輸和容災備份,這是數據中心安全運行的前提。一旦主數據中心癱瘓,系統就可以實時切換到備份中心繼續運行。

他還建議,數據中心運維團隊應對監控報警系統進行測試和檢查,一旦機房空調系統故障導致機房內溫、濕度升高或設備出現溫度告警等異常現象時,還應執行機房空調故障應急處理預案,將影響降到較低。

有著豐富經驗的謝飛,作為脈山龍公司服務業務部負責人,目前掌管著包括金融、商業連鎖、通信電子、政府等行業上千家企業機構的數據中心運維服務業務。以他多年的運維經驗來看,備份和運維缺一不可,可以保障業務連續不中斷,但是,“即使采取各個層次的容災備份方式,建立了災備中心,運維服務管理仍然是問題的根本所在,良好的運維服務管理能使數據中心保持健康狀態,也只有服務管理才能防患未然、真正降低故障率。”謝飛提到本月中旬網傳中行信用卡 IBM 大機宕機超過4小時的事件,他指出盡管大型機一般都很穩定,但發生宕機或故障后,未能及時切換災備、快速恢復運行,還是跟系統監控檢查、監控預警、日常的運營演習、災備演習等日常運維存在很大關系。

建立在一系列標準運維流程基礎上的數據中心運維服務管理,可以跟蹤記錄設備的動態歷史運維數據,通過分析這些數據提供數據中心的健康狀態,為用戶的 IT 決策提供依據。“重視起服務的管理,12306可以實現數據中心各個子系統健康狀況的可視化,在設備還沒有出現故障之前,就已經及時進行了維修或更換,機房的可用性就能得到極大提升”,謝飛總結道,“T4的機房規劃還需要T4的運營管理。”

消息來源:深圳脈山龍
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發布全球互聯網、科技、媒體、通訊企業的經營動態、財報信息、企業并購消息。掃描二維碼,立即訂閱!
collection
主站蜘蛛池模板: 柘荣县| 云安县| 施秉县| 湘阴县| 舟曲县| 长垣县| 石景山区| 莱州市| 海口市| 进贤县| 茌平县| 苏尼特右旗| 大理市| 泾阳县| 凭祥市| 宁都县| 怀仁县| 潼南县| 监利县| 上栗县| 德阳市| 玛多县| 通化县| 渑池县| 澄城县| 瑞金市| 贡嘎县| 江山市| 若羌县| 故城县| 武冈市| 长治市| 饶阳县| 武强县| 廊坊市| 博客| 金溪县| 腾冲县| 德令哈市| 基隆市| 白山市|