歡迎來到上海監(jiān)控安裝公司網(wǎng)站!
您的位置: 上海監(jiān)控安裝 > 安防動(dòng)態(tài) > 安防百科 > 浦東網(wǎng)絡(luò)布線公司指出數(shù)據(jù)中心故障大多源自于人禍

安防動(dòng)態(tài)

浦東網(wǎng)絡(luò)布線公司指出數(shù)據(jù)中心故障大多源自于人禍

發(fā)布時(shí)間:2020-03-18 08:30:38   作者:上海監(jiān)控安裝公司

浦東網(wǎng)絡(luò)布線公司指出數(shù)據(jù)中心故障大多源自于人禍

數(shù)據(jù)中心出現(xiàn)故障在所難免,事后經(jīng)過分析大部分根因都是人為因素導(dǎo)致,也就是人禍占據(jù)了所有故障原因的七成以上。一方面人們享受著自己設(shè)計(jì)的數(shù)據(jù)中心所能帶來的工作和生活上的便利,另一方面也在承受著成長的煩惱,不斷為自己的過失買單。其實(shí)不僅在數(shù)據(jù)中心領(lǐng)域,縱觀上下數(shù)百年歷史,很多災(zāi)難都來自于人禍。


數(shù)據(jù)中心故障大多源自于人禍


  任何活動(dòng)只要有人的參與,就不可避免地存在出現(xiàn)人為差錯(cuò)的可能性,而機(jī)器出錯(cuò)的概率要比人低得多。遠(yuǎn)的不說,就在近期幾起重要的斷網(wǎng)事件都和人有關(guān)。2017年2月28日晚8點(diǎn)39分,百度移動(dòng)端搜索發(fā)生故障,搜索請(qǐng)求無法顯示結(jié)果,至晚9點(diǎn)21分恢復(fù),歷時(shí)42分鐘。故障期間導(dǎo)致手機(jī)用戶上億次的搜索受到影響。事后,工信部立即緊急約談百度公司,了解相關(guān)情況,要求互聯(lián)網(wǎng)公司日后盡量防止類似問題再次發(fā)生。故障源自于軟件更新中存在BUG(漏洞),導(dǎo)致服務(wù)器停止服務(wù)。在數(shù)據(jù)中心里運(yùn)行著大量的軟件系統(tǒng),不可避免存在軟件BUG,即使能夠達(dá)到CMM5級(jí)別的單位,其代碼缺陷率也不會(huì)低于千分之一,也就是一千行代碼里至少有一個(gè)BUG,那些擁有上千萬行代碼的軟件系統(tǒng),BUG量可想而知。當(dāng)然,一般人不會(huì)惡意在這些軟件系統(tǒng)中增加BUG,大多是在無意識(shí)、經(jīng)驗(yàn)不足、精力不集中等情況下造成的,但這就是人的因素導(dǎo)致的,說白了是人禍。這幾天,全球最大的公有云服務(wù)商亞馬遜的應(yīng)用服務(wù)出現(xiàn)持續(xù)數(shù)小時(shí)故障。


  故障起因是AWS S3(云存儲(chǔ))團(tuán)隊(duì)在進(jìn)行調(diào)試時(shí)輸入了一條錯(cuò)誤指令,本應(yīng)該將少部分的S3計(jì)費(fèi)流程服務(wù)器移除,可是最終意外地移去了大量的服務(wù)器,這一服務(wù)水平協(xié)議違約可能造成數(shù)百萬乃至數(shù)千萬美元的損失,這又是一例嚴(yán)重的人為故障?;叵肓藦?011年到現(xiàn)在亞馬遜出現(xiàn)了7次大規(guī)模的故障,大部分原因也都是來自人為。就在剛剛,微軟大量的Xbox、Skype和Outlook用戶抱怨他們的賬戶無法登錄,提示賬戶不存在,這又是一次影響全球的大規(guī)模登錄問題,雖然微軟還未公布原因,但已經(jīng)承認(rèn)存在問題,說不定又是人為因素導(dǎo)致的。所以,一旦有人為參與較多的數(shù)據(jù)中心時(shí),大多都不靠譜。 


  上海網(wǎng)絡(luò)布線公司對(duì)比無人值守的數(shù)據(jù)中心和有人數(shù)據(jù)中心,不難發(fā)現(xiàn),雖無人值守?cái)?shù)據(jù)中心擴(kuò)容業(yè)務(wù),安裝設(shè)備時(shí)經(jīng)常人手不夠,但整體運(yùn)行穩(wěn)定度要比有人的數(shù)據(jù)中心高得多,這些無人數(shù)據(jù)中心在首次業(yè)務(wù)上線之后,很少有人去修改或調(diào)整系統(tǒng)運(yùn)行的各種參數(shù),讓數(shù)據(jù)中心自己運(yùn)行,設(shè)備按照預(yù)定的程序指令運(yùn)行,很少出錯(cuò)。相反,在那些運(yùn)維人力強(qiáng)大的數(shù)據(jù)中心,經(jīng)常遇到這樣那樣的故障,多和人為因素有關(guān)。不少數(shù)據(jù)中心已經(jīng)意識(shí)到了這一點(diǎn),所以將數(shù)據(jù)中心的控制權(quán)放在技術(shù)實(shí)力最強(qiáng)的總部,輕易不做變更,如因業(yè)務(wù)部署需要做變更,變更手續(xù)和申請(qǐng)過程非常嚴(yán)格,經(jīng)常要經(jīng)過設(shè)備廠家的確認(rèn)、實(shí)驗(yàn)網(wǎng)模擬以及高層領(lǐng)導(dǎo)批準(zhǔn),再進(jìn)行充分的方案討論,最終才能去實(shí)施,這樣數(shù)據(jù)中心的業(yè)務(wù)運(yùn)行非常穩(wěn)定,少有出錯(cuò)。很多數(shù)據(jù)中心很喜歡軟件定義數(shù)據(jù)中心,就是希望可以通過軟件來統(tǒng)一控制和管理整個(gè)數(shù)據(jù)中心,將所有的控制權(quán)集中,由少數(shù)幾個(gè)技術(shù)實(shí)力雄厚的老專家控制,避免其它人胡亂改一通,引發(fā)一些未知故障。再或者直接將控制權(quán)交由軟件,將人的操作和方案交給軟件設(shè)備來執(zhí)行,設(shè)備出錯(cuò)的概率要比人小得多,由軟件自行管理整個(gè)數(shù)據(jù)中心,這樣不僅可以降低人力成本,還可以減少人為出錯(cuò)的概率。

  正所謂“成也蕭何,敗也蕭何”,人是數(shù)據(jù)中心活動(dòng)中的最重要因素,沒有人的參與哪里來的數(shù)據(jù)中心,而偏偏人也同時(shí)給數(shù)據(jù)中心帶來成長的煩惱。要想擁有一個(gè)運(yùn)營良好的數(shù)據(jù)中心,必須重視運(yùn)行系統(tǒng)或與系統(tǒng)交互的人。如果數(shù)據(jù)中心能投入時(shí)間在員工技術(shù)水平、培訓(xùn)、維護(hù)和運(yùn)營等方面做出謹(jǐn)慎決策,往往能夠避免多數(shù)災(zāi)難,讓數(shù)據(jù)中心長期穩(wěn)定運(yùn)行。很多針對(duì)數(shù)據(jù)中心發(fā)起的攻擊,都利用了人為的安全意識(shí)缺失而系統(tǒng)被攻破的。比如:2011年3月索尼公司遭黑,引發(fā)史上最嚴(yán)重的消費(fèi)者資料“泄露”事故,超過7000萬玩家的郵箱、密碼、信用卡號(hào)等資料遭竊取。泄露的原因是索尼負(fù)責(zé)信息安全的員工,他沒及時(shí)給跑著過期Apache Web server軟件的服務(wù)器打補(bǔ)丁,也沒有安裝防火墻,結(jié)果門戶大開,引狼入室,黑客輕而易舉地盜取了內(nèi)部數(shù)據(jù)。所以數(shù)據(jù)中心要通過有效的管理,規(guī)范的ITIL和IT服務(wù)實(shí)施,才能有效降低運(yùn)維中的人為隱患。數(shù)據(jù)中心管理針對(duì)的重點(diǎn)應(yīng)是人,而不是設(shè)備。


  不難看出,數(shù)據(jù)中心的故障大多源自于人禍。運(yùn)行中的數(shù)據(jù)中心,應(yīng)減少人為參與的機(jī)會(huì),要對(duì)人為行為進(jìn)行充分的管理和評(píng)估?!叭旨夹g(shù),七分管理”,大量的事實(shí)表明,數(shù)據(jù)中心的好與差評(píng)判標(biāo)準(zhǔn)都是由管理水平的高低所決定的,而管理主要就是針對(duì)運(yùn)維人的。加強(qiáng)運(yùn)維人員的管理,提升運(yùn)維人員的技能水平,才能減少人為犯錯(cuò)的機(jī)會(huì),避免產(chǎn)生人禍。數(shù)據(jù)中心是一個(gè)非常復(fù)雜的IT系統(tǒng),難免會(huì)出現(xiàn)這樣那樣的問題,從而引發(fā)故障,若能夠通過有效管理減少其中人禍部分的因素,將能有效提升數(shù)據(jù)中心的運(yùn)行穩(wěn)定性。



上一篇   返回首頁  打印  返回上頁  下一篇

成功案例