容量規(guī)劃
有效的監(jiān)控能夠避免絕大多數(shù)問題的擴大化,但是還是做不到防患于未然。監(jiān)控告警機制完善后,就需要著手考慮容量規(guī)劃(Capacity Planning)的問題。
所謂的容量規(guī)劃,也就是一個公司為了滿足商業(yè)目標的需求而決定生產(chǎn)能力的過程。俗語說,”人無遠慮,必有近憂”,容量規(guī)劃,需要的是”遠慮”。對應(yīng)到運維的工作上來,一方面是商業(yè)目標帶來的容量需求,一方面是針對相關(guān)歷史數(shù)據(jù)的分析帶來的預(yù)測。這里的歷史數(shù)據(jù),是需要運維團隊采集、整理的。(從這個角度上說),容量規(guī)劃是一個長期的過程。
相關(guān)的數(shù)據(jù)保存和圖表生成,基本上都會采用 RRDtool (http://oss.oetiker.ch/rrdtool/)來做。 RRDtool 也已經(jīng)是業(yè)界的事實上的標準,但畢竟 RRDtool 只能算是一套引擎。而規(guī)模化的數(shù)據(jù)管理工作則需要求助其它工具,則不能不提 Cacti (http://www.cacti.net/)這是現(xiàn)在相當通用的做法。老牌的 MRTG 已經(jīng)很少有人用了。
利用 Cacti,很容易得到一段時間內(nèi)某項數(shù)據(jù)指標的變化趨勢(比如網(wǎng)絡(luò)流量的增長趨勢、服務(wù)器負載的趨勢等)。這是運維過程中最主要的參考數(shù)據(jù)之一,缺乏此類數(shù)據(jù)而做決策是不可想象的。
如上圖,可以發(fā)現(xiàn)被監(jiān)控的服務(wù)器上進程數(shù)量半年內(nèi)的增長趨勢,在 2 月份間的進程數(shù)并不高(春節(jié)期間),隨后的幾個月突破 4000 個進程,對于普通的服務(wù)器來說,這是比較危險的。盡管當前系統(tǒng)運行可能比較平穩(wěn),但運維技術(shù)人員絕對有必要考慮中期解決方案。
容量規(guī)劃中的另外一個重要參考維度是 Web 訪問日志的趨勢圖。對于中小網(wǎng)站來說,Awstats 足以勝任,更大一點的規(guī)?;蚴菍y(tǒng)計要求更高的站點或許只能自己寫統(tǒng)計工具了,還沒聽說有什么針對大型網(wǎng)站而且性價比好的商業(yè)工具。這里筆者要強調(diào)一下的是,商業(yè)站點盡量不要用第三方的流量統(tǒng)計工具,這樣很容易泄漏比較關(guān)鍵的商業(yè)信息。
補充后記
容量規(guī)劃其實遠遠不止這些,比如應(yīng)用服務(wù)器容量規(guī)劃方面、數(shù)據(jù)庫容量規(guī)劃,主機容量規(guī)劃、存儲容量規(guī)劃等等,把整個架構(gòu)拆成各個組件,每個組件的容量規(guī)劃都是值得大書特書的一塊內(nèi)容。
另外一個關(guān)鍵點是團隊的”容量規(guī)劃”,團隊成長這一方面如果跟不上也很容易成為瓶頸。