2345技术员联盟

助力IT外包网络维护专家避免和应对危机的五种方法

  • 来源:未知 原创
  • 时间:2018-06-24
  • 阅读:
  • 本文标签:

      IT運營(IT Ops)專業人員在企業中扮演三個關鍵角色:架構師、建築師、以及危急時刻顯身手的英雄人物。他們構思並幫助規劃數字化環境,構建支撐這些環境所需的基礎設施,處理尚未或已經演變成危機的問題。正如他們在Geico商業廣告中所說的那樣,這就是他們的工作。今天,我想重點講述IT運營工作中不可避免的調試活動,尤其是棘手的IT網絡危機防範與處理工作。恕我直言,根據本人在過去15年中積累的IT運營變更處理經驗,我認為IT專業人員在防範網絡危機以及處理既成事實的網絡危機時應切記以下幾點。


     1、哪些事物發生了改變?很多(大多數)危機是由於環境變化而引起的。在診斷問題時,最好能了解近期發生的其他環境變化。如果未能找到明顯的直接原因,請思考:近期發生的哪些變化有可能導致出現這個問題?這對於幫您解決無法洞悉全局的遠端問題特別有用。例如,如果服務器停止傳輸信息,首先要檢查服務器,確保其沒有掛起或關閉、硬盤容量未被耗盡、以及服務器是否正常連接到網絡等。如果確定服務器本身沒有問題,則應擴大搜索範圍,逐一排查最近發生變化的其他事物。如果是連接失敗。請檢查項目管理系統或變更日誌,以了解網絡上近期發生了哪些變化。無法連接到服務器的原因可能是路由器、交換機或防火墻配置錯誤所致,也可能是有人誤刪了服務器的DNS記錄或更改了路由路徑。問題也可能出現在任何其他地方,您所看到的只是表象,而非根源。


     2、通過做好計劃來避免連帶損失 — 意外發生的連帶問題會令人感到無比沮喪。例如,您出於安全考慮而對夜間數據傳輸進行加密,將其與現有服務器的硬件身份綁定在一起,因此,當您更換服務器硬件時,會因密鑰發生改變而導致夜間數據傳輸失敗,迫使您不得不啟用新更換的服務器。要想防範連帶損失,關鍵是要在做出任何變更之前做好功課,並盡可能多地找出相關功能。您應深入了解並找出任何相關功能,據此對變更方案做出必要的調整。


     3、使用變更檢查清單 — Atul Gawande在其所著的檢查清單註意事項:如何把事情做對一書中談到了如何使用檢查清單來幫助我們更正確、更安全、更可靠地傳遞信息。在執行變更任務時,IT運營專業人員經常會依靠記憶、培訓和本能來開展關鍵工作。這種情況下,如果順序不對或者跳過某些步驟,便會出現問題。我強烈建議您針對網絡變更使用檢查清單,以確保成功並規避危機。一份可靠的檢查清單能幫您合理規劃變更步驟並在變更過程中妥善開展這些工作。


      準備 – 實施變更之前需要做些什麽?需要關閉或調整哪些服務器或設備?需要通知誰?實施 — 在變更過程中必須開展哪些工作?需要修改哪些配置?開展驗證,以確定變更是否生效 - 您如何確定變更是否已生效?您應該查哪些項目?應該使用哪些數據開展驗證活動?應急程序 — 如果情況惡化,您應采取哪些牽制策略?您準備如何應對危機?恢復 — 您如何撤銷為實施變更而執行的準備操作?認真做好這步工作能幫您避免觸發另一個區域產生危機。檢查清單不一定要很長,只需全面、準確、實用即可。恕我直言,使用檢查清單乃是成功實施網絡變更的關鍵。


    4、遵循“逐一實施變更”的規則— 我個人的規則是:逐一實施重大網絡變更。這樣的話,即便出錯,也只是一次變更失敗,您也只會遇到一個危機。如果兩個或多個變更同時失敗,您將遭遇多重危機,此時的損失與逐一實施變更相比完全是另外一回事。您可能會認為只需停運部分網絡段便可同時實施多個變更,這種做法很誘人,但請不要做此嘗試,因為這是不值得去冒的風險。


   5、知道您所在的確切位置:位置意識 — 當IT專業人員因誤認為自己正在操控測試系統而疏忽大意,導致生產系統癱瘓時,就發生了最可怕的自我傷害。例如,IT經理在刷新QA數據庫時因登錄了錯誤的設備而意外清空了生產數據庫。您在使用遠程桌面程序時很有可能會在無意之中連接到錯誤設備,從而引發上述錯誤。因此,您在開始工作之前必須確保登錄了正確的設備,即使只是執行 hostname 命令等簡單的操作也不例外。如果您因此而避免了登錄錯誤設備執行操作,定會慶幸不已。以上幾點都是變更管理指南中未曾提到或一帶而過的實用性操作步驟。開展這些操作可幫您處理意外的IT運營危機或防止發生危機。


本文来自电脑技术网www.it892.com),转载本文请注明来源.
本文链接:http://www.it892.com/content/netbar/network/2018/0624/103609.html

无觅相关文章插件,快速提升流量