故障狀況:系統無法連線使用,讀不到SQL檔案
硬碟廠牌:IBM
硬碟型號:DS3500 Stoage
事發經過
2018 年春節完,
初六開工時鉅亨科技接到一通電話:
客戶說他們公文系統完全沒辦法連線使用,請公文系統廠商檢查後,
發現系統讀不到 SQL 檔案。
於是客戶著急尋求協助,
打了好幾家救援公司都請他們先送去檢查。
因客戶單位沒有專職 IT 人員,
也不曉得該如何將儲存系統送修。
我們了解客戶著急的心,
即使在外縣市我們也特地去現場了解狀況。
協助企業現場了解故障情形:
到了現場才終於明白:
為什麼客戶不知該如何將儲存系統送至其他救援公司檢查。
客戶有一座機櫃,
放了 6 台伺服器 + 2 台儲存系統。
這也難怪為什麼客戶不曉得要怎麼送修,
因為對 IT 架構不熟的人,
看到一堆機器實在是會讓人眼花頭暈。
我們到現場了解整個環境後,
(鉅亨科技有到場服務)
發現此次出問題的,
是 IBM DS3500 Storage。
共有 6 顆 600 GB SAS 硬碟,
其中已經有 3 顆不亮燈 or 亮紅燈。
於是我們立即將此設備關機,
將硬碟按照順序拆卸下來後,
運送回公司檢查狀況。
RAID檢查故障原因:
這個案例檢查後的結果如下:
5 顆硬碟建立 RAID5 + 1 顆硬碟為 Spare,
壞掉的 3 顆硬碟故障狀況為:
- 磁頭故障造成異音
- 電路板不過電造成硬碟無法啟動
- RAID 組態損毀
資料救援過程
我們依序將故障硬碟在 2 天內迅速修復,
並對每顆硬碟執行備份至良好硬碟上。
其中磁頭損壞的硬碟在備份過程並不順利,
我們工程師不斷的調整參數及更換零件,
才勉強將此顆硬碟磁區收集至完整。
接下來針對這些硬碟進行 RAID Config 修補及檔案系統修補,
順利將檔案恢復出來,裡面的 MS-SQL 皆能正常掛載。
檔案驗收
我們將救援出的檔案,
親自送到客戶端給客戶檢查,
因資料庫的檔案需要在匯入到系統上,
客戶的公文系統才能正常使用。
但客戶不懂怎麼匯入使用,
我們與他們公文系統廠商不斷的 con-call,
最後順利地將它們公文系統恢復正常使用。
整個單位運作皆正常,
完成此次資料救援的驗收。
後續IT環境規劃
因發現政府這個單位的 IT 架構還在使用傳統的實體機,這個方式稍顯過時,
需要升級。
雖然每台伺服器都有 RAID 機制來容錯硬碟,但其他零件若故障,
運行在上面的系統服務也會中斷。
因此我們提給單位建議,
可以朝虛擬化方向進行,
讓 IT 基礎環境更加完整。
客戶接受我們的提案,
我們導入了 VMware 虛擬化 + Netapp Storage 的解決方案。
從 server 端到 storage 端都是高可用性,
讓整體保護性大大提高,讓服務不中斷!
鉅亨科技除了資料救援以外,
也會配合客戶需求規劃打造出穩定的架構。
我們不只救資料,
更要教導我們客戶保護資料!
是使用 Dynamic Disk Pools (DDP),
容錯機制更高且 Rebuild 速度更快。
延伸閱讀:【必看】資料救援廠商全台服務推薦-鉅亨科技(電腦公司認證)
FAQ 整理:
用RAID存儲有什麼優點?
RAID即使有一顆硬碟損壞,系統仍能自動切換到備援資料、不會中斷運作,確保公文系統24小時不中斷、資料不遺失。
這對於政府單位來說至關重要,因為公文系統一旦停擺,整個單位的行政流程都會受到影響。
VMware 虛擬化有什麼好處?
能幫助企業節省成本、提升資源利用率、強化穩定性與安全性,同時簡化 IT 管理,降低災難復原難度,是現代 IT 基礎架構重要的核心技術。