故障狀況:Thecus NAS接連跳出硬碟告警
硬碟廠牌:Seagate
硬碟型號:ST2000524AS
事發經過
一家台灣連鎖企業總公司的Thecus NAS 資料伺服器,
一共用 8 顆 2 TB硬碟所組成 RAID 5,
某天 NAS 主機接連跳出硬碟告警,內部資料就無法讀取。
該客戶急急忙忙撥通電話給我們,
我們工程師直接到客戶機房查看 NAS LOG 相關資訊。
該 NAS 第 5 顆硬碟及第 8 顆硬碟在短短 60 分鐘時間接連 Offline。
而 RAID 5 僅容錯一顆硬碟故障,在短時間接連故障,這情況也是常見。
關於Thecus NAS
Thecus 是一家台灣本土公司,很早就專注研發 NAS 產品。
與 QNAP、Synology 一樣都是利用 Linux Kernel 為基底,打造自己的作業系統。
在全球各處皆有販售,也有提供技術客服中心。
產品與其他知名廠牌相同,硬碟必須自行購買裝上,要挑選官網所列出的硬碟型號。
Thecus NAS 資料救援方式
我們將機器及硬碟收回公司檢查,依照標準 SOP 檢測流程:
1. 針對每顆硬碟用 Clone 方式,將磁區完整的複製成 Image 至我們的 Temp Storage。
2. 針對亮故障的兩顆硬碟,接上硬碟檢測設備做檢查,發現該兩顆硬碟故障皆是讀寫頭異常導致故障。
3. 該兩顆硬碟品牌為 Seagate ST2000524AS,我們將這兩顆進行硬碟修復工作,也完成磁區的 Clone。
4. 將 8 顆硬碟 image 檔案進行 RAID 分析組合,Ext3 檔案系統修復,最終完成此案資料救援,客戶公司的 File Server 幾乎 100% 救回。
NAS建議RAID方式
因大多數 NAS 預設 RAID 模式為 RAID 5。
此案例在短時間發生故障,根本沒時間來得及更換硬碟 Rebuild,建議可以多增加 Spare 或者乾脆升至 RAID 6 等級,並且一定要設定告警機制,當發現硬碟有壞掉時,第一時間就通知管理者進行處理。
客戶心得
當時真的覺得要完蛋了,一次壞兩顆跟全壞沒什麼區別,一直被追著問伺服器連不上,資料不能讀、拿不到,16 TB的資料啊…。
還好有鉅亨,幫我們救回資料,推薦給大家。