Code Section

Tuesday, August 7, 2018

HPE Server 硬知識 - 善用 iLO 找出機器的潛在問題

Integrated Lights-Out (iLO)是內建在 HPE ProLiant Server / Blade Server 主機板上的一顆伺服器管理晶片 (僅極少數型號低階伺服器無此晶片),提供可由遠端控制及監看伺服器的功能。透過 iLO 管理者可由遠端進行伺服器的設定、更新、監看、安裝、執行各項工作,因為 iLO 晶片是在硬體層級運作,即使空機未安裝作業系統、作業系統當機、伺服器處於電源關閉狀態,只要電源線有插著通電,使用者還是可以存取操作伺服器。

iLO 有幾種設定方式,較簡便方式是在伺服器開機過程中進行,其他設定方式在往後有機會再作介紹。只有第一次需要設定 iLO IP (預設模式為 DHCP),視需要可新增帳號、密碼、權限,設定完成後,管理者即可使用瀏覽器存取伺服器的 iLO 頁面,以有效率的方式來管理伺服器。

一般在查看 log 時 (包括其他種類的設備),每筆事件應該都會有發生時間記錄,如果要與其他設備交叉比對,同一時間點的發生事件,或是要釐清該事件的發生時間點,此時每個事件的發生時間正確與否,會大大的影響到我們的判斷。

所以 iLO 也是相同的道理,要將時間、時區調整正確,才會讓 log 的時間記錄是正確的,另外時區也很重要,不然每筆紀錄的時間就需要自行 +8 小時換算 (因為預設通常是 GMT+0 的時區)。
關於 iLO 的時間、時區、網路對時的調整方式說明如下:
(1) 時間:iLO 的介面內並沒有調整時間的功能,iLO 內的時間是在開機過程中會與 System ROM 同步,所以大家記得一拿到機器,開機時要進入 System ROM 設定正確的日期和時間。
(2) 時區/網路對時:雖然一開始時間調整正確,但日子一久後時間有可能會慢慢跑掉,所以開啟網路校時 (NTP/SNTP)也是很重要的,iLO 調整時間及網路對時是在同一視窗內設定。

下圖為 iLO 的時區及網路校時設定 ↓ ↓
iLO Web >>> Network >>> iLO Dedicated Network Port >>> SNTP
(依據機型及設定,選擇 iLO Dedicated Network Port 或 Shared Network Port)
✔ Propagate NTP Time to Host
Primary Time Server: <輸入你環境使用的 NTP Srever>
Time Zone: Asia/Taipei (GMT+08:00:00)

在 iLO 裡針對不同方向提供數種功能及事件紀錄,讓管理者能查看系統狀態及訊息,下段有各功能的圖片及說明:
(1) System Information
查看機器現在的各大類硬體元件是否正常運作,如果有問題的地方有可能顯示 Degraded (黃色)、Failed (紅色),可以依據發生問題的硬體類別,點選相對應類別查看較詳細的訊息。
(2) iLO Event Log
與 iLO 有關的事件,像是 login, logout, remote console start, remote console stop ...等,另外關於機器的開機、關機、重開、電源中斷、電源回復、內建 Flash 初始化…等事件,也都可以在這裡看到。
(3) Integrated Management Log
主機的硬體元件相關動作及訊息,像是 Power Supply, Drive Array, Disk Drive ...等,也會有關於硬體元件的錯誤訊息及原因描述,可查看之前發生過的歷史事件,例如:外部電力中斷、外部電力回復、硬碟無回應、硬碟故障、邏輯磁碟失敗... 等各種系統錯誤訊息,以釐清目前發生的故障是否為之前的事件所引發。
(4) Active Health System Log
提供指定時間區段的所有資訊收集,收集完成會打包成 .ahs 檔案,無法直接閱讀,但可登入 HPE Active Health System Viewer Online,上傳收集的 .ahs 檔案,平台分析後會產生詳細的報告,關於 Active Health System Log 之後會再開一篇文章,詳細介紹使用方式及報告的內容呈現。

下圖為 (1) System Information ↓ ↓
iLO Web >>> Information >>> System Information >> Summary 頁籤

順道一提,在 System Information 功能的 Firmware 頁籤,可以看到各個硬體元件的 firmware 版本資訊,當管理者在尋找某個硬體元件的版本可能會引發 bug 時,是個挺有效率的方法。
<注意>依據不同的 iLO 晶片版本,提供的資訊可能會有所差異,較舊型的 iLO 晶片提供資訊會較少。
下圖為各硬體元件的 Firmware 版本資訊 ↓ ↓

下圖為 (2) iLO Event Log ↓ ↓
iLO Web >>> Information >>> iLO Event Log

下圖為 (3) Integrated Management Log ↓ ↓
iLO Web >>> Information >>> Integrated Management Log

[A] 群組解說:
385 發生 Array 內有 Disk Drive 無反應。
386, 387 因陣列內的磁碟發生問題,造成 Logical Drive 失敗,但可能 Array 型態是 RAID 1 或 RAID 5,硬碟雖然故障但尚未造成資料損壞,因此事件燈號為黃色 Caution,需要管理者注意此事件。
388 確認 Disk Drive Failure,位置為 Bay 8, Box 0, Port 2I, Slot 0,硬碟故障對實體硬碟來說是緊急事件,因此事件燈號是紅色 Critical,需要管理者立即介入處理。

[B] 群組解說:
393 Power Supply 1 失去輸入電力來源,可能是市電中斷,或是人為誤觸電源線或開關。若是無 UPS 發生市電中斷,Power Supply 1 & 2 應該都會同時發生事件,依此事件來看並無此現象,因此推斷應該是人為失誤或是 Power Supply 1 發生故障。
394 Bay 1 電力供應來源失效,因為此台為 2 Power Supply 機種,因此事件燈號為黃色 Caution,需要管理者注意此事件。
395 與 393 的事件描述相同,但要注意 Severity 事件燈號為綠色 Repaired,表示此事件 395 為 393 的恢復事件,表示 Power Supply 1 電力來源回復正常。

下圖為 (4) Active Health System Log ↓ ↓
iLO Web >>> Information >>> Active Health System Log >>> Download
在 Active Health System Log 頁面,可以產生 AHS 檔案,在選擇時間區段後,按下 Download 會開始收集 AHS Log,壓縮後並透過瀏覽器下載,需要一些等待時間。


<<參考資料>>



Active Health System Viewer Online (Needs HPE Passport Account)


〈本文同步刊載於痞客邦部落格〉
HPE Server 硬知識 - 善用 iLO 找出機器的潛在問題 @ 狸貓先生愛廢話講堂 :: 痞客邦 ::

No comments:

Post a Comment