Code Section

Tuesday, August 14, 2018

HPE Server 硬知識 - 透過 iLO 收集 AHS 資訊及使用 AHS Viewer Online 線上分析服務

<<前情提要>>
狸貓先生愛廢話講堂: HPE Server 硬知識 - 善用 iLO 找出機器的潛在問題
在上篇文章中,介紹可以使用 iLO 找出機器的問題,其中有一種是 Active Health System Log,可指定時間區段的所有資訊收集,收集完成會打包成 .ahs 檔案,但此檔案並不是人類可讀的格式,此篇文章是介紹如何使用 HPE Active Health System Viewer 線上分析服務,產生出詳細的檢查報告,來幫助我們瞭解機器的問題所在。

下圖為 Active Health System Log ↓ ↓
iLO Web >>> Information >>> Active Health System Log >>> Download
在 Active Health System Log 頁面,可以產生 AHS 檔案,在選擇時間區段後,按下 Download 會開始收集 AHS Log,壓縮後並透過瀏覽器下載,需要等待資訊收集及打包的時間。

<<進入正題>>
HPE 提供線上 Active Health System Log 協助分析平台,管理者可以將機器產生出來的 .ahs 檔案,上傳至 Active Health System Viewer Online 網站,要注意必須先註冊 HPE Passport 帳號,才能使用帳號登入來使用此平台,至於註冊帳號的流程就不在此篇文章贅述。

假設大家已註冊 HPE Passport 完成,輸入 User ID 及 Password 就能登入。
Active Health System Viewer Online

Active Health System Viewer Online 首頁,點選 Upload AHS Log 上傳電腦內的 .ahs 檔案。

上傳 AHS Log 之後,後端會做以下處理作業,從畫面上可以看到各段工作的處理進度:
Parse File:PreProcessing Data, Processing Data, Collating Data, Analyzing for Faults, Generating Output.
Load database:Configuration data, Build information, Fault Analysis data, PCI Information, Support Pack for ProLiant data, Periodic data, USB Information, Frame Link Module Information, Event data.

很重要請注意:AHS Online 會檢查產生此份 AHS Log 的 ProLiant Server 是否還在保固內。
若是已超過保固期的 ProLiant Server,會出現錯誤訊息:
Server is not Entitled. Please check these options for renewing your license.

原本 AHS Viewer 的錯誤訊息 Please check these options for renewing your license. 讓我不清楚它所的含意,但我實測上傳數台 ProLiant 的 AHS Log,發現 Warranty Status 必須是 Active 的機器才允許使用,所以這裡指的應該是你的伺服器保固已過期,若不確定的話可先用機器序號至 HPE Warranty Check 網站查詢。

保固查詢結果的範例如下,下圖為保固期限過期的 HPE DL380p Gen8。↓ ↓

AHS Online 分析完成後,會產生出線上報告可供管理者查看,接下來針對每項功能作簡單說明。

第一個分頁是 System Dashboard,它算是整個系統的元件概述,往下的功能會包含每個項目的詳細資訊。
System Dashboard 提供以下的元件描述及版本資訊:
System Board (主機板)、Processors (處理器)、Memory (記憶體)、
Power Supply (電源供應器)、Storage (RAID 卡及硬碟)、Networking (網路卡,這裡指的是安裝在 PCI-E Slot 的卡片)、
System BIOS、iLO。

第二個分頁是 Fault Detection Analytics,可看出是否有偵測到錯誤的分析,左邊可依需求選擇 AHS Log 內不同時段的 Boot Session (開機時間區段)。因為這台機器的 AHS Log 內並無錯誤發生,就無法展示範例給大家看囉。

第三個分頁是 Event Logs,應該與 iLO Event Log 看到的訊息是相同的,這裡省略 Information 訊息,僅列出 Caution 和 Warning 等級以上的錯誤訊息。

第四個分頁是 Drive and Firmware Inventory,可看到 System BIOS、iLO、卡片、硬碟…等各項元件的目前韌體版本,以及與目前 AHS Viewer 內的最新 SPP 2017.10 比對後,列出提供可作更新的版本,也可自行下拉調整想比對的 SPP 版本。

第五個分頁是 System Board Information,可看到主機板及 PCI-E 擴充卡片資訊。

第六個分頁是 Processor Information,可看到各個 CPU 的型號、運作時脈、最高時脈、核心數、Stepping (including processor family info)…等資訊。

第七個分頁是  Memory Information,可看到各插槽的記憶體 (Memory DIMM)的詳細資訊,包括容量、類別、速度、錯誤發生次數、Part Number…等。

第八個分頁是 Power Supply Information,可看到各個電源供應器的序號、料號、供電瓦數、以及耗電量的歷史曲線圖,可用來觀察機器長期的用電量趨勢。

第九個分頁是 Smart Array and Embedded SD Cards Information,依序可看到 Array Controller、Logical Drive、Physical Drive,每個區塊資訊如下:
Array Controller:RAID 卡的型號、韌體版本、授權金鑰、Super Cap (超級電容,用來維持快取電力,不致因機器意外斷電導致快取資料遺失)。
Logical Drive:RAID 種類、狀態、組成硬碟數、容量。
Physcal Drive:磁碟種類、容量、型號、韌體版本、序號。

第十個分頁是 Network Information,可看到 PCI-E 插槽的擴充網路卡資訊。

第十一個分頁是 OS Information,如果 OS 沒有透過 Intelligent Provisioning 安裝,或是非 HPE ProLiant 官方支援的 OS,這邊就會顯示 Unavailable。

第十二個分頁是 Thermal and Fan,可看到系統感測器的溫度歷程、臨界值的百分比、系統風扇的轉速百分比,可由溫度曲線及風扇最高運轉情況,來判斷是否有溫度異常發生。
(A) % Threshold:等級可選擇 Critical 或是 Caution。
(B)
% Threshold:溫度達到 Critical 或是 Caution 的百分比,數值要看左邊的 Y 軸 (圖上綠色箭頭標示)。
Inlet Temperature (℃):機體內所有感應器的感測溫度平均值,數值要看右邊的 Y 軸 (圖上藍色箭頭標示)。
Threshold:臨界值的比較線,標示出最大值 100 的位置 (圖上的橘線)。
(C) Fan Speed Information:該風扇在 AHS Log 收集時間區段內,風扇達到的最高轉速 (百分比)、最高轉速的發生時間。

第十三個分頁是 Create Support Case,此功能就是建立這台 ProLiant Server 的 Case,Server 型號、序號、貨號會由 AHS 資訊直帶入,聯絡資訊也會由 HPE Passport 資訊帶入,只需要填寫問題描述 (Problem Description)和註解說明 (Case Comments)。

透過 HPE Active Health System Viewer 線上分析服務,不僅可以幫助我們得知機器目前發生的故障、歷史事件、各元件的過往數據分析趨勢統計,更可以瞭解機器的硬體元件組成清單、各元件的品名、型號、序號、韌體版本…等資訊,而且上傳分析後的 AHS Log 報告也會留底 (不確定會保留多久),往後只要登入 HPE Passport 都可以再次查看,是個可以善加利用的 HPE 免費線上服務。往後也會再陸續介紹其他 HPE ProLiant Server 的好用工具,敬請期待!


<<參考資料>>
Active Health System Viewer Online (Needs HPE Passport Account)



<<附檔收錄>>
Active Health System Viewer 2.10 - HPE Support Center

No comments:

Post a Comment