この投稿は、vExperts Advent Calendar 2024 の 20 日目です。
今回は VMware Skyline Health Diagnostics (以降、SHD) を利用したプロアクティブな問題対処について、共有したいと思います。
SHD とは?
SHD は、VMware 環境における問題検出およびトラブルシューティングを支援する診断ツールです。
SHD はログバンドルや構成情報などのデータより、潜在的な問題を特定し、関連する KB などの有益な情報を提示してくれます。
その情報より、逸早く問題の把握・対処ができるため、VMware 環境の安定運用に非常に役立つものとなります。
また導入自体も、vCenter、ESXi などの管理系ネットワークに SHD (仮想アプライアンス) をデプロイするのみで、とても簡単に使い始めることが可能です。
イメージ図
本記事では、テスト用 VCF の Workload Domain の vSphere 環境を SHD で診断し、潜在的な問題の特定および対処する一連の流れをご紹介したいと思います。
SHD のデプロイ方法については割愛しますので、詳細についてはこちらのドキュメントをご参照ください。
また、今月リリースされた 4.0.7 バージョンにおきましては、Log Assist 機能も復活していますので、その内容についても末尾に簡単に触れたいと思います。
流れ
- 診断の実行
- 診断の結果
- 診断の対処
- 診断の再実行
- Log Assist
1.診断の実行
“https:// SHD の FQDN または IP アドレス” にて、SHD のコンソール画面へアクセスし、shd-admin (デフォルト) ユーザーでログインします。
すると、下記の通り SHD の Web コンソール画面が表示されますので、[+ NEW ANALYSIS] ボタンをクリックします。
診断する製品および内容の選択画面がポップアップされます。
本記事では、”VMware vSphere 製品の Proactive Findings” の診断内容で実施します。
対象となる vCenter サーバーのアカウント情報を入力後、[CONNECT] ボタンをクリック
インベントリの選択画面に遷移されますので、対象の vCenter / ESXi を選択後、次へ
必要に応じて Profile Details を設定 (本記事では、デフォルトのまま次へ)
最終確認後、[RUN] ボタンにて診断を実行
2.診断の結果
SHD Web コンソールの Tasks 箇所より、[SHOW REPORT] ボタンをクリック
下記の通り、診断結果が表示されます。
今回のテストでは、ESXi における bnxtnet driver 関連の潜在的な問題があり、解決方法として関連する KB.93580 が提示されることが確認できました。
3.診断の対処
3-1.提示された KB 確認
Virtual Machines(VMs) suddenly lose connectivity to all or some network destinations. Pings to those addresses fail.
https://knowledge.broadcom.com/external/article/338064
急に VM のネットワーク通信断が発生しそうな内容の KB であり、bnxtnet driver のバージョン 226.0.145.4 以降で修正されていることが確認できますので、対処方法として該当ドライバーをアップデートします。
3-2.対象 ESXi における現行の bnxtnet driver 情報確認
対象 ESXi へ root アカウントにて SSH 接続後、下記 esxcli コマンドにて現行のドライバーバージョンなどを確認
[root@esxi06:~] esxcli software vib list | grep bnxt
bnxtnet 225.0.4.0-8vmw.802.0.0.22380479 VMW VMwareCertified 2024-05-06 host
bnxtroce 225.0.4.0-8vmw.802.0.0.22380479 VMW VMwareCertified 2024-05-06 host
[root@esxi06:~] esxcli software vib get -n bnxtnet
VMW_bootbank_bnxtnet_225.0.4.0-8vmw.802.0.0.22380479
Name: bnxtnet
Version: 225.0.4.0-8vmw.802.0.0.22380479
Type: bootbank
Vendor: VMW
Acceptance Level: VMwareCertified
Summary: VMware Esx VIB
Description: Broadcom NetXtreme-C/E VMKAPI Ethernet driver for VMware ESXi
ReferenceURLs:
Creation Date: 2023-09-04
Depends: vmkapi_2_12_0_0
Conflicts:
Replaces:
Provides:
Maintenance Mode Required: True
Hardware Platforms Required:
Live Install Allowed: False
Live Remove Allowed: False
Stateless Ready: True
Overlay: False
Tags: RestrictStickyFiles, ...以降省略...
3-3.bnxtnet driver の入手
該当 bnxtnet driver は、Broadcom Support Portal より入手可能です。
詳細については、こちらの KB をご参照ください。
ダウンロードした bnxtnet driver は、WinSCP などを利用して、対象 ESXi 上にアップロードしておきます。
本記事では、下記ファイルを入手しました。
・ダウンロードしたファイル名:
Broadcom-bnxt-Net-RoCE_227.0.234.0-1OEM.700.1.0.15843807_22395513-package.zip
・実際アップデートを実施したファイル名 :
(上記ダウンロードした package ファイル中にあり、このファイルを対象 ESXi の /tmp 配下にアップロードします。)
Broadcom-bnxt-Net-RoCE_227.0.234.0-1OEM.700.1.0.15843807_22395513.zip
3-4.対象 ESXi をメンテナンスモードへ
対象 ESXi 上で稼働中の VMs を別の ESXi へ移行した後、メンテナンスモードへの切り替えを実施します。メンテナンスモードへの切り替えは vSphere Client からもちろん、ESXi 上の下記コマンドにても操作可能です。
### メンテナンスモードへの切り替え前 ###
[root@esxi06:~] vim-cmd /hostsvc/hostsummary | grep inMaintenanceMode
inMaintenanceMode = false,
### メンテナンスモードへの切り替え実施 ###
[root@esxi06:~] vim-cmd /hostsvc/maintenance_mode_enter
### メンテナンスモードへの切り替え後 ###
[root@esxi06:~] vim-cmd /hostsvc/hostsummary | grep inMaintenanceMode
inMaintenanceMode = true,
3-5.bnxtnet driver アップデート
下記コマンドにて bnxtnet driver をアップデートします。
### bnxtnet driver アップデート実施 ###
[root@esxi06:~] esxcli software vib update -d "/tmp/Broadcom-bnxt-Net-RoCE_227.0.234.0-1OEM.700.1.0.15843807_22395513.zip"
Installation Result
Message: The update completed successfully, but the system needs to be rebooted for the changes to be effective.
VIBs Installed: BCM_bootbank_bnxtnet_227.0.134.0-1OEM.700.1.0.15843807, BCM_bootbank_bnxtroce_227.0.134.0-1OEM.700.1.0.15843807
VIBs Removed: VMW_bootbank_bnxtnet_225.0.4.0-8vmw.802.0.0.22380479, VMW_bootbank_bnxtroce_225.0.4.0-8vmw.802.0.0.22380479
VIBs Skipped:
Reboot Required: true
DPU Results:
### ESXi の再起動を実施 ###
[root@esxi06:~] reboot
ESXi の再起動後、SSH サービスが停止している場合がありますので、
もし SSH 接続できない場合は、下記箇所より SSH サービスを起動してください。
・vSphere Client > ホストおよびクラスタ > 対象 ESXi > 構成 > システム (サービス) > SSH 選択後、[起動]
3-6.対象 ESXi をメンテナンスモードの終了へ
下記コマンドにて bnxtnet driver がアップデートされていることを確認し、ESXi のメンテナンスモードを終了します。
### bnxtnet driver のアップデート状態確認 ###
[root@esxi06:~] esxcli software vib list | grep bnxt
bnxtnet 227.0.134.0-1OEM.700.1.0.15843807 BCM VMwareCertified 2024-12-20 host
bnxtroce 227.0.134.0-1OEM.700.1.0.15843807 BCM VMwareCertified 2024-12-20 host
### メンテナンスモードの終了 ###
[root@esxi06:~] vim-cmd /hostsvc/maintenance_mode_exit
### メンテナンスモードの終了後 ###
[root@esxi06:~] vim-cmd /hostsvc/hostsummary | grep inMaintenanceMode
inMaintenanceMode = false,
4.診断の再実行
上記 1 の手順にて診断を再実行し、bnxtnet driver アップデートにより潜在的な問題が対処できたことを確認します。(本記事では、esxi06 に潜在的な問題が “0” であることを確認済)
5.Log Assist
以前 VMware Skyline Advisor service (EoL : 2024.10.4) で、VMware のサポートへ vSphere 製品などのサポートバンドルを簡単に提供可能な機能がありました。
なんとその便利な機能が、最近 SHD 4.0.7 バージョンに追加されましたので、共有したい思います。
Log Assist を利用するためには、下記の通り SHD の Web コンソール画面上で、[+ LOG ASSIST] ボタンをクリックします。
製品の選択画面がポップアップされます。
現時点で指定可能な製品は “VMware vSphere と SDDC Manager” となっています。
この後は、上記 1 の手順にて紹介した vCenter への接続設定およびインベントリの vCenter / ESXi 選択画面が表示されますので、ここでは割愛します。
その後は、下記の通り Support Case Details 画面が表示されます。
VMware サポートへケース起票してお問い合わせ中の場合、本画面にて関連情報を入力することで、簡単にサポートバンドル提供が可能となります。
項目 | 入力内容 |
Server | supportftp.broadcom.com (デフォルト表示) |
Broadcom User Name | Broadcom Support Portal のログインユーザー名 |
Broadcom Password | Broadcom Support Portal のログインユーザーのパスワード |
Party Site Number | Site ID |
Support Case ID | Case ID (お問い合わせ中のケース ID) |
以上、SHD を利用したプロアクティブな問題対処について、一例として潜在的な問題の特定および対処する一連の流れで共有させていただきました。
本記事が、vSphere 基盤などの安定運用を検討中の方に、少しでもお役に立てれば嬉しいです。
明日の Advent Calendar は、yuki さんです。
vExperts Advent Calendar 2024
[参考情報]
Docs :
VMware Skyline Health Diagnostics 4.0.7 Release Notes
Diagnostic Checks and Input Requirements for vSphere Related Analysis
Initiating Log Transfer to Broadcom Support using Log Assist
KB :
VMs experience full or partial loss of network connectivity on ESXi hosts using certain versions of bnxtnet drivers
Finding IO Drivers in the Broadcom Support Portal
“esxcli software vib” commands to patch an ESXi 6.x/7.x/8.x host
VMware Skyline Frequently Asked Questions
VMware Skyline Health Diagnostics for vSphere – FAQ
[RELEASE NOTES] VMware Skyline Health Diagnostics 4.0.7 Release Notes