InfiniBand HDR100 HCAが搭載されている機種において、 まれにHCAが認識しない場合があります。
そのような現象が発生した場合の対処方法について説明します。
InfiniBand HDR100 HCAが搭載されている機種において、
電源投入後に、まれに、HCAが認識しない場合があります。
モデル: SX-Aurora TSUBASA A311-4, A311-8, B300-8
(InfiniBand HDR100 HCAが搭載されている機種)
HCA Firmware version: 20.26.1040
※以下のオペレーションはrootで実行してください。
1) InfiniBand HCAの認識状態の確認
以下のコマンドでHCAが正しく認識されているかを確認します。
# lspci | grep ConnectX-6
1a:00.0 Infiniband controller: Mellanox Technologies MT28908 Family [ConnectX-6]
3e:00.0 Infiniband controller: Mellanox Technologies MT28908 Family [ConnectX-6]
正常に認識されている場合は、上記の例のように2枚のHCAの情報(2行)が表示されます。
また、HCAの情報が表示されている場合でも下記の例のように"(rev ff),.. ..."と表示されている場合は、正しく認識できていません。
(正しくHCAが認識できていない例: ←★のHCAが正しく認識されていません)
# lspci | grep ConnectX-6
1a:00.0 Infiniband controller: Mellanox Technologies MT28908 Family [ConnectX-6] (rev ff) (prog-if ff) ←★
3e:00.0 Infiniband controller: Mellanox Technologies MT28908 Family [ConnectX-6]
正常に認識されていない場合は、SX-Aurora TSUBASAを一度、shutdownし、電源OFFの状態から、起動してください。
※本オプションで電源OFFの状態になります。
再度電源をONにして、HCAが正しく認識されているかを確認します。
本操作を何度か実行しても、HCAが正しく認識できない場合は、恐れ入りますが、サポート機関へ連絡して
InfiniBand HDR100 HCAの交換作業を依頼してください。
2) HCAファームウェアバージョンの確認
3) HCAファームウェアのアップデート手順
- 以下のWebサイトから、HCAファームウェアをダウンロードします。
https://www.mellanox.com/support/firmware/connectx6ib
にアクセスして
ConnectX-6 VPI/InfiniBand Firmware Download Center
に表示されている
"Arcive Versions" のタブをクリックして
"Version(Archive)"の"20.27.6008"をクリック
"OPN"の"MCX653105A-ECAT"をクリック
"PSID"の"MT_0000000222"をクリック
"fw-ConnectX6-rel-20_27_6008-MCX653105A-ECA_Ax-UEFI-14.20.25-FlexBoot-3.5.903"のリンクをクリックして、
HCAファームウェアをダウンロードしてください。
次に、SX-Aurora TSUBASA にダウンロードしたHCAファームウェアを転送してunzipコマンドで展開します。
# unzip fw-ConnectX6-rel-20_27_6008-MCX653105A-ECA_Ax-UEFI-14.20.25-FlexBoot-3.5.903.bin.zip
- "mst start"を実行して"mst status"コマンドでHCAのデバイス名を確認してください。
# mst start
Starting MST (Mellanox Software Tools) driver set
Loading MST PCI module - Success
Loading MST PCI configuration module - Success
Create devices
Unloading MST PCI module (unused) - Success
# mst status
MST modules:
------------
MST PCI module is not loaded
MST PCI configuration module loaded
MST devices:
------------
/dev/mst/mt4123_pciconf0 - PCI configuration cycles access.
domain:bus:dev.fn=0000:1a:00.0 addr.reg=88 data.reg=92
Chip revision is: 00
/dev/mst/mt4123_pciconf1 - PCI configuration cycles access.
domain:bus:dev.fn=0000:3e:00.0 addr.reg=88 data.reg=92
Chip revision is: 00
※"mst"コマンドは、Mellanox OFEDをインストールした後に使用可能となります。
"mst"コマンドがインストールされていない場合は、先にMellanox OFEDをインストールしてください。
- "mlxfwmanager"コマンドでHCAファームウエアをアップデートしてください。このとき、認識されているHCAの枚数分アッ プデートを実施してください。
-d オプションには 2.で出力された"MST devices"のデバイスファイル("/dev/mst/mt4123_pciconf0"および、"/dev/mst/mt4123_pciconf1")を指定してください。
-i オプションには適用するHCAファームウエアのイメージを指定してください。
# mlxfwmanager -d /dev/mst/mt4123_pciconf0 -i fw-ConnectX6-rel-20_27_6008-MCX653105A-ECA_Ax-UEFI-14.20.25-FlexBoot-3.5.903.bin -u
.
.
Perform FW update? [y/N]: y ← "y"を入力
Device #1: Updating FW ...
Restart needed for updates to take effect.
# mlxfwmanager -d /dev/mst/mt4123_pciconf1 -i fw-ConnectX6-rel-20_27_6008-MCX653105A-ECA_Ax-UEFI-14.20.25-FlexBoot-3.5.903.bin -u
.
.
Perform FW update? [y/N]: y ← "y"を入力
Device #1: Updating FW ..
Restart needed for updates to take effect.
※"mlxfwmanager"コマンドは、Mellanox OFEDをインストールした後に使用可能となります。
"mlxfwmanager"コマンドがインストールされていない場合は、先にMellanox OFEDをインストールしてください。
- アップデートを適用後、SX-Aurora TSUBASAを再起動してください。
再起動後、2.の手順で、HCAファームウエアのバージョンがアップデートされていることを確認してください。