InfiniBand HDR/HDR100 HCAが搭載されている機種において、
InfiniBandスイッチとの間でリンクアップしない場合がまれにあります。
そのような現象が発生した場合の対処方法について説明します。
InfiniBand HDR/HDR100 HCAが搭載されている機種において、
InfiniBandスイッチとの間でリンクアップしない場合がまれにあります。
モデル: SX-Aurora TSUBASA A311-2, A311-4, A311-8
(InfiniBand HDR/HDR100 HCAが搭載されている機種)
HCA Firmware version: 20.26.1040
※以下のオペレーションはrootで実行してください。
1) InfiniBand HCAのLink状態の確認
2) InfiniBand HCAのリセット方法
以下のコマンドを実行します。
# mst start
# mst status
MST modules:
------------
MST PCI module is not loaded
MST PCI configuration module loaded
MST devices:
------------
/dev/mst/mt4123_pciconf0 - PCI configuration cycles access.
domain:bus:dev.fn=0000:1a:00.0 addr.reg=88 data.reg=92
Chip revision is: 00
/dev/mst/mt4123_pciconf1 - PCI configuration cycles access.
domain:bus:dev.fn=0000:3e:00.0 addr.reg=88 data.reg=92
Chip revision is: 00
InfiniBand HCAのデバイス名が表示されます。
/dev/mst/mt4123_pciconf0 は mlx5_0、/dev/mst/mt4123_pciconf1 は mlx5_1 のデバイス名を示します。
次に"Polling"状態となっている InfiniBand HCAをリセットします。
(-d オプションにリセットするデバイス名を指定します。)
# mlxfwreset -d /dev/mst/mt4123_pciconf0 -s -l 3 reset
Requested reset level for device, /dev/mst/mt4123_pciconf0:
3: Driver restart and PCI reset
Continue with reset?[y/N] y ← "y"と入力します
-I- Sending Reset Command To Fw -Done
-I- Resetting PCI -Done
-I- Restarting MST -Done
-I- FW was loaded successfully.
30~120秒程度待ち、再度 InfiniBand HCAのLink状態を確認し、リセットしたHCAが "LinkUP"となっていることを確認します。
# ibstat
CA 'mlx5_0'
CA type: MT4123
Number of ports: 1
Firmware version: 20.26.1040
Hardware version: 0
Node GUID: 0x98039b0300cbaf9c
System image GUID: 0x98039b0300cbaf9c
Port 1:
State: Active
Physical state: LinkUp ←★
Rate: 100
Base lid: 276
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0x98039b0300cbaf9c
Link layer: InfiniBand
CA 'mlx5_1'
CA type: MT4123
Number of ports: 1
Firmware version: 20.26.1040
Hardware version: 0
Node GUID: 0xb8599f030000a654
System image GUID: 0xb8599f030000a654
Port 1:
State: Active
Physical state: LinkUp
Rate: 100
Base lid: 163
LMC: 0
SM lid: 1
Capability mask: 0x2651e848
Port GUID: 0xb8599f030000a654
Link layer: InfiniBand
VEのプロセスを一旦停止し、再起動します。
# /opt/nec/ve/sbin/terminate-all-ve-services
# /opt/nec/ve/sbin/start-all-ve-services