ページの先頭です。
ここから本文です。

技術情報

[SX-Aurora TSUBASA] InfiniBand HDR100 HCAが認識されない場合の対処方法

InfiniBand HDR100 HCAが搭載されている機種において、 まれにHCAが認識しない場合があります。
そのような現象が発生した場合の対処方法について説明します。

現象

    InfiniBand HDR100 HCAが搭載されている機種において、 電源投入後に、まれに、HCAが認識しない場合があります。

発生条件

モデル: SX-Aurora TSUBASA A311-4, A311-8, B300-8
(InfiniBand HDR100 HCAが搭載されている機種)
HCA Firmware version: 20.26.1040

対処方法

※以下のオペレーションはrootで実行してください。

1) InfiniBand HCAの認識状態の確認

    以下のコマンドでHCAが正しく認識されているかを確認します。
    # lspci | grep ConnectX-6
    1a:00.0 Infiniband controller: Mellanox Technologies MT28908 Family [ConnectX-6]
    3e:00.0 Infiniband controller: Mellanox Technologies MT28908 Family [ConnectX-6]
    
    正常に認識されている場合は、上記の例のように2枚のHCAの情報(2行)が表示されます。
    また、HCAの情報が表示されている場合でも下記の例のように"(rev ff),.. ..."と表示されている場合は、正しく認識できていません。
    (正しくHCAが認識できていない例: ←★のHCAが正しく認識されていません)
    # lspci | grep ConnectX-6
    1a:00.0 Infiniband controller: Mellanox Technologies MT28908 Family [ConnectX-6] (rev ff) (prog-if ff) ←★
    3e:00.0 Infiniband controller: Mellanox Technologies MT28908 Family [ConnectX-6]
    
    正常に認識されていない場合は、SX-Aurora TSUBASAを一度、shutdownし、電源OFFの状態から、起動してください。
    # halt -p
    
    ※本オプションで電源OFFの状態になります。
    再度電源をONにして、HCAが正しく認識されているかを確認します。
    本操作を何度か実行しても、HCAが正しく認識できない場合は、恐れ入りますが、サポート機関へ連絡して InfiniBand HDR100 HCAの交換作業を依頼してください。

2) HCAファームウェアバージョンの確認

    HCAが正しく認識できている場合は、HCAのファームウェアバージョンを確認します。
    # ibstat
    
    CA 'mlx5_0'
            CA type: MT4123
            Number of ports: 1
            Firmware version: 20.26.1040 ←★
            Hardware version: 0
            Node GUID: 0x98039b0300cbaffc
            System image GUID: 0x98039b0300cbaffc
            Port 1:
                    State: Active
                    Physical state: LinkUp
                    Rate: 100
                    Base lid: 484
                    LMC: 0
                    SM lid: 11
                    Capability mask: 0x2651e848
                    Port GUID: 0x98039b0300cbaffc
                    Link layer: InfiniBand
    CA 'mlx5_1'
            CA type: MT4123
            Number of ports: 1
            Firmware version: 20.26.1040 ←★
            Hardware version: 0
            Node GUID: 0x98039b0300cbb024
            System image GUID: 0x98039b0300cbb024
            Port 1:
                    State: Active
                    Physical state: LinkUp
                    Rate: 100
                    Base lid: 479
                    LMC: 0
                    SM lid: 11
                    Capability mask: 0x2651e848
                    Port GUID: 0x98039b0300cbb024
                    Link layer: InfiniBand
    
    HCAのファームウェアバージョン(←★の箇所)が"20.27.6008"未満の場合は、3) の手順でHCAファームウェアをアップデートします。
    なお、既にMellanox OFEDを適用する等を実施して、HCAのファームウェアバージョンが"20.27.6008"以上となっている場合は 、 HCAファームウエアのアップデートは必要ありません。Mellanox OFEDを適用後でもHCAファームウェアバージョンが"20.27.6008"未満 となっている場合は、HCAファームウエアをアップデートしてください。

3) HCAファームウェアのアップデート手順

  1. 以下のWebサイトから、HCAファームウェアをダウンロードします。
  2. https://www.mellanox.com/support/firmware/connectx6ib にアクセスして
    ConnectX-6 VPI/InfiniBand Firmware Download Center
    に表示されている
    "Arcive Versions" のタブをクリックして
    "Version(Archive)"の"20.27.6008"をクリック
    "OPN"の"MCX653105A-ECAT"をクリック
    "PSID"の"MT_0000000222"をクリック
    "fw-ConnectX6-rel-20_27_6008-MCX653105A-ECA_Ax-UEFI-14.20.25-FlexBoot-3.5.903"のリンクをクリックして、
    HCAファームウェアをダウンロードしてください。
    次に、SX-Aurora TSUBASA にダウンロードしたHCAファームウェアを転送してunzipコマンドで展開します。
    # unzip fw-ConnectX6-rel-20_27_6008-MCX653105A-ECA_Ax-UEFI-14.20.25-FlexBoot-3.5.903.bin.zip
    

  3. "mst start"を実行して"mst status"コマンドでHCAのデバイス名を確認してください。
  4. # mst start
    Starting MST (Mellanox Software Tools) driver set
    Loading MST PCI module - Success
    Loading MST PCI configuration module - Success
    Create devices
    Unloading MST PCI module (unused) - Success
    
    # mst status
    MST modules:
    ------------
        MST PCI module is not loaded
        MST PCI configuration module loaded
    
    MST devices:
    ------------
    /dev/mst/mt4123_pciconf0         - PCI configuration cycles access.
                                       domain:bus:dev.fn=0000:1a:00.0 addr.reg=88 data.reg=92
                                       Chip revision is: 00
    /dev/mst/mt4123_pciconf1         - PCI configuration cycles access.
                                       domain:bus:dev.fn=0000:3e:00.0 addr.reg=88 data.reg=92
                                       Chip revision is: 00
    
    ※"mst"コマンドは、Mellanox OFEDをインストールした後に使用可能となります。
     "mst"コマンドがインストールされていない場合は、先にMellanox OFEDをインストールしてください。

  5. "mlxfwmanager"コマンドでHCAファームウエアをアップデートしてください。このとき、認識されているHCAの枚数分アッ プデートを実施してください。
  6.   -d オプションには 2.で出力された"MST devices"のデバイスファイル("/dev/mst/mt4123_pciconf0"および、"/dev/mst/mt4123_pciconf1")を指定してください。
      -i オプションには適用するHCAファームウエアのイメージを指定してください。
    # mlxfwmanager -d /dev/mst/mt4123_pciconf0 -i fw-ConnectX6-rel-20_27_6008-MCX653105A-ECA_Ax-UEFI-14.20.25-FlexBoot-3.5.903.bin -u
    .
    .
    Perform FW update? [y/N]: y ← "y"を入力
    Device #1: Updating FW ...
    
    Restart needed for updates to take effect.
    
    # mlxfwmanager -d /dev/mst/mt4123_pciconf1 -i fw-ConnectX6-rel-20_27_6008-MCX653105A-ECA_Ax-UEFI-14.20.25-FlexBoot-3.5.903.bin -u
    .
    .
    Perform FW update? [y/N]: y ← "y"を入力
    Device #1: Updating FW ..
    
    Restart needed for updates to take effect.
    
    ※"mlxfwmanager"コマンドは、Mellanox OFEDをインストールした後に使用可能となります。
     "mlxfwmanager"コマンドがインストールされていない場合は、先にMellanox OFEDをインストールしてください。

  7. アップデートを適用後、SX-Aurora TSUBASAを再起動してください。
  8. # reboot
    
    再起動後、2.の手順で、HCAファームウエアのバージョンがアップデートされていることを確認してください。

製品名カテゴリ

SX-Aurora TSUBASA Software

関連情報

  • コンテンツID: 3140108117
  • 公開日: 2021年05月20日
  • 最終更新日:2021年05月20日

アンケート

サポート情報充実のためアンケートにご協力をお願いいたします。



コメント欄:
ここからページ共通メニューです。 ページ共通メニューを読み飛ばす。
ページ共通メニューここまで。