ページの先頭です。
ここから本文です。

技術情報

[SX-Aurora TSUBASA] HDR/HDR100 HCAがLinkUPとならない場合の対処方法

InfiniBand HDR/HDR100 HCAが搭載されている機種において、 InfiniBandスイッチとの間でリンクアップしない場合がまれにあります。
そのような現象が発生した場合の対処方法について説明します。

現象

    InfiniBand HDR/HDR100 HCAが搭載されている機種において、 InfiniBandスイッチとの間でリンクアップしない場合がまれにあります。

発生条件

モデル: SX-Aurora TSUBASA A311-2, A311-4, A311-8
(InfiniBand HDR/HDR100 HCAが搭載されている機種)
HCA Firmware version: 20.26.1040

対処方法

※以下のオペレーションはrootで実行してください。

1) InfiniBand HCAのLink状態の確認

    以下のコマンドでHCAのLink状態を確認します。
    # ibstat
    CA 'mlx5_0'
            CA type: MT4123
            Number of ports: 1
            Firmware version: 20.26.1040
            Hardware version: 0
            Node GUID: 0x98039b0300cbaf9c
            System image GUID: 0x98039b0300cbaf9c
            Port 1:
                    State: Down
                    Physical state: Polling ←★
                    Rate: 10
                    Base lid: 65535
                    LMC: 0
                    SM lid: 0
                    Capability mask: 0x2651e848
                    Port GUID: 0x98039b0300cbaf9c
                    Link layer: InfiniBand
    CA 'mlx5_1'
            CA type: MT4123
            Number of ports: 1
            Firmware version: 20.26.1040
            Hardware version: 0
            Node GUID: 0xb8599f030000a654
            System image GUID: 0xb8599f030000a654
            Port 1:
                    State: Active
                    Physical state: LinkUp
                    Rate: 100
                    Base lid: 163
                    LMC: 0
                    SM lid: 1
                    Capability mask: 0x2651e848
                    Port GUID: 0xb8599f030000a654
                    Link layer: InfiniBand
    

    搭載しているHCAのPhysical stateが"Polling"の状態のままとなり "LinkUp"の状態にならない場合は、以下の原因が考えられます。
  • サブネットマネージャがInfiniBandネットワーク上で起動されていない。
  • ケーブルが正しく接続されていない。

  • 上記の原因を取り除いても、"Polling"状態のままである場合、以下の2通りの回復方法があります。

    a. SX-Aurora TSUBASAを一度、shutdownし、電源OFFの状態から、起動する。
    b. InfiniBand HCAのリセットと、VEプロセスの再起動を行う。
    → 以下の 2) InfiniBand HCAのリセット方法をご参照ください。

2) InfiniBand HCAのリセット方法

    以下のコマンドを実行します。
    # mst start
    
    # mst status
    MST modules:
    ------------
        MST PCI module is not loaded
        MST PCI configuration module loaded
    
    MST devices:
    ------------
    /dev/mst/mt4123_pciconf0     - PCI configuration cycles access.
                                   domain:bus:dev.fn=0000:1a:00.0 addr.reg=88 data.reg=92
                                   Chip revision is: 00
    /dev/mst/mt4123_pciconf1     - PCI configuration cycles access.
                                   domain:bus:dev.fn=0000:3e:00.0 addr.reg=88 data.reg=92
                                   Chip revision is: 00
    

    InfiniBand HCAのデバイス名が表示されます。
    /dev/mst/mt4123_pciconf0 は mlx5_0、/dev/mst/mt4123_pciconf1 は mlx5_1 のデバイス名を示します。

    次に"Polling"状態となっている InfiniBand HCAをリセットします。
    (-d オプションにリセットするデバイス名を指定します。)
    # mlxfwreset -d /dev/mst/mt4123_pciconf0 -s -l 3 reset
    
    Requested reset level for device, /dev/mst/mt4123_pciconf0:
    
    3: Driver restart and PCI reset
    Continue with reset?[y/N] y ← "y"と入力します
    -I- Sending Reset Command To Fw         -Done
    -I- Resetting PCI                       -Done
    -I- Restarting MST                      -Done
    -I- FW was loaded successfully.
    
    30~120秒程度待ち、再度 InfiniBand HCAのLink状態を確認し、リセットしたHCAが "LinkUP"となっていることを確認します。
    # ibstat
    CA 'mlx5_0'
            CA type: MT4123
            Number of ports: 1
            Firmware version: 20.26.1040
            Hardware version: 0
            Node GUID: 0x98039b0300cbaf9c
            System image GUID: 0x98039b0300cbaf9c
            Port 1:
                    State: Active
                    Physical state: LinkUp ←★
                    Rate: 100
                    Base lid: 276
                    LMC: 0
                    SM lid: 1
                    Capability mask: 0x2651e848
                    Port GUID: 0x98039b0300cbaf9c
                    Link layer: InfiniBand
    CA 'mlx5_1'
            CA type: MT4123
            Number of ports: 1
            Firmware version: 20.26.1040
            Hardware version: 0
            Node GUID: 0xb8599f030000a654
            System image GUID: 0xb8599f030000a654
            Port 1:
                    State: Active
                    Physical state: LinkUp
                    Rate: 100
                    Base lid: 163
                    LMC: 0
                    SM lid: 1
                    Capability mask: 0x2651e848
                    Port GUID: 0xb8599f030000a654
                    Link layer: InfiniBand
    
    VEのプロセスを一旦停止し、再起動します。
    # /opt/nec/ve/sbin/terminate-all-ve-services
    # /opt/nec/ve/sbin/start-all-ve-services
    

製品名カテゴリ

SX-Aurora TSUBASA Software

関連情報

  • コンテンツID: 3140107319
  • 公開日: 2019年12月26日
  • 最終更新日:2019年12月26日

アンケート

サポート情報充実のためアンケートにご協力をお願いいたします。



コメント欄:
ここからページ共通メニューです。 ページ共通メニューを読み飛ばす。
ページ共通メニューここまで。