説明
本資料では、クライアントエージェントとの通信でタイムアウトが発生する場合の対処について説明します。
クライアントエージェントとの通信でタイムアウトが発生する場合、アクティビティログには以下のようなエラーや警告が記録されます。
エラーコード | エラーメッセージ |
E3392 |
バックアップ サーバの TCP 再接続タイムアウトです。(エージェント=<ホスト名> @<IP アドレス>、ネットワーク エラー=XXXXX) |
E8535 |
エージェントからのデータ受信に失敗しました。(ノード=<ホスト名> @<IP アドレス>) |
W8535 |
エージェントからのデータ受信に失敗しました。(ノード=<ホスト名> @<IP アドレス>) |
また、その際にはメッセージのエラーコードあるいは TskJob ログやクライアントエージェントログの ec(error code) / rc(return code) として以下の Windows API エラーコードが記録されます。
エラーコード | エラー内容 |
10060 |
既存の接続はリモート ホストに強制的に切断されました。 |
10054 |
接続済みの呼び出し先が一定の時間を過ぎても正しく応答しなかったため、接続できませんでした。または接続済みのホストが応答しなかったため、確立された接続は失敗しました。 |
10053 |
確立された接続がホスト コンピューターのソウトウェアによって中止されました。 |
上記エラーコードはいずれも Arcserve Backup ホストサーバ側の処理とクライアントエージェント側処理の間の通信でタイムアウトが発生したことを意味しております。
エラーコードの違いは、通信のどちら側がタイムアウトを検出したかの違いとなりますので、通常は上記エラーコードの違いを気にする必要はありません。
これらのタイムアウトの発生にはいくつかの要因が考えられますので、その内容と対処について、要因を分けて説明いたします。
クライアントエージェント側の処理時間が延びることにより発生
クライアントエージェント側の処理の応答が規定時間内 (デフォルトでは 20 分間) に返らない場合には、Arcserve Backup サーバ側では 30 分間、クライアントエージェントとの再接続を試行します。
再接続試行中に接続ができた場合にはエラーとはなりませんが、再接続でもタイムアウトとなるとエラーとして記録されます。
本ケースは、クライアントエージェントの動作するサーバ側の処理負荷や対象データ量の増加等により処理時間が延びている場合などに発生します。
処理負荷やウィルス対策ソフトなどの影響の場合は、一過性の事象として突発的に発生する場合もあります。
[対処方法]
以下の Arcserve 社の技術情報を参考に、バックアップサーバおよびクライアントエージェント動作サーバの双方で、クライアントエージェントとの接続タイムアウト時間を変更します。
- バックアップ ジョブが E3392 (ネットワーク エラー=10060) で失敗する
- ※本資料ではエラー=10060 で説明されていますが、10054 でも対処策は同じとなります。
- ※基本的に ReceiveTimeOut、SendTimeOut の値はすべて統一してください。
- ※設定後にそれぞれサービスの再起動が必要になります。
バックアップサーバ側は Arcsrve Backup インストールフォルダにある cstop.bat、cstart.bat をご使用ください。
クライアント側は OS の管理ツールにある「サービス」で、「Arcserve Backup Universal Agent」(CA ARCserve Universal Agent) サービスを再起動してください。
また、ウィルス対策ソフトの影響で処理時間が延びる、またはバックアップ対象のアクセスが阻害ざれる場合もありますので、ウィルス対策ソフトの影響が懸念される場合は「
ウィルス対策ソフトの影響により発生」記載の対応をご検討ください。
なお、この値を伸ばすとタイムアウトとなるまでの時間も延長されますので、タイムアウトが発生すると延長した時間分だけジョブの終了時刻が遅くなることになります。
パケットサイズの影響により発生
上述の「
クライアントエージェント側の処理時間が延びる」場合に含まれますが、通信時のパケットサイズの影響で処理に時間を要している可能性もあります。
通信時間の影響が懸念される場合には、対処方法に記載されております技術情報をご確認のうえで、パケットサイズの変更をお試しください。
[対処方法]
以下の Arcserve 社の技術情報を参考に、パケットサイズの設定を変更することで改善するかをご確認ください。
なお、パケットサイズについては他の処理やネットワークの稼働状況などの環境に大きく影響されるため、どの値が適切なのかは環境により異なってきます。
パケットサイズを大きくして一度の転送量を増やすことで改善する場合ありますが、値を小さくして細かく通信を行うことで改善する場合もあります。
また他の要因で時間を要している場合は、値を変更しても効果が無い場合もあります。
そのためまず値を小さくして確認し、効果が得られない場合には値を大きくしてご確認ください。
クライアントエージェント側で処理が止まることにより発生
クライアントエージェント側の処理が止まることで発生する場合もあります。
Universal Agent サービスが停止している場合は、クライアントエージェント側の応答が得られないため通信がエラー=10060/10054 のタイムアウトになる、または通信が行えないことにより以下のようなエラーが記録される場合もあります。
エラーコード | エラーメッセージ |
E8572 |
Arcserve Backup エージェントがインストールされていないか、開始されていません。またはポートで受信待機するように設定されていません。(ノード=(ホスト名) @(IP アドレス)、ポート=6050) |
クライアントエージェント側の処理が停止している場合は Universal Agent を再起動する必要があります。
またバックアップの処理では、バックアップサーバ側ではジョブごとに asrunjob.exe (carunjob.exe) というプロセスを起動します。
バックアップサーバ側の要求に応じクライアントエージェント側でも、caagstart.exe というプロセスが起動します。
通常これらのプロセスは処理終了時に終了しますが、何らかの要因でこれらのプロセスが終了せずに残存するケースもあります。
これらのプロセスが残存している場合には、残存プロセスが阻害要因となり、それ以降の処理でそれらのプロセスが正常に動作しない場合があります。
また Agent for Virtual Machines では caagstart.exe の残存により AE0577/AE0580 などのエラーが発生する場合もあります。
エラーコード | エラーメッセージ |
AE0577 |
VM [(ホスト名)] (ESX/VC サーバ [(IP アドレス)] 上) の仮想マシン スナップショットを作成することに失敗しました。
詳細については、クライアント エージェント インストールディレクトリ下のログ フォルダ内にある ca_vcbpopulatedb.log を参照してください。 |
AE0580 |
仮想マシン [(ホスト名)] (ESX/VC サーバ [(IP アドレス)] 上) バックアップに失敗しました。詳細については、クライアントエージェント インストール ディレクトリ下のログ フォルダ内にあるバックアップ ジョブ ログを参照してください。 |
その場合は残存する asrunjob.exe (carunjob.exe) および caagstart.exe を強制終了します。
[対処方法]
- Universal Agent が停止している場合は以下の手順で起動します。
- バックアップサーバ側で、対象クライアントに対するジョブが動作していないことを確認します。
- スタートメニューの「Windows 管理ツール」から「サービス」を起動します。
- 「Arcserve Backup Universal Agent」の状態を確認します。
停止している場合は右クリックメニューから「起動」を行います。
- バックアッププロセスが残存する場合には以下の手順でプロセスを終了します。
- バックアップサーバ側で、対象クライアントに対するジョブが動作していないことを確認します。
- バックアップサーバおよび対象のクライアント側サーバでタスクマネージャを起動し、asrunjob.exe/carunjob.exe (バックアップサーバ側)、caagstart.exe (クライアント側) が存在しているか確認します。
- asrunjob.exe/carunjob.exe、caagstart.exe が残存している場合はタスクマネージャでタスクの終了を行います。
- ※タスクマネージャで強制終了できない場合は、サーバの再起動が必要となります。
クライアントエージェント側で caagstart.exe プロセスが残存することにより発生
上述の「
クライアントエージェント側で処理が止まる」場合に含まれますが、caagstart.exe プロセスが終了せずに残存すると、そのプロセスで通信ポートを確保した状態となってしまいます。
そのためこのプロセスが残存すると、ジョブ起動時に新たに起動された caagstart.exe プロセスでホストサーバ側の通知を受けることができず、通信がタイムアウトとなってしまいます。
caagstart.exe プロセスの残存につきましては、バックアップで使用しているユーザのログオフによりレジストリがアンロードされることで発生するケースが多数報告されております。
レジストリのアンロードは、ユーザがログオフされた場合に発生します。
しかしながら、なぜ実行ユーザがログオフしたのかに関しましては、Arcserve Backup 観点では判断することができません。一般的には、ユーザ操作や、その他のアプリケーションの処理が完了した際のログオフ処理など、要因は様々であるものと考えられます。
レジストリのアンロードに該当すると考えられる場合には、ログオフによりレジストリがアンロードされないようにする対処の実施をご検討ください。
[確認方法]
- caagstart.exe の残存しているクライアント側のサーバで「Windows 管理ツール」の「システム情報」を起動します。
- 「システム情報」の「ソフトウェアの環境」-「実行中のタスク」で、残存している caagstart.exe の「開始時刻」を確認します。
- Arcserve Backup サーバ側で該当時間帯に動作しているバックアップジョブについて、開始時刻と終了時刻を確認します。
- caagstart.exe の残存しているクライアント側のサーバで「Windows 管理ツール」の「イベント ビューアー」を起動します。
- 「イベント ビューアー」の「Windows ログ」-「Application」(アプリケーションイベントログ) で、該当バックアップジョブの動作している時間帯にレジストるのアンロードに関する記録が無いか確認します。
例)
Log Name: Application
Source: Microsoft-Windows-User Profiles Service
Event ID: 1530
Level: 情報
Description:
レジストリ ファイルは他のアプリケーションまたはサービスで使用されています。ファイルはすぐにアンロードされます。レジストリ ファイルを保持しているアプリケーションまたはサービスはこれ以降正しく機能しない可能性があります。ユーザー操作は必要ありません。
上記の様なレジストリのアンロードに関するイベントが記録されている場合は、レジストリのアンロードが施行されたものと判断できます。
また、以下の様なイベントが記録されている場合もレジストリのアンロードが行われたものと判断できます。
例)
Log Name: Application
Source: VSS
Event ID: 8193
Level: エラー
Description:
ボリューム シャドウ コピー サービス エラー: ルーチン CoCreateInstance の呼び出し中に予期しないエラーが発生しました。hr = 0x800703fa, 削除の対象としてマークされているレジストリ キーに対して無効な操作を実行しようとしました。
このメッセージに記載されている「0x800703fa」(レジストリ キーに対して無効な操作が試行されました) というエラーコードは、ログオフによりレジストリキーが強制的にアンロードされたため該当レジストリに対する操作が行えないことを意味するエラーコードです。
[対処方法]
- ログオフを実施しない
ジョブ実行中に実行ユーザのログオフが発生しますと、事象が再発する可能性があります。バックアップ対象サーバ側でバックアップ実行中に実行ユーザのログオフを実施されているようであれば、ジョブ実行中にはログオフが実施されないように対処してください。
- Windows OS のポリシー設定を変更する
レジストリがアンロードされないよう、Windows OS のポリシー設定を変更いただくことができます。
ただし設定の変更を行うとシステムに以下の様な影響をおよぼす可能性がありますのでご注意ください。
<ポリシー設定変更による影響>
- -移動ユーザープロファイルを使用している場合、設定の変更が正しく反映されない場合があります。
- -レジストリのアクセスが完了するまで待機するため、ログオフに時間がかかるようになり、場合によりウォッチドックタイマータイムアウトによって Stop エラーが発生する可能性があります。
上記のデメリットをご認識いただいたうえで、以下の Arcserve 社技術情報に記載の手順でポリシー設定の変更を実施ください。
VSS Writer の影響により発生
VSS Writer セッションやシステム状態のセッションで発生する場合、あるいはオープンファイルのバックアップ方式として「VSS を使用する」を指定している場合は、VSS Writer のエラーや VSS Writer の状態、VSS Writer の処理で時間を要するなどの要因により発生する場合もあります。
- ※バックアップ対象ノードの処理開始時にも、VSS Writer の使用可否を確認するために VSS/VSS Writer の処理が呼び出しますので、その際に発生する可能性もあります。
VSS Writer については Arcserve Backup で管理しているものではございませんので、VSS Writer の観点での確認が必要となります。
システム/アプリケーションイベントログで該当時間帯に VSS や VSS Writer のイベントが記録されていないかをご確認ください。
また、コマンドプロンプトで vssadmin list writers を行い、すべての VSS Writer の状態が「安定」となっているかをご確認ください。
[対処方法]
バックアップ対象サーバのイベントログに VSS/VSS Writer のエラーが記録されている場合は該当エラーへの対処を実施ください。
バックアップ対象サーバのイベントログで、タイムアウトとなっている処理の動作している時間帯を確認し、イベントログの「Description:」に記録されているメッセージに「0x800703fa」のエラーコードがある場合は、レジストリのアンロードが行われた影響と考えられます。その場合は「
クライアントエージェント側で caagstart.exe プロセスが残存することにより発生」の [対処方法] にあります「Windows OS のポリシー設定を変更する」の対応をご検討ください。
また、バックアップ対象サーバの vssadmin list writers で VSS Writer の状態が「安定」(正常な状態) となっていない場合は、以下のコンテンツを参考に、該当 VSS Writer の関連サービスの再起動を行うことで問題を回避できるかをご確認ください。
発生している他のエラーの影響により発生
他のエラーが報告されたあとに、その処理の延長上で記録される場合もあります。
Arcserve Backup の処理は、バックアップサーバ上のジョブの処理と、バックアップ対象上で動作するクライアントエージェント側の処理が非同期で動作しています。
バックアップサーバ上のジョブの処理では、クライアントエージェント側からのエラー通知を複数回受けることができるような作りとなっております。
そのためにクライアントエージェント側からエラーが通知された際に、追加のエラーが通知されないか待つように動作します。
クライアントエージェント側でエラー通知後に処理を終了するようなエラーの場合には、それ以降のエラー通知は発生しないため、バックアップサーバ側では既定のタイムアウト時間を待って再接続タイムアウトの記録と共に処理を打ち切る動作となります。
[対処方法]
タイムアウトのエラー記録の前に他のエラー記録がある場合には、先のエラーの影響でタイムアウトが記録されている可能性が高いです。
その場合は、先に記録されているエラーの対応を行うことでタイムアウトが発生しなくなるかをご確認ください。
自サーバの通信先が loopback IP アドレスとなっている影響により発生
Arcserve Backup では自サーバとの通信に、OS の提供する loopback 機能を使用していますが、その通信がエラーとなる場合があります。
タイムアウトの発生したエージェントの IP アドレスが localhost の loopback IP アドレス (127.0.0.1) となっている場合は、loopback IP アドレスの 127.0.0.1 でポート 6050/6051 が Listen となっていないために、通信ができずタイムアウトとなっている可能性があります。
そのような場合、Arcserve Backup 18.0 以降のバージョンでは、loopback IP アドレスの通信を行わないようにすることで回避できる可能性があります。
[対処方法]
Arcserve Backup 18.0 以降のバージョンの場合は、以下のコンテンツにある手順で loopback IP アドレスに通信を行わないように設定してご確認ください。
ネットワークの問題により発生
動作しているネットワークの問題の影響を受けて発生する場合もあります。
英語版情報ですが、Arcserve 社のコンテンツに以下の技術情報がありますので、こちらを参考に、ネットワークに環境に問題は無いかをご確認ください。
ファイアウォールなどで通信を制限されている環境では、以下の技術情報を参考にポート 6050/6051 が使用可能な状態となっているかをご確認ください。
[対処方法]
上記トラブルシューティングなどを参考に、ネットワーク環境に問題は無いかご確認ください。
通信ポートについて上記のポート 6050/6051 に問題がない場合には、制限されているすべての通信ポートについて一旦すべて開放しご確認いただく、あるいは実装ガイドに記載されておりますポートを開放しご確認ください。
例)
- ※ご使用の製品バージョンのマニュアルにて、同様の情報が記載されている章をご確認ください。
ウィルス対策ソフトの影響により発生
ウィルス対策ソフトの影響で処理時間が延びる、またはバックアップ対象のアクセスが阻害ざれることで発生する場合もあります。
[対処方法]
ウィルス対策ソフトの影響が懸念される場合には、以下の対応についてご検討ください。
補足/関連情報