yuki.shigefuji
2025年9月16日 15時39分
お世話になっております。armadilloを用いたAIカメラ機器をいくつか導入しているのですが、通信不良やいきなりの電源停止といった不具合が発生しております。
これらの改善方法、また同類の現象が今後起きた際の対応について検討しております。そこで下記事項についての見解を頂きたく存じます。
1. OSハングアップの原因について
OSがハングアップする典型的な原因として、どのような要因が考えられるか?
ハードウェア起因(SDカード障害、電源不安定、その他)の他に想定すべき要因はあるか?
同日に複数拠点で同一現象が発生することは、どのような要因で起こり得るか?
2. ログ取得・解析の仕組みについて
OSハング時でも記録が残るようなログ取得方法はあるか?
現在シスログの取得間隔を1時間としているが、短縮すべきか?
ログ肥大化を避けつつ、直前の状態を残せる方法(例:リングバッファ方式)は可能か?
3. 調査方法について
OSハングと電源断を切り分けるための具体的な調査手法は?
破損動画以外に、調査の手がかりとなり得るデータはあるか?
ハング直前のリソース状況を取得できる別の仕組み(監視ツールやハードウェア監視ログ等)はあるか?
4. ハードウェア要因について
SDカード使用率が58%程度でも、ハングに影響する可能性はあるか?
電源が接続され、緑ランプが点灯していても、電源トラブルが原因となる可能性はあるか?
コンセントの抜けかけや電流変動がハングの原因となり得るか?
5. 今後の対応について
今回のように停止理由が特定できないケースで、調査可能性を高めるための推奨対応は?
AIプログラムがコンテナ上で動作している場合、OSハング以外の異常を検出する仕組みはどのように設けるべきか?
御社(アットマーク)に調査を依頼する際、最低限提示すべき情報(ログ種類・取得状況・現象の詳細など)は何か?
以上、お手数をおかけしますがご確認よろしくお願い致します。