hiroyuki_ikuta
2024年10月30日 18時11分
==========
製品型番:Armadillo-IoT G3
Debian/ABOSバージョン:
カーネルバージョン:Linux armadillo 4.9.133-at26 #2 SMP PREEMPT Tue Nov 22 18:15:08 JST 2022 armv7l GNU/Linux
3G/LTE モジュール情報 (Debianのみ):1.1.1
その他:
==========
客先にて15台ほどのArmadillo-IoT G3を稼働させているのですが、1台のみ、10月ごろから週に1~2回程度の頻度で停止してしまう現象が発生しており、原因究明が思うように進まないためアドバイスを頂けませんでしょうか。
まず、シャットダウンが発生した際のsyslogを確認すると以下の行が出力された後にシャットダウンがかかっていることが判明致しました。
このことから、異常高温による回路保護が直接原因であると考えて間違いないかと思います。
温度異常が発生する根本原因が掴めず、ご助言頂きたい次第です。
Oct 25 12:03:17 armadillo kernel: thermal thermal_zone1: critical temperature reached(105 C),shutting down
現場雰囲気については正確なところは分かりませんが、屋外制御盤内と伺っています。保証温度は70℃までだったかと思いますが、高温になるような現場ではないとのことでしたので、雰囲気が70℃に達していることはまずないかと思います。
正常稼働している時に以下のコマンドを実行し温度を確認すると50~60℃程度であることは確認できております。
cat /sys/class/thermal/thermal_zone1/temp
また、シャットダウンが発生したあたりのsyslogを追いかけても、特に兆候と思われるものは発見できておりません。
発生頻度については週に1~2回程度で、間隔はランダムであるものの、発生時間帯は決まって昼の12時前後のようです。
今のところ掴めている情報はこのくらいなのですが、異常高温が起こりがちな状況など、なんでも情報が頂ければ幸いです。
コメント
hiroyuki_ikuta
生田です。
ご助言ありがとうございます。
太陽の角度や天気まではあまり考慮に入れていませんでしたので、そのあたり踏まえて改めてお客様にヒアリングしましたが、関連低いとのお考えでした。
ログについてはさっそく開始してみます。
> また、問題が発生しているArmadilloはいつごろから稼働しているのかお教えいただけますでしょうか?
2024年3月ごろから稼働しております。
もうひとつ質問させてください。
「SoC内部の温度センサーなどが故障している」可能性を挙げていただきましたが、こちら確認する手段はありますでしょうか。
以上、何卒宜しくお願い致します。
at_shota.shimoyama
下山です。
SoC内部の温度センサーなどが故障していることを問題の個体単体で確認する手段はなく、
他のArmadilloと全く同一の環境・同一の計算負荷に晒した状態で温度センサー値に差がないかを検証するといった、
他の個体との比較のみになると思います。
> 太陽の角度や天気まではあまり考慮に入れていませんでしたので、そのあたり踏まえて改めてお客様にヒアリングしましたが、関連低いとのお考えでした。
そうでしたか。外的な要因でなく決まって12時ごろに発生するとなりますと、まずは温度のログ頼みになります。
温度のログを取得いただけますと幸いです。
よろしくお願いします。
at_shota.shimoyama
2024年10月31日 21時40分
下山です。
以上高温が起こりがちな状況は、
・環境的な要因
・制御盤内でArmadillo含め何かが強く発熱している
の2つに分かれると思います。
■環境的な要因
発生時間帯が決まって昼の12時前後とのことですので、気温のピークに近づいて屋外制御盤内の温度が高くなり異常高温になっているということがまず考えられます。
可能性は低いですが、季節によって太陽の方角が異なるため、10月になって屋外制御盤に直射日光が当たるようになったということも考えられると思います。
もしシャットダウンが発生したこれまでの日時が分かっている場合は、過去の天気と照らし合わせて関連性を調べれば
環境的な要因かそうでないかを切り分けられると思います。
■制御盤内でArmadillo含め何かが強く発熱している
Armadilloの場合であれば、
・計算負荷の大きい処理を実行してSoCが高温になっている
・SoC内部の温度センサーなどが故障している
といった可能性が考えられます。
どちらの要因においても、動作中の温度のログがあると原因特定が大変捗りますので、
問題発生しているArmadilloで10秒~1分おきに温度のログを取るプログラムを平行して実行させることを推奨いたします。
その際、thermal_zone1だけでなくthermal_zone0の方も記録するとなお良いです。
thermal_zone1はArmadilloのSoC内に存在する温度センサー値ですが、
thermal_zone0はArmadilloの基板縁側にあるBMIC内の温度センサー値です。
ですので、thermal_zone1よりは制御盤内雰囲気に近い値になります。
以上がご参考になれば幸いです。
また、問題が発生しているArmadilloはいつごろから稼働しているのかお教えいただけますでしょうか?
よろしくおねがいします。