キレイ度とは

 このサイトでは,単位表面積あたりの天体の明るさをキレイ度としています。単位は[mag/arcsec^2]です。そして、下図が文献で示されているキレイ度と他の指標・観やすさの対応関係の一例です。

この図より、キレイ度が21.2を超えると天の川の複雑な構造が確認でき、星団などの観測も容易になると考えられます。

学習器の作成方法

 全国約400地点の教師データを用いて機械学習を行い、日本全土の星空のキレイ度を予測しました。予測方法として、機械学習の1種であるXGboostを用いています。

特徴量エンジニアリング

 特徴量とは、特徴を数値化したものを表します。例えば、”Aさんは身長が160センチメートル”の場合、”160センチメートル”が特徴量です。機械学習において、良い特徴量とは、データの特徴を強く反映したものです。下図に今回用いた特徴量の生データを示しています。

 NO2、標高データに大きな偏りがあり、星空のキレイ度を表すには弱い分布を示しています。そこで、分布の形を正規分布に近い形に変えることを考えました。この変換には、Box-Cox変換を用いました。

 xは変換したい変数、λは変換のパラメータで、λの値によって変換の関数形が異なります。

 NO2、標高データを変換した結果を以下に示しています。

 この変換をすることにより、キレイ度と各特徴量の相関係数は以下のように変化しました。

 そして、モデルに訓練データとテストデータを入れた結果、以下のようになりました。

 以上のように、過学習を抑えることができました。

予測精度

環境省(令和1年)のデータを用いて機械学習を行い、平成30年のデータにより精度を確認しました。予測値の誤差は、絶対平均誤差は0.4231、標準偏差は0.6317であり、決定係数は0.78615でした。