ロバスト主成分分析は、大きな外れ値に対して頑健な低ランク行列近似手法です。通常の主成分分析は外れ値に大きく影響を受けますが、ロバスト主成分分析ではスパースな外れ値に対してはその大きさによらず、正確な低ランク近似が実現できます。ロバスト主成分分析を広く活用してもらうために、Pythonによるロバスト主成分分析モジュールを開発しました。また、計算コストを低減させるための新しいアルゴリズムを提案しました。
開発したロバスト主成分分析 in Pythonモジュールでは、元々は低ランクでありながら外れ値のために低ランク性が失われている行列Dを入力すると、その低ランク近似行列Aと外れ値行列Eを出力します(図)。観測データ行列に大きな外れ値が入っている場合に、低ランクのデータ行列と外れ値成分の分離が可能になります。さらに、本モジュールでは新しいアルゴリズムによる高速化を行っており、大規模行列に対しても効率よく計算を行えます。
本研究は認識クラウドエンジンの構築の一部として実施されています。この中でのアプリケーションとして、多様な光源下で観測された画像列からの鏡面反射の除去、及び三次元形状推定のためにロバスト主成分分析を活用しています。
ロバスト主成分分析は基礎的なツールであり、多様なアプリケーションがあります。例えば、「ユーザ」と「好み」をそれぞれ軸とするデータ行列が与えられた場合に、外れ値を取り除きながら主たる好みの分布を推定することができます。あるいは、データの可視化のためにデータを次元削減する際に、ロバスト主成分分析により外れ値に影響されにくい次元削減が可能になります。
研究開発プロジェクト | NEDO 次世代人工知能・ロボット中核技術開発の成果 |
研究機関 | 国立大学法人 大阪大学 [ 産総研からの再委託 ] |
主要研究者 | 松下 康之(産業技術総合研究所、大阪大学) |