ブース紹介 |
人と共に進化するAIシステムの基盤技術開発 |
1.デジタルツインを活用した人とロボットの協働支援システム
人とロボットが協調して業務を遂行する労働環境において、人の業務スキルを向上させ、かつ、ロボットの自律行動や人の支援行動を発展させることを目的とした、人とロボットのためのデジタルツインシステムを開発しました。具体例として、コンビニエンスストアでの従業員とサービスロボットの共同作業に焦点を当て、従業員の業務トレーニングと、ロボットの行動経験収集を同時に遂行できるシステムを構築しています。実際に、バーチャルリアリティを活用したデジタルツインによる業務トレーニングを体験して頂くことができます。
|
2.人の知識を予測に含む人ロボット協働の深層予測学習
物や人、ロボットの状態を補助知識として利用するロボット学習技術と、人とロボットの協調作業に対する活用事例を紹介します。この技術では、少数の実演から学んだ経験から、将来の行動を予測する模倣学習でロボットを訓練します。例えば、人が遠隔操縦でロボットを指導しながら、ロボットは人と共に棚組み立てなどの協働作業を行います。この経験から訓練されたロボットは、人の動きを認識し、認識に基づいた行動を学びながら、認識した情報を人へ意思表示することが可能になります。
|
3.背景知識を活用したもの探しナビゲーション
空間・人・もの・行為等の記号的表現を獲得するAIの構築を目指し、Object goal navigation(もの探し)というEmbodied AI(身体性AI)について研究しました。①ものとものの意味的・空間的関係性、②長期時系列情報や③ものと部屋の関係性などの背景知識を活用して効率的にものを探すナビゲーション手法を開発しました。開発したモデルは、複数の部屋を含む広範囲な屋内三次元シミュレーション環境において学習と検証を行い、移動ロボットに搭載してオフィス、アパートや民泊などの実環境で実証実験を行いました。
|
4.人ロボット協働による組み立て作業の自動計画
組立説明図から知識グラフを自動的に作成し,これに基づいて人にとって難しい作業とロボットにとって難しい作業を判別した上で,人とロボットの協働での組立作業を実現します.実験のビデオと,提案手法の内容を記したポスターの展示を行います.
|
5.人の作業状態を理解しテンポ音の提示により快適かつ生産的な作業へ導く生産システム
産業における人の手作業を、ロボットとの協調やコンピュータとのインタラクションを通じて、快適かつ生産的な作業に改善するシステムを開発しています。人を含む生産現場をサイバー空間で再現したデジタルツイン環境を活用し、作業中の人の負荷や生産性をリアルタイムで分析可能にします。また、音を用いた作業テンポの提示により、無意識の引き込みを通じてストレスのない形で作業に介入します。展示では、テンポ音提示による作業介入により人の作業が変化する様子を動画で説明します。
|
6.知識グラフと動画を融合した屋内日常生活空間の生活行動データ構築
人の生活の安全・安心に係る日常生活空間における人と AI の共進化を目指し、人間の生活エピソードを認識・理解できるAI フレームワークを構築する研究開発を実施しています。本展示では、人の行動と環境とのインタラクション情報を構成的に記述した知識グラフと動画を組み合わせたマルチモーダルデータの生成技術、および複雑なヒューマンマシンインタラクションのためのベンチマークとなるマルチモーダルデータセット、推論チャレンジ・コンペティションなどを紹介します。
|
7.生活エピソード認識にむけたマルチモーダル対話モデルの研究
私たち人間は、日常生活の中で、様々な行動をしています。例えば、リモコンでテレビを消す場合、テレビを消した前後で、リモコンを置く場所を無意識に変えていることがあります。将来ロボットが家庭で活躍するためには、これらの生活エピソードを詳しく認識することが必要です。またロボットと、音声対話だけでなく表情なども用いたインタラクションができると、より身近な存在に感じられると思います。この展示では、シミュレーション環境における日常生活行動のビデオに関して、ロボットが話すことができます。
|
8.知識グラフを活用した子ども・高齢者の傷害予防支援システム
日常生活の状況を、知識グラフをベースとして扱う基盤技術を、子どもや高齢者の生活安全に活用する技術について研究を行いました。展示では、高齢者の日常生活動画を中心とした生活安全に関するシステムである高齢者行動ライブラリと、子どもの事故を仮想空間上で可視化するシステムについてデモ動画などで紹介します。
|
9.人と協働して知識を生成・蓄積するAIフレームワーク
人間との相互作用を通じてドメイン知識を生成・蓄積して共に成長できるAIに関する研究成果を紹介します。この技術では、適用ドメインの専門知識に基づく判断根拠をAIが利用者へ提示し、利用者から学習モデルに対してドメイン知識に基づいて教示することが可能となります。展示では、病理診断分野を対象として、人とAIとが情報共有し、AIの精度改善や判定結果に関する解釈性の向上、類似画像検索機能など提供する仕組みについて説明します。
|
10.人と共に進化するAIにおける視覚的説明と言語的説明技術の基盤開発
データから学習する深層学習モデルは、学習データが不完全であるとそのモデルの汎化性能は低下するという問題があります。このようなモデルをより良くするには、完全なデータを作り学習することですが、時間とコストが問題となります。本研究では、人の知見をモデル(CNN, Vision Transformer)に組み込むことで、説明性が高くかつ汎化能力が高いモデルを構築する手法を開発しました。本展示では、人の知見の組み込む手法と、人の知見を組み込んだA Iモデルから、学習者がどのような領域に注目して判断すれば良いかを学習するアプリを紹介します。
|
11.マルチモーダル説明生成:ロボットから宇宙天気予報まで
太陽フレアが起こす磁気嵐は国家予算レベルの被害を及ぼす可能性があり(最大被害額は米国のみで1-2兆ドルと試算)、早期かつ正確な予測が被害軽減に不可欠です。我々が構築した手法は、世界で初めて専門家予測を超える性能を達成しました。さらに、2022年より実運用を開始し日々の予報業務に使用されています。また、マルチモーダル言語モデルの開発ではBLEU等の自動評価尺度を用いることが一般的ですが、自動評価尺度の多くは人間による評価との相関が低い(0.4程度)という問題があります。我々が構築した自動評価尺度は世界最高の性能・耐ハルシネーション性能を有します。本展示では、クロスモーダル説明生成および自動評価尺度に関して概説します。
|
12.状況を考慮してデータを解釈し情報伝達する人工知能
映像や数値などの非テキストデータを含む多様な入力を解釈し、実況生成などの言語生成や質問応答を行う技術の開発を行いました。データの解釈には外部知識が有用なため、知識グラフなどの外部知識との接続および知識グラフの構築や拡張のための技術開発も行いました。本展示では、開発技術の概要を説明し、応用としてゲームやスポーツおよび動画の実況生成システムの紹介、金融ドメインの知識グラフや言語生成システムおよび質問応答システムの紹介を行います。
|
容易に構築・導入できるAI技術の開発 |
13.数式ドリブン自動生成データセットに基づく事前学習モデル構築技術の開発
数式ドリブン教師あり学習(FDSL)は数式からAIが学習するために必要な教師・データのペアを自動生成することで、基礎的な認識能力を保有する学習済みモデルを構築可能です。画像認識においては、凡ゆる情景において人物や物体が収められた写真による実データを置き換えるポテンシャルがあります。本研究では、FDSLによる2次元画像や3次元空間、またはマルチモーダルデータにおける適用方法、産業応用の展開について紹介いたします。
|
14.動画像における柔軟な転移学習を実現する事前学習モデルの構築
アノテーション(教師付け)コストが静止画以上に大きい動画像データにおける柔軟な転移学習を可能とするために、大規模かつ多様なデータベースを利用して事前学習モデルを構築し、容易に動画認識技術を様々なドメインに適用可能とするための研究に取り組みました。複数の公開動画データベースを統合し活用した大規模モデルの学習や数式ドリブンのデータベースを用いた動画認識モデルの学習により柔軟な転移学習のための事前学習モデルを構築しています。展示では、本研究により構築したデータベースや事前学習モデルを用いた動画認識の転移学習事例についてご紹介します。
|
15.音響信号処理モデルの汎用化・適応化
音声認識や音声感情認識などの音声AIを容易に構築できるようにするために、日本語音声汎用基盤モデル(自己教師学習モデル)の構築・利活用の研究をしています。構築した基盤モデルを使うと、音声AIの適用先現場の限られた量の音声データで、大規模データを用いることなく、性能の良い音声AIを作ることができます。約60,000時間のテレビ放送録画データに含まれる感情豊かな音声を使って日本語音声汎用基盤モデルを構築し、その基盤モデルを利用して音声感情認識AIを開発しました。性能を評価したところ、少ない量のラベル付き日本語データの下であっても、性能の良い感情認識AIを構築できることがわかり、構築された日本語音声汎用基盤モデルの有用性が確認できました。
|
16.文章構造を理解する効率的な言語処理技術と医療特化型大規模言語モデル
本テーマでは、AIによる言語処理能力を高めるための研究を、①文章の構造や固有名詞をAIの言語学習へ組み込む技術、②単語ごとではなく文章全体を一括生成する効率的な生成、③医療分野に特化した大規模言語モデルの開発、の3点に注力して実施しました。展示では、①②を応用した高速な機械翻訳システムと③で開発した日中英の医療文献で学習した医療特化型チャットシステムのデモンストレーションを行います。
|
17.画像基盤モデルを活用した医療画像診断支援システム
データタイプに応じた医療向け汎用学習済みモデルの研究成果を報告するとともに、7月のプレスリリース「産総研の画像基盤モデルにより専門医レベルの膀胱内視鏡診断支援AIを開発」において発表した膀胱内視鏡画像診断支援システムのデモ展示を行います。また、取り組んでいる最新の診断支援タスクを簡易的に体験していただき、専門医やAIの診断精度との差を体験していただきます。
|
18.3D内視鏡技術と内視鏡映像データベースを組み合わせた内視鏡観察機能向上技術の研究開発
患部の大きさなど診断に有用な3D情報を取得するために、内視鏡映像を用いた3D計測技術を実現し、計測した実形状データやシミュレーションデータセットを用いて形状推定する3D推定学習モデルを開発しました。デモ展示では、試作した3D内視鏡および、診断支援に利用することを目指したVR提示の紹介を行います。
|
19.大規模な衛星・航空画像アーカイブを対象に物体・地物を識別するフレームワークの開発
人工衛星画像から容易にAIモデルを構築し、かつ実用に耐える精度を持つための条件を明らかにするため、複数の方式による数式ドリブンの合成データを事前学習に用い、人工衛星画像との相性を明らかにしました。また人間が目で見る可視光だけでなく、電波を観測に用いる合成開口レーダ(SAR)画像からもAIモデルを構築し、新しいキャリブレーション手法の開発、高精度な地物識別を実現しました。 本展示では人工衛星 x AIから得られた結果を表示するアプリケーションのデモンストレーションと、SARによる地物識別成果の紹介を行います。
|
20.視聴覚統合に基づく容易に構築できる音響シーン分析
発生した音イベントの「いつ」「どこで」「どんな」を分析する音響シーン分析は、計算機が周囲の状況や緊急事態を的確に把握するために不可欠な技術です。本研究では、視聴覚情報に基づく自己教師あり学習を応用することで、このようなAIを容易に実現する枠組みを構築してきました。構築した学習技術およびそのアプリケーションを展示します。
|
21.動作認識AIの効率的応用開発手法の研究開発
人の動作認識モデルを効率的に開発する手法の研究開発を行っています。既存の複数の動画データセットを統合したMetaVDとそれを用いたモデル構築方法の開発、および、自己教師あり学習の効率化手法などを開発しています。MetaVDと複数の学習済み動作認識モデルを基盤とし、ラベルなしの目的動画データを与えるだけで動作認識モデルを構築する方法について展示します。
|
22.事前学習言語モデルとネットワークモデルの融合に基づく科学技術トレンド予測
学際的分野における科学技術トレンドの検出に向けて、学術文献における引用情報と言語情報を融合させたモデルを開発しました。研究分野レベルで学術トレンドを把握・予測する取り組みとして、学術トピックの変遷過程を把握・予測し可視化する技術や、サーベイ論文を自動生成する技術の開発も行いました。これら開発した基盤技術をポスターとして展示します。
|
23.AI資源のリポジトリ化によるAIハブ構築技術
基盤モデルの再利用を容易にするため、モデルとデータを効率的に管理するプラットフォームを計算インフラ(ABCI)の上位サービスとして試験的に構築した研究開発成果について、デモを交えて紹介します。
|
24.大規模画像・言語モデルの事前学習
大規模画像・言語モデルの事前学習のための分散並列化・高速化技術を開発しています。二次最適化手法を用いることで非常に長時間の学習が必要になる大規模言語モデルの学習時間を短縮し、ハイパーパラメータ探索の時間も短縮しました。また、Llamaなどのオープンな大規模言語モデルから日本語の継続学習を行うことで、一から開発するのに比べて大幅に少ない計算資源で大規模言語モデルSwallowの学習を行うことができました。展示内容としては、これらの学習の様子や学習の結果できたモデルなどを紹介します。
|