オムロンサイニックエックス：生成AIをロボット制御に応用し「行為の7段階理論」を実装

Before

20～30年後の社会に必要な技術を研究するオムロンの研究開発子会社オムロンサイニックエックス（OSX）は、未来のロボット像を「自然言語で指示したタスクを正確にこなしてくれる、まさに『相棒』のような存在」と考えている。その実現には、生成AIの活用が欠かせない。

しかし、従来のロボット制御は、あらかじめプログラムされた動作パターンに従うものが主流であり、柔軟な状況判断や自然言語による指示への対応は極めて困難であった。人間が日常的に行うように「にんじんを短冊切りにして」と言われて即座に作業を開始するような、直感的で知的なロボットの実現は長年の夢であった。

AI導入内容

OSXのロボット制御に関する研究を指揮するシニアリサーチャー橋本敦史氏は、もともと料理を通じた人間の行動分析が専門であった。人間の思考をそのままAIで再現してロボットに実装するという型破りなアプローチで研究を進めている。

行為の7段階理論の応用

橋本氏が参考にしたのが、米国の認知科学者ドナルド・ノーマンが提唱した「行為の7段階理論」である。この理論では、人間の行為は以下の7段階の思考プロセスを経るとされる。

ゴールの形成
意図の形成
行為の詳細化
行為の実行
状況の知覚
状況の解釈
結果の評価

OSXは「7段階の思考を一つひとつ愚直に計算して乗り越えていくようなAIモデルを搭載すれば、どんなタスクでも動くロボットができるのではないか」という仮説の下、2021年11月に京都大学、東京工業大学、奈良先端科学技術大学院大学と共同で、自然言語による指示で動作するロボットアームの開発に着手した。

開発の関門：意図の形成

行為の7段階をロボットに実装するには、各段階で人間の思考を再現するアルゴリズムを構築しなければならない。差し当たって、OSXはロボットが動作を実行するまでの[1]～[4]に注力して開発を進めている。

特に関門となっているのが[2]「意図の形成」である。ユーザーから指示を受けたロボットは、映像などから取得した周辺環境の情報から「初期状態」を認識して、指示を実行した後の「目標状態」を推定する。料理の例で言えば、さまざまな食材や道具が置かれたキッチンの映像からにんじんを認識して、そのにんじんが短冊切りになった状態を推定する。

「人間とロボットが同じモノを同じ名前で呼べる状態でないと、指示がうまく伝わらない。そのため、言語でロボットを操作するためには意図の形成が最も重要な段階」（橋本氏）とのことである。

After

この研究は現在も進行中であり、生成AIの「生成以外に使う」応用の先進的事例として注目されている。橋本氏は「生成AIは生成以外に使うが王道」と語り、生成AIを単なる文章生成ツールではなく、ロボットの「頭脳」として活用することで、これまで不可能だった柔軟な物理世界での作業実行に挑んでいる。

この取り組みが成功すれば、工場や物流倉庫、家庭など様々な場所で、口頭やテキストの自然言語指示だけで複雑な作業をこなすロボットが実現する可能性がある。産業用ロボットのプログラミングの敷居を下げ、人間とロボットの協働を劇的に促進する技術基盤となることが期待されている。

OSXは学術機関との共同研究を通じて、理論と実装の両面から着実にステップを積み重ね、将来の「相棒型ロボット」の実現に向けて研究を継続している。