AI研究
AIが「見る」「話す」を「行動」に変える新技術「RT-2」発表
2025/10/3 9:09:53
•DeepMind Blog当サイトではアフィリエイトプログラムを利用して商品を紹介しています。
Google DeepMindは、視覚と自然言語の情報を基にロボットに指示を出すAIモデル「RT-2」を発表しました。 このRT-2は、大規模言語モデル(LLM)とビジョン・言語モデル(VLM)を組み合わせ、画像やテキストからロボットが理解できる「行動」へと翻訳する能力を持っています。これにより、人間がロボットに「この箱を棚に置いて」といった指示を出すだけで、ロボットが適切に作業できるようになります。従来のAIでは、視覚情報と行動指示を別々に学習させる必要がありましたが、RT-2はこれを統合することで、より直感的で汎用的なロボット制御を目指しています。 RT-2の登場は、AIが現実世界でより複雑なタスクを実行できるようになる可能性を示唆しています。例えば、家庭用ロボットが指示通りに家事をこなしたり、工場での作業がさらに自動化されたりすることが期待されます。これは、AIとロボット工学の融合による、新しい時代の幕開けとなるかもしれません。 この技術は、AIの可能性をさらに広げ、私たちの生活をより便利で豊かなものに変えていくことが予想されます。