人工知能は賢いですが、人間とうまくやっていけるでしょうか?

人工知能は賢いですが、人間とうまくやっていけるでしょうか?テクノロジー
協力型カードゲーム「HANABI」をプレイしているとき、人間はAIのチームメイトの動きに不満や戸惑いを感じていました。

人間は、人工知能と一緒に協力してゲームをすると、チームメイトとしてはフラストレーションがたまると感じており、「Teaming Intelligence(チーミング・インテリジェンス)」の課題となっていることが研究で明らかになりました。

チェスや囲碁などのゲームでは、人工知能(AI)プログラムが世界のトッププレイヤーをはるかに凌駕しています。

このような「超人的」なAIは、他の追随を許さない競争相手ですが、人間との競争よりも難しいのは、人間との共同作業でしょう。

同じテクノロジーが人間と仲良くできるのでしょうか?

マサチューセッツ工科大学(MIT)リンカーン研究所の研究者たちは、協力型カードゲーム「HANABI」を、初対面のチームメイトと一緒にプレイできるように訓練された高度なAIモデルを使って、人間がどの程度プレイできるかを調べました。

参加者は、AIエージェントをチームメイトにした場合と、ルールベースのエージェント(あらかじめ定義された方法でプレイするように手動でプログラムされたボット)を使った場合の2種類のゲームを、シングルブラインド実験(単盲検実験)でプレイしました。

その結果は、研究者たちを驚かせました。

AIのチームメイトの方がルールベースのエージェントよりもスコアが良くなかっただけでなく、人間はAIのチームメイトとの対戦を常に嫌っていたのです。

AIチームメイトは予測不可能で、信頼できず、チームが良いスコアを出してもネガティブな感情を抱くのだといいます。

この研究をまとめた論文は、2021 Conference on Neural Information Processing Systems (NeurIPS)に採択されました。

論文の共著者であり、人工知能技術グループの研究者であるRoss Allen氏は、「客観的に優れた性能を発揮するAIを作ることと、主観的に信頼されたり好まれたりするAIを作ることのニュアンスの違いがよくわかりました。これらのことは非常に近く、その間に違いはないように思えるかもしれませんが、今回の研究では、それらが実際には2つの別々の問題であることがわかりました。私たちはそれらを切り離す努力をする必要があります。」と述べています。

人間がAIのチームメイトを嫌うことは、いつか人間と一緒にミサイルからの防衛や複雑な手術などの実際の課題に取り組むために、この技術を設計している研究者にとっては懸念すべきことでしょう。

強化学習と呼ばれる特殊なAIを使用したこのダイナミックな動きは、チーミングインテリジェンスと呼ばれ、AI研究の次のフロンティアとなっています。

強化学習とは、AIに行動を指示するのではなく、何度もシナリオを試すことで、どの行動が最も数値的な「報酬」を得られるかを発見する技術です。

チェスや囲碁の超人を生み出したのも、この技術によるものです。

強化学習は、ルールベースのアルゴリズムとは異なり、「if/then」文に従うようにはプログラムされていません。

なぜなら、車の運転などの人間が行う作業で起こりうる結果は、コード化するにはあまりにも多すぎるからです。

「強化学習は、より汎用性の高いAIの開発方法です。強化学習は、より汎用性の高いAIを開発するための方法です。チェスのやり方を学習させたとしても、そのエージェントが車を運転するとは限りません。しかし、適切なデータがあれば、同じアルゴリズムを使って別のエージェントに車の運転を覚えさせることができます。理論的には可能性は無限大です。」とAllen氏は言います。

バッドヒント、バッドプレイ

今日、研究者たちは「HANABI」を使って、コラボレーションのために開発された強化学習モデルの性能をテストしています。

これは、チェスが何十年もの間、競争力のあるAIをテストするためのベンチマーク1「指標」や「基準」として機能してきたのと同じです。

「HANABI」は、多人数で遊ぶソリティアのようなゲームです。

プレイヤーは協力して、同じスーツのカードを順番に重ねていきます。

ただし、プレイヤーは自分のカードを見ることはできず、チームメイトが持っているカードしか見ることができません。

各プレイヤーは、自分の手札から最適なカードを選んでもらうために、チームメイトに伝えられる内容が厳しく制限されています。

リンカーン研究所の研究者は、今回の実験で使われたAIとルールベースのエージェントのどちらも開発していません。

どちらのエージェントも、「HANABI」の性能としては各分野で最高のものです。

実際、このAIモデルが、これまで一緒にプレイしたことのないAIチームメイトとペアを組んでプレイしたところ、未知のAIエージェント同士のHANABIプレイとしては過去最高のスコアを達成しました。

「これは重要な結果でした。一度も出会ったことのないAIが一緒になって素晴らしいプレーをすることができるのなら、同じように優れたプレーを知っている人間をAIと一緒にしても、素晴らしいプレーをすることができるはずだと考えました。だからこそ私たちは、客観的に見てAIチームの方が良いプレーができると考えたのです。また、一般的に人間は自分が良いプレーをすればそれを好むものですから、AIチームの方が良いと考えたのです。」とAllen氏は言います。

その期待はどちらも叶いませんでした。客観的に見て、AIとルールベースのエージェントのスコアに統計的な差はありませんでした。

主観的には、29人の参加者全員が、ルールベースのチームメイトの方が好きだとアンケートで答えています。

参加者は、どのゲームでどちらのエージェントと対戦するかは知らされていませんでした。

AI技術・システムグループの研究者で論文の著者であるJaime Pena氏は、「ある参加者は、AIエージェントの悪いプレーにストレスを感じ、実際に頭痛がしたと言っていました。一方、AIエージェントは、ルールを理解しているものの、その動きはチームとしてのまとまりに欠いていたといいます。彼らにとっては、悪いヒントを与え、悪いプレーをしているのです。」と述べています。

人間離れした創造性

AIが「悪いプレー」をするという認識は、研究者が以前に強化学習の研究で観察した驚くべき行動とリンクしています。

例えば、2016年にDeepMind社のAlphaGoが世界最高の囲碁棋士の1人に初めて勝利したとき、AlphaGoの打った手の中で最も広く称賛されたのが第2局の37手で、あまりにも珍しい手だったため、人間の解説者たちはミスだと思いました。

その後の分析で、この手は非常によく計算されたものであることがわかり、「天才」と評されました。

このような手は、AIの対戦相手が打った場合には賞賛されるかもしれませんが、チームでの対戦では賞賛されることは少ないでしょう。

リンカーン研究所の研究者たちは、このように密接に結合したチームにおいて、奇妙な動きや一見非論理的な動きは、AIのチームメイトに対する人間の信頼を壊す最悪の要因であることを発見しました。

このような動きは、自分とAIのチームメイトがどれだけうまく連携しているかという認識を低下させるだけでなく、AIと一緒に仕事をしたいと思う気持ちも低下させてしまいます。

この論文の著者であり、制御・自律システム工学グループの研究者であるHosea Siu氏は、「『こんなものと一緒に仕事をするのは嫌だ』というあきらめのコメントが多く見られました。」と付け加えています。

今回の研究では、自分をHANABIのエキスパートと評価した参加者は、AIプレーヤーをあきらめることが多かったそうです。

Siu氏は、このことがAI開発者にとって懸念材料であると考えています。

なぜなら、この技術の主要なユーザーは、その分野の専門家である可能性が高いからです。

「例えば、ミサイル防衛シナリオのために、超スマートなAI誘導アシスタントを訓練するとしましょう。それを訓練生に任せるのではなく、25年間この仕事をしてきた専門家に任せることになります。ですから、ゲームのシナリオで専門家に強い偏見があったとしても、実際の作戦ではそれが現れる可能性が高いのです。」と彼は付け加えます。

人間に合わせる

研究者たちは、今回使用されたAIは人間の好みに合わせて開発されたものではないと指摘します。

しかし、それは問題の一部であり、多くはそうではありません。

多くの協調型AIモデルと同様に、このモデルも可能な限り高いスコアを出すように設計されており、その成功は客観的なパフォーマンスによってベンチマークされています。

研究者が人間の主観的な好みの問題に注目しなければ、「人間が実際に使いたいと思うAIを作ることはできないでしょう。非常にきれいな数字を改善するAIに取り組むのは簡単です。人間の主観的な好みの問題を解決するためにAIを開発するのは非常に難しいのです。」とAllen氏は言います。

この難しい問題を解決することが、今回の実験がリンカーン研究所の技術局から資金提供を受けているMeRLin(Mission-Ready Reinforcement Learning)プロジェクトの目的であり、U.S. Air Force Artificial Intelligence AcceleratorとMIT電気工学・コンピュータサイエンス学科との共同研究です。

このプロジェクトでは、協調的なAI技術がゲーム空間からより複雑な現実へと飛躍するのを妨げてきたものを研究しています。

研究者たちは、AIが自分の行動を説明できるようになることで、信頼が生まれると考えています。

これは、今後1年間の彼らの研究の焦点となります。

「実験をやり直した後で、人間が『なぜあの動きをしたのか』と尋ねることができます。もしAIが、自分の行動に基づいて何が起こると考えたのかを教えてくれれば、人間は信頼してくれるのではないか、というのが私たちの仮説です。AIの根本的な意思決定を変えたわけではないのに、結果がまったく変わってしまうのです。」とAllen氏は言います。

試合後のミーティングのように、このようなやりとりは、人間がチームとしての仲間意識や協力関係を築くためのものであることが多いです。

AIと人間の間でHANABIのようなゲームをマスターすれば、将来的に知能をチーム化するための可能性が広がるかもしれません。

しかし、研究者がAIの性能と人間の好みのギャップを埋められない限り、テクノロジーは機械対人間のままかもしれません。

Published by Massachusetts Institute of Technology. Evaluation of Human-AI Teams for Learned and Rule-Based Agents in Hanabi, arXiv:2107.07630v2 [cs.AI] arxiv.org/abs/2107.07630

 

タイトルとURLをコピーしました