AI は、古典的なアーケード ゲームの Q*bert で悪用を発見し、それを実行した後、人類が提供できる最高の方法で不正行為を行うことに成功しました。
AI の初期のイテレーションは Q* バートを適切にプレイしていましたが、ゲームの仕組みを学習しているある時点で、異常なポイントを獲得できるエクスプロイトを発見します。当然のことながら、スコア ハンティング プレーヤーなら誰しもそうするように、このプロセスを繰り返して、可能な限り最も効果的な方法でスコアを上げることができます。
下のビデオで、AI がプラットフォーム上で動作する様子を確認できます。一見、あてもなくプラットフォーム間をジャンプしているように見えます。次のラウンドへのゲームの進行状況を確認する代わりに、Q*bert はすべてのプラットフォームがフラッシュし始めるループに陥ってしまいます。ここで、AI は大量のポイントを獲得するためのスコア狂乱に進むことができます。
次を読む: 最も物議をかもしたゲーム レコードの 1 つがついに信用を失いました
vizio テレビの電源がオフになったりオンになったりする
AIがQ*バート戦争に勝った方法
タイトルの歴代記録を打ち破った AI は、進化戦略アルゴリズム プログラミングのおかげで、ありえないほどの高得点を獲得しました。進化戦略 (ES) は、従来の AI が使用する通常の強化学習 (RL) とは異なり、その世代学習によりスケーラビリティが高いと見なされます。
各学習ループは世代と呼ばれ、設定された条件 (この場合はハイスコア) が満たされるまでタスクを続行します。世代を重ねるごとに、AI は前の世代の知識を吸収するため、同じ目標を達成し、それを超えることができます。続ければ、そのタスクで絶対に比類のない AI ができあがります。まさにここで Q*bert スコアで起こったことです。
で概説 紙 、ドイツのフライブルク大学の研究者によって先週発表されたこのバグは、既知の量ではなかったようです。実際、彼らはバグを発見することにそれほど驚きを持っていませんが、AI がどのようにして先に進み、スコアリングの可能性を最大化するためにプレイするたびにそれを悪用することを学習したかを見るのは興味深いことです。
次を読む: この人工知能はスーパーマリオブラザーズをマスターすることを学んでいます
バグを見つけるために、エージェントは最初のレベルをほぼ完了することを学ばなければなりませんでした.これは一度に行われたわけではありませんが、多くの小さな改良を加えて、研究者は次のように説明しました. 登録簿 。トレーニングのある時点で、子孫のソリューションの 1 つでバグが発生し、兄弟ソリューションと比較してスコアが大幅に改善され、更新への貢献度が増加したと考えられます。これにより、解決策は徐々に空間に移行し、より多くの子孫が同じバグに遭遇し始めました。
バグが発生する正確な条件はわかりません。エージェントが最適ではないと思われるパターンに従った場合にのみ発生する可能性があります [たとえば、エージェントが時間を無駄にしたり、命を失ったりする場合など]。もしそうだとしたら、標準の RL がバグを見つけるのは非常に難しいでしょう: 増分報酬を使用すると、しばらくの間多くの報酬をもたらさない戦略を学ぶのではなく、すぐにいくらかの報酬を生み出す戦略を学ぶでしょう。そしていきなり大当たり。
関連するものを見る ドラッグスターのチャンピオン、トッド・ロジャースが35年ぶりに王冠を失った この人工知能は、スーパーマリオブラザーズ 1-2 を 17 日間習得することを学習しています この AI が Twitch の GTA V で運転することを学ぶ様子をご覧ください
ただし、ボットの素晴らしい結果にもかかわらず、研究者は、これが RL よりも ES 学習を支持するケースであるとは言いません。実際、どちらのシステムにも独自の問題があり、2 つのシステムを組み合わせることが、前進するための最良のオプションと見なされています。
他の Atari ゲームで同じ ES 手法を使用しても、同様の肯定的な結果は得られませんでした。一方、RL は世界最高の GO プレーヤーを破るなど、左、右、中央の記録を打ち破る責任があります。 ES にはまだ独自の場所がありますが、実際には Nvidia が AI トレーニングの多くを実行する方法です。これは、より多くの計算能力が必要ですが、より長い期間にわたってより良い結果を達成するためです。
AI開発の未来がどちらになるかはともかく、少なくともこのボットがシステムをだまそうとしているのは、これほど悪くはない 今や不名誉なビデオゲームの世界チャンピオン 。