Wie DeepMind einen unheimlich selbstgeübten A.I. Das kann Menschen überlisten

$config[ads_kvadrat] not found

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary

Inhaltsverzeichnis:

Anonim

Computer haben uns schon seit einigen Jahrzehnten auf die Schere getreten. Zum ersten Mal geschah dies 1996, als der Deep Blue von IBM den Weltmeister Gary Kasperov gewinnen konnte. Aber eine neue Studie aus dem Alphabet von A.I. Outfit DeepMind zeigt, wie begrenzt der frühe Sieg tatsächlich war.

Zum einen stieg Kasperov gleich zurück, gewann drei Spiele und zog zweimal in einem Playoff von sechs Spielen pro alter Partie Nachrichten Bericht.

Vor allem aber, wie DeepMind-Forscher Julian Schrittwieser erzählt Inverse Anwendungen wie Deep Blue wurden auch manuell programmiert. Dies bedeutet, dass Menschen die A.I. alles, was es zu wissen gilt, um mit jeder nur erdenklichen Situation umzugehen. Mit anderen Worten, es könnte immer nur so gut sein wie die Leute, die es programmieren. Und während Deep Blue offensichtlich gut im Schachspiel sein konnte; gib ein anderes, ähnliches Spiel wie Go und wäre ahnungslos geblieben.

Alpha Zero ist völlig anders. In einer neuen Studie wurde heute in der Zeitschrift veröffentlicht Wissenschaft zeigen die Autoren, wie sie Alpha Zero nicht nur beibringen konnten, wie man Menschen beim Schach schlagen kann, sondern wie man Alpha Zero beibringt, wie man es tut lehre dich selbst mehrere Spiele zu meistern.

Wie unterrichte ich A.I. Sich selbst lehren

Alpha Zero wurde unter Verwendung einer Technik entwickelt, die als Tiefenverstärkungslern bezeichnet wird. Im Wesentlichen beinhaltet dies das Unterrichten der A.I. etwas sehr einfaches, wie die grundlegenden Regeln des Schachspiels, und dann diese einfache Sache immer und immer wieder zu tun, bis sie kompliziertere, interessante Dinge wie Strategien und Techniken lernt.

"Traditionell würden die Menschen ihr Wissen über das Spiel nutzen und versuchen, es in Regeln zu kodieren", sagt Schrittwieser, der seit fast vier Jahren an Alpha Zero arbeitet. "Unser Ansatz besteht darin, dass wir zufällig initialisieren und dann Spiele gegen sich selbst spielen lassen. Von diesen Spielen selbst können sie lernen, welche Strategien funktionieren."

Alle Alpha-Zero-Werte sind die Grundregeln, und von dort lernen sie, wie man gewinnt, wenn sie sich selbst spielen. Nach den neuen Erkenntnissen dauerte es nur neun Stunden, bis Alpha Zero das Schach beherrschte, 12 Stunden, um Shogi zu beherrschen, und Go dauerte ungefähr 13 Tage. Weil es selbst spielt, ist es im Wesentlichen autodidaktisch. Es ist Hackfleisch aus allen von Menschen geführten Weltmeister-Algorithmen und schlägt den Weltmeister 2017 in Shogi 91 Prozent der Zeit.

"Es kann selbständig interessantes Wissen über das Spiel entdecken", sagt Schrittwieser. "Es führt zu Programmen, die menschlicher wirken."

Sein Stil ist zwar menschlich und kreativ, aber wahrscheinlich auch optimal, so dass Alpha Zero in nahezu jedem Spiel dominieren kann, in dem alle verfügbaren Informationen verfügbar sind. In der Tat ist Alpha Zero so ausgereift, dass wir möglicherweise zu einer völlig anderen Klasse von Spielen wechseln müssen, um die Grenzen der Möglichkeiten von A.I. löst Probleme

Warum Alpa Zero so gut ist

A.I. Forscher lieben es, diese Spiele aus verschiedenen Gründen als Testgelände für immer ausgefeiltere Formen von Algorithmen zu verwenden. Sie sind elegant, und die Leute haben sie schon seit Hunderten von Jahren gespielt, was bedeutet, dass Sie viele potenzielle Herausforderer haben, mit denen Sie Ihren Algorithmus testen können. Sie sind aber auch kompliziert und kompliziert, was bedeutet, dass sie als Sprungbrett für A.I. das kann Probleme in der realen Welt lösen. Schrittwieser sagt, der nächste Forschungsbereich ist die Entwicklung eines Algorithmus wie Alpha Zero, der mit unvollständigen Informationen immer noch optimale Entscheidungen treffen kann.

"In all diesen Spielen wissen Sie alles, was passiert", sagt er. „In der realen Welt kennen Sie vielleicht nur einen Teil der Informationen. Du kennst vielleicht deine eigenen Karten, aber du kennst nicht die Karten deines Gegners, du hast teilweise Informationen."

Es gibt immer noch ein paar Brettspiele, die Algorithmen wie Alpha Zero diese Herausforderung bieten können - Schrittwieser erwähnte Stratego, in dem die Spieler ihre Züge vor dem anderen verbergen - und Starcraft, ein weiterer Bereich, der für DeepMinds forschungsorientierte Forscher interessant ist.

„Wir möchten die Probleme, die wir angehen, immer komplexer machen“, sagt er. "Aber es ist immer nur eine Dimension."

Gleichzeitig zeigt die nächste Generation computergestützter Problemlöser von Deep Mind bereits das Potenzial, von der Spielewelt in die reale Welt überzugehen. Anfang dieser Woche wurde ein weiterer Algorithmus namens AlphaFold angekündigt, der in der Lage ist, eine Proteinsequenz in eine genaue Vorhersage ihrer 3D-Struktur zu extrapolieren.Es ist ein Problem, das Wissenschaftler seit Jahrzehnten verwirrt hat und helfen könnte, Krankheiten zu öffnen, die von Alzheimer bis Mukoviszidose reichen.

$config[ads_kvadrat] not found