Algorithmus, der "Pong" beherrschte, jetzt hervorragend bei "Flappy Bird", immer noch Single

$config[ads_kvadrat] not found

TOP 5 Programmiersprachen für 2020

TOP 5 Programmiersprachen für 2020
Anonim

Verbesserung einer tiefen Lernmethode, für die Pionierarbeit geleistet wurde Pong, Space Invaders und andere Atari-Spiele hat der Informatikstudent der Stanford University, Kevin Chen, einen Algorithmus entwickelt, der mit dem klassischen Side-Scroller von 2014 ziemlich gut ist Flattervogel. Chen hat ein Konzept namens „q-learning“ eingesetzt, bei dem ein Agent mit jeder Wiederholung des Spiels die Belohnungspunktzahl verbessern möchte, um ein nahezu unmögliches und unglaublich süchtig machendes Spiel zu perfektionieren.

Chen entwickelte ein System, bei dem sein Algorithmus auf drei Belohnungen ausgelegt war: eine kleine positive Belohnung für jedes Einzelbild, die es noch gab, eine große Belohnung für das Durchschreiten einer Pfeife und eine ebenso große (aber negative) Belohnung für das Sterben. Laut dem von Chen verfassten Bericht kann das so genannte Deep-Q-Netzwerk den Menschen übertrumpfen: „Wir konnten das Spiel erfolgreich spielen Flattervogel indem wir direkt aus den Pixeln und der Partitur lernen und übermenschliche Ergebnisse erzielen. “

Das Original-Atari-Papier wurde 2015 veröffentlicht Natur, stammte von der Google-eigenen Firma DeepMind (heute berühmt für die Beherrschung des alten chinesischen Brettspiels Go). Die DeepMind-Errungenschaft war ein Durchbruch, da sie visuelle oder zumindest pixelweise Informationen benötigte und mit minimalem Aufwand die Belohnungen maximieren konnte. Ein solches Belohnungssystem wurde mit der dopaminergen Reaktion des Gehirns verglichen, die lediglich vereinfacht wurde.

Es ist nicht das erste Mal, dass ein Algorithmus den Schlagvogel erobert hat: Eine frühere Klasse von Informatikstudenten an der Stanford University entwickelte ein Programm, das bei einem Training über Nacht von 0 Pipes auf 1.600 verbessert wurde.

$config[ads_kvadrat] not found