Richard Sutton és Andrew Barto könyve már több, mint tíz éves, mégis érdemes elolvasnia mindenkinek, aki robotok programozásában (vagy mesterséges intelligenciában) el szeretne mélyedni. A könyv a megerősítéses tanulás elméleti alapjait nyújtja több, mint 300 oldalon. A probléma körüljárása után a különféle megoldási módszereket taglalja, majd az előnyök és hátrányok ismertetését követően haladóbb eljárásokat is ismertet.
Hogy mi is a megerősítéses tanulás? Ez egy teljesen általános séma, amit mi magunk is alkalmazunk. Egyszerűen szólva a korbács és cukor módszere. Előbbi a negatív, utóbbi a pozitív visszajelzés, vagyis megerősítés cselekvéseinkre.
Előszeretettel alkalmazzák olyan problémáknál, ahol a jó megoldást hagyományos tanári módszerekkel, példaadással nem lehet átadni, csupán az eredményt lehet valamilyen módon értékelni. Robotika esetében hasznos lehet a járás vagy egyéb összetett mozgásformák megtanulásánál, de akár foci közben a helyzet kiértékelésénél is. Erre egy példa látható az alábbi videóban, ahol egy speciális megerősítéses tanulási algoritmussal tanul meg járni: a pozitív visszajelzést saját elmozdulásszenzora adja.
Bár a könyv valószínűleg nem könnyen szerezhető be, az oldalon az anyag lényege html-ben is megtalálható.
Vigyázat, a könyvhöz alapos matematikai tudás vagy legalább mégértési készség szükséges!