Za razliku od učenja pod nadzorom , učenje s pojačanjem se fokusira na to kako agenti mogu učiti iz vlastitih postupaka i povratnih informacija u okruženju. Ideja je da će učenje s pojačanjem maksimizirati svoje sposobnosti tokom vremena korištenjem nagrada i kazni za izračunavanje pozitivnog i negativnog ponašanja. Prikupljeno je dovoljno informacija za donošenje najbolje odluke u budućnosti.