Q-learning
Grafická ukázka učícího se algoritmu Q-learning na maticové mapě.
Nový směr je zvolen na základě ohodnocení směru. Nejprve se vybere ten, který ještě nemá žádné ohodnocení. Až jsou všechny možné směry ohodnoceny, pak se zvolí ten s nejlepším ohodnocením. Současně se nepoužije směr, který by vedl do předchozího stavu (políčka na mapě).