0 to niemożliwe ruchy (jeśli jesteś w lewym górnym rogu, nie możesz iść w lewo lub w górę!)
Pod względem obliczeń możemy przekształcić tę siatkę w tabelę.
Nazywa się to tabelą Q ("Q" dla "jakości" akcji). Kolumny będą czterema akcjami (lewa, prawa, góra, dół). Wiersze będą stanami. Wartość każdej komórki będzie maksymalną oczekiwaną przyszłą nagrodą za dany stan i działanie.
Każdy wynik w tabeli Q będzie maksymalną oczekiwaną przyszłością nagrody, którą otrzymam, jeśli podejmiemy tę akcję w tym stanie z najlepszą polisą.
Dlaczego mówimy "z podaną polityką?", Ponieważ nie wdrażamy polityki. Zamiast tego poprawiamy tabelę Q, aby zawsze wybrać najlepszą akcję.
Pomyśl o tym Q-stole jako o grze "ściągnij kartę". Dzięki temu wiemy, dla każdego stanu (każdej linii w tabeli Q), jaka jest najlepsza akcja do wykonania, poprzez znalezienie najwyższego wyniku w tej linii.