Switching gears, we focus on how Yannick’s been training his model using reinforcement learning. He explains the differences from David’s supervised learning approach. We find out how his system performs against a player that makes random tic-tac-toe moves.

Podden och tillhörande omslagsbild på den här sidan tillhör People + AI Research. Innehållet i podden är skapat av People + AI Research och inte av, eller tillsammans med, Poddtoppen.