Acest curs se adresează Machine Learning Engineers.
În cadrul acestui curs studenții vor învășa cum să încadreze, să înțeleagă și să rezolve probleme care implică crearea de agenți inteligenți.
Pentru a putea participa în cadrul acestui curs, studenții trebuie să fi parcurs modulul Basic Machine Learning in Tensorflow/ Keras.
Este recomandat ca studenții să aibă următoarele cunoștințe:
Basic Deep Learning
● Neurons
● Types of Layers
● Networks
● Loss Functions
● Optimizers
● Overfitting
● Tensorflow
Module 1: K-Armed Bandit Problem
1.1 Sequential Decision Making with Evaluative Feedback
1.2 Learning Action Values
1.3 Estimating Action Values Incrementally
1.4 Optimistic initial values
1.5 UCB Action Selection
1.6 Contextual Bandits for Real World RL
Module 2: Markov Decision Processes
2.1 Examples of MDPs
2.2 The Reward Hypothesis
2.3 Continuing Tasks
2.4 Episodic and Continuing Tasks
Module 3: Value Functions and Bellman Equations
3.1 Specifying Policies
3.2 Value Functions
3.3 Bellman Equation Derivation
3.4 Optimal Policies
3.5 Optimal Value Functions
3.6 Using Optimal Value Functions to get Optimal Policies
Module 4: Dynamic Programming
4.1 Iterative Policy Evaluation
4.2 Policy Iteration
4.3 Efficiency of Dynamic Programming
Module 5: Monte Carlo for Prediction and Control
5.1 What is Monte Carlo?
5.2 Prediction
5.3 Action Values
5.4 Blackjack example
5.5 Epsilon-soft policies
5.6 Off-policy learning
Module 6: On-policy Prediction with Approximation
6.1 Parameterized Functions
6.2 Generalization and Discrimination
6.3 Value Error Objective
6.4 Gradient Descent