Machine Learning notes
Записки по машинному обучению на основе RL
RL - одно из фундаментальных направлений ML, наряду с Supervised Learning и Unsupervised Learning.
Области применения RL

Optimal control
Reward system
Характеристика
- Нет надзирателя, только reward сигнал.
- Обратная связь асинхронная, а не мгновенная.
- Время имеет значение (данные приходят/изменяются последовательно)
- Действия агента воздействуют на последующие данные, которые он получает.
- Агент принимает решения, основанные на текущем состоянии системы.
- Управление лопастями вертолёта
- Игра в Backgammon
- Управление инвестициями
- Управление энергостанцией
- Управление гуманоидным роботом
- Прохождение Atari игр
Rewards
R(t) - скалярный сигнал ответной связи системы для каждого момента времени t. Характеризует, как хорошо агент выполняет свою задачу в конкретный момент. Цель агента — максимизировать sum(R(t)).
Агент последовательно принимает решения (выбирает текущее действие) для максимизации общей суммы наград в будущем.
У действий могут быть далеко идущие последствия. Награда может быть получена с задержкой. Иногда нужно будет отказываться от краткосрочной награды, чтобы получить большую в перспективе.
Agent and Environment
f(O(t), R(t)) => a(t)
History and state
H(t) = A1O1R1, ..., AtOtRt
Окружение предоставляет агенту observations и rewards.
S(t) = f(H(t))
State
Environment state - private environment's representation. Все данные, используемые средой для выбора следующей пары Observation+Reward. Обычно не видна агенту.
Agent state - agent's internal representation. Используемая агентом информация для принятия решения.
Markov State
State является Марковской тогда и только тогда, когда вероятность следующего стейта, в зависимости от текущего такая же, как вероятность следующего стейта, в зависимости от всех предыдущих.
Environemnt State = Markov History = Markov
Perfect case
O(t) = Sa(t) = Se(t)
Partial Observable Environments
Sa(t) != Se(t)
Components:
Policy: agent's behaviour function.
Map from state to action
Value function: how good is each state and/or action.
Prediction of expected future reward. Depends on the Policy.
Model: agent's representation of environment Transitions: predicts the next state Rewards: predicts next reward
RL Agents categories
Value Based
Value Function No Policy (it is implicit)
Policy Based
Policy No value function
Actor Critic
Policy Value function
Policy and/or Value Function Model
RL Fundamental problems
Learning:
The environment is initially unknown The agent interacts with the environment => improved policies
Planing:
model of the environment is known agent performs computations with model => improved policies
Exploration and exploitation
trial-and-error => better Policy
Exploration = find more about enviroment, get less reward Exploitation = exploit known information maximizing reward Need to balance it.
Prediction and control
Prediction: predict a future with given policy Control: optimise the future - find the best policy
Markov Decision Process
MDP описывает среду для RL. Среда аьсолютно обозрима.
Markov Chain Transition Matrix - матрица вероятности перехода из одного состояния цепи в другое.
Markov Reward - Добавляет в матрицу маркова R - мгновенную награду за нахождение в текущем стейте.
Discount factor [0;1] - применяется для рассчета R в бесконечном будущем, чтобы уменьшать влияние очень отдалённых в будущее наград.
R(k+1) = DF^k*R
long-term value of a state
v = f(s)
Bellman Equation for MRP
value function = immediate reward R(t+1) + discounted value of successor state DF*v(S(t+1))
Ресурсы
https://mitpress.mit.edu/books/machine-learning
https://www.amazon.com/Hands-Machine-Learning-Scikit-Learn-TensorFlow/dp/1491962291