RL An Introduction 第四章笔记,例题之类出自该书.

DP算法的重要意义

在马尔可夫决策过程这个问题上,动态规划算法现在看来已经不实用了. 但我们依旧要学习这种方法,因为后续的方法几乎都是从这种方法上发展起来的,只是做了若干改进:

  1. 由于状态空间过大,没有足够的内存用于动态规划,在如此大的表格上进行更新也不现实,因此后续产生了许多靠估计动态规划表格的方法.
  2. 动态规划算法假设我们对环境完全了解,也就是说,我们精确知道每一个$p(s’,r|s,a)$. 在很多现实问题中,这并不实际,后续的若干算法使我们可以不必对环境精确建模.
阅读全文

概率与统计复习

发布在 数学

最近在复习概率与统计,会在这篇文章中记录一部分我觉得比较重要的内容,教材是All of Statistics.

概率

条件概率

表示某个事件A在事件B已发生的情况下发生的概率.

独立事件

A是否发生与B是否发生没什么关系. 例如在抛两枚硬币时,可以认为第一枚硬币正反面的结果与第二枚硬币正反面的结果是独立的.

阅读全文

这是我看RL An Introduction做的笔记之一.

有限马尔可夫决策过程(finite Markov decision process),常用于形式化刻画连续决策问题,是强化学习问题理想的数学形式.

智能体与环境

考虑直接在与环境的交互中学习并完成目标,这其中的要素有:

  • 智能体(agent) - 学习,并做决策的对象
  • 环境(environment) - 智能体交互的对象
阅读全文

感知机

发布在 机器学习

感知机是神经网络以及SVM的基础,今天学了学相关的内容,做一点笔记.

感知机是一种用于二分类的线性模型. 也就是说,该模型通过一个超平面(2维空间中为直线,3维空间中为平面)将输入样本中的正例和负例分开. 想象一下每个样本有两个属性$\langle x_0, x_1\rangle$,那么可以将样本点画在二维平面上,感知机可以寻找一条直线将样本分为两类. 如下图所示,图中每个点都在一个二维平面上,用x标记的样本点标签为-1,用o标记的样本点标签为+1,也就是说,对于每一个点$x$,其标签$y \in \{-1, +1\}$.

阅读全文
  • 第 1 页 共 1 页
作者的图片

lovelywen

是文文呀~


CS学生


江苏南京