概率图模型(1)——马尔可夫链
马尔可夫链:过程在 时刻所处状态条件与过程在时刻 之前所出的状态无关。(在已经知道“现在”的条件下,其“将来”与“过去”无关)
数学表达为:
Bob和Alice是一对好朋友,Bob的心情与天气有关,如果天气很好为 sunny,记为S ,Bob一般是处于 happy,记为H 状态的,如果天气是 rain,记为R ,Bob的心情一般是处于 grumpy,记为G 状态的。 Alice呢,是一个很细心很会观察的女孩,收集了14天以来 天气情况 ,以及Bob15天的 心情 。
统计图中状态转换对应的数量:
统计图中状态转换对应的数量:
绘制了下面这张图。
图3-1中的几个概率值称为 transition probabilities
图3-2中的几个概率值称为 emission probabilities
在[图2. Bob心情与天气对应关系]中,晴天有十天,雨天有五天,在Bob没有任何信息提示的情况下,晴天所占比例为 ,雨天所占比例为 。所以第一问题的答案为有 的可能性是晴天, 的可能性是雨天。
其实这是一个贝叶斯问题:
已知
, ,
, ,
, ,
,
求 与 的概率。
连续三天,共有 中可能:
以第3种情况为例:
这样分别计算8中情况,取概率最大的
考虑了六天,那么总共有 种可能性,每增加一天,考虑的可能性是呈指数上升的,在这里,需要借助 动态规划 的思想。
Alice根据Bob心情预测天气的例子就是问题3——预测问题。
通过一道简单例题说明:
分为以下几个步骤:
在 时刻,红球的概率为
在 时刻,3个盒子转移到不同盒子的概率以及生成白球的概率如下表所示。
完整过程如下:
代表,在 时刻,在盒子1是红球的条件的情况下,观测序列是:白,红2(第二颗红球)的概率。
在 时刻
在 时刻
每一个盒子的概率和的意义为:该盒子是白球的条件下,观测序列为[红球]的概率
给定模型参数 和观测 ,在时刻 处于状态 的概率记为:
在学习算法中,分为 监督学习 和 非监督学习 。
当训练集中包括了 观测序列 和 状态序列 时,可采用监督学习的方法对参数值进行估计。
本文第3节“隐马尔科夫的科学推导” 之“3.1 基本概念” 中“隐马尔可夫模型的形式定义”下方的Bob心情与天气的例子。
当训练集仅包括 观测序列 ,目标是学习估计马尔科夫的参数(状态转移矩阵,观测概率矩阵以及初始概率)
此时,将观测序列看做是观测数据 ,状态序列看做是隐变量 借助 EM模型 即可求解。
具体例子见本文2.3节:Viterbi 算法
什么是马尔科夫链?
马尔可夫链,因安德烈•马尔可夫(A.A.Markov,1856-1922)得名,是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的。
原理简介
马尔可夫链是随机变量X_1,X_2,X_3…的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为“状态空间”,而X_n的值则是在时间n的状态。如果X_{n+1}对于过去状态的条件概率分布仅是X_n的一个函数,则 P(X_{n+1}=x|X_0, X_1, X_2, \ldots, X_n) = P(X_{n+1}=x|X_n). 这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。
编辑本段理论发展
马尔可夫在1906年首先做出了这类过程 。而将此一般化到可数无限状态空间是由柯尔莫果洛夫在1936年给出的。 马尔可夫链与布朗运动以及遍历假说这两个二十世纪初期物理学重要课题是相联系的,但马尔可夫寻求的似乎不仅于数学动机,名义上是对于纵属事件大数法则的扩张。 物理马尔可夫链通常用来建模排队理论和统计学中的建模,还可作为信号模型用于熵编码技术,如算术编码(著名的LZMA数据压缩算法就使用了马尔可夫链与类似于算术编码的区间编码)。马尔可夫链也有众多的生物学应用,特别是人口过程,可以帮助模拟生物人口过程的建模。隐蔽马尔可夫模型还被用于生物信息学,用以编码区域或基因预测。 马尔可夫链最近的应用是在地理统计学(geostatistics)中。其中,马尔可夫链用在基于观察数据的二到三维离散变量的随机模拟。这一应用类似于“克里金”地理统计学(Kriging geostatistics),被称为是“马尔可夫链地理统计学”。这一马尔可夫链地理统计学方法仍在发展过程中。
编辑本段马尔可夫过程
马尔可夫过程,能为给定样品文本,生成粗略,但看似真实的文本:他们被用于众多供消遣的“模仿生成器”软件。马尔可夫链还被用于谱曲。 它们是后面进行推导必不可少的条件:(1)尺度间具有马尔可夫性质.随机场从上到下形成了马尔可夫链,即 Xi 的分布只依赖于 Xi,与其他更粗 糙的尺度无关,这是因为 Xi 已经包含了所有位于其上层的尺度所含有的信息.(2) 随机场像素的条件独立性.若 Xi 中像素的父节点已知,则 Xi 中的像素彼此独立.这一性质使我们不必再 考虑平面网格中相邻像素间的关系,而转为研究尺度间相邻像素(即父子节点)间的关系.(3) 设在给定 Xn 的情况下,Y 中的像素彼此独立.(4) 可分离性.若给定任一节点 xs,则以其各子节点为根的子树所对应的变量相互独立. 从只有一个节点的根到和图像大小一致的叶子节点,建立了完整的四叉树模型,各层间的马尔可夫链的因 果关系使我们可以由非迭代的推导过程快速计算出 X 的最大后验概率或后验边缘概率.
编辑本段模型
完整的四叉树模型也存在一些问题.(1) 因概率值过小,计算机的精度难以保障而出现下溢,若层次多,这一 问题更为突出.虽然可以通过取对数的方法将接近于 0 的小值转换成大的负值,但若层次过多、概率值过小,该 方法也难以奏效,且为了这些转换所采用的技巧又增加了不少计算量.(2) 当图像较大而导致层次较多时,逐层 的计 算甚 为繁琐 下 溢 现 象肯定 会出 现 , 存储中 间变 量也 会占 用大 量空 间 , 在时 间空间 上都 有更 多的 开销 . (3) 分层模型存在块效应,即区域边界可能出现跳跃,因为在该模型中,同一层随机场中相邻的像素不一定有同 一个父节点,同一层的相邻像素间又没有交互,从而可能出现边界不连续的现象.
编辑本段MRF 模型
为了解决这些问题,我们提出一种新的分层 MRF 模型——半树模型,其结构和图1 5类似,仍然是四叉树, 只 是层数比完整的四叉树大大减少,相当于将完整的四叉树截为两部分,只取下面的这部分.模型最下层仍和图像 大小一致,但最上层则不止一个节点.完整的四叉树模型所具有的性质完全适用于半树模型,不同点仅在于最上层,完整的树模型从上到下构成 了完整的因果依赖性,而半树模型的层间因果关系被截断,该层节点的父节点及祖先均被删去,因此该层中的各 节点不具有条件独立性,即不满足上述的性质 2,因而对这一层转为考虑层内相邻节点间的关系.半树模型和完 整的树模型相比,层次减少了许多,这样,层次间的信息传递快了,概率值也不会因为过多层次的逐层计算而小 到出现下溢.但第 0 层带来了新的问题,我们必须得考虑节点间的交互,才能得出正确的推导结果,也正是因为在 第 0 层考虑了相邻节点间的影响,使得该模型的块现象要好于完整的树模型.对于层次数的选取,我们认为不宜多,太多则达不到简化模型的目的,其优势体现不出来,但也不能太少,因 为第 0 层的概率计算仍然要采用非迭代的算法,层数少表明第 0 层的节点数仍较多,计算费时,所以在实验中将 层数取为完整层次数的一半或一半稍少.
编辑本段MPM 算法
3半树模型的 MPM 算法 图像分割即已知观测图像 y,估计 X 的配置,采用贝叶斯估计器,可由一个优化问题来表示: ?x = arg min [E C ( x, x )′ | Y = y] ,x其中代价函数 C 给出了真实配置为 x 而实际分割结果为 x′时的代价.在已知 y 的情况下,最小化这一代价的期 望,从而得到最佳的分割.代价函数取法不同得到了不同的估计器,若 C(x,x′)=1?δ(x,x′)(当 x=x′时δ(x,x′)=1,否则 δ(x,x′)=0)得到的是 MAP 估计器,它意味着 x 和 x′只要在一个像素处有不同,则代价为 1,对误分类的惩罚比较重,汪西莉 等:一种分层马尔可夫图像模型及其推导算法 而在实际中存在一些误分类是完全允许的.若将半树模型的 MPM 算法记为 HT-MPM,它分为向上算法和向下算法两步,向上算法自下而上根据式(2)、 式 (3)逐层计 算P(yd(s)|xs)和 P(xs,xρ(s)|yd(s)), 对最下层 P(yd(s)|xs)=P(ys|xs). 向下算法自上 而下根据 式 (1)逐层计算 P(xs|y),对最上层由 P(x0|y)采样 x0(1),…,x0(n),
编辑本段详细说明
马尔可夫链,因安德烈·马尔可夫(A.A.Markov,1856-1922)得名,是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的。 时间和状态都是离散的马尔可夫过程称为马尔可夫链, 简记为Xn = X(n),n = 1,2,3,4····。 马尔可夫链是随机变量的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为“状态空间”,而Xn的值则是在时间n的状态。如果Xn + 1对于过去状态的条件概率分布仅是Xn的一个函数,则 这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。 马尔可夫在1906年首先做出了这类过程 。而将此一般化到可数无限状态空间是由柯尔莫果洛夫在1936年给出的。 马尔可夫链与布朗运动以及遍历假说这两个二十世纪初期物理学重要课题是相联系的,但马尔可夫寻求的似乎不仅于数学动机,名义上是对于纵属事件大数法则的扩张。 马尔可夫链是满足下面两个假设的一种随机过程: 1、t+l时刻系统状态的概率分布只与t时刻的状态有关,与t时刻以前的状态无关; 2、从t时刻到t+l时刻的状态转移与t的值无关。一个马尔可夫链模型可表示为=(S,P,Q),其中各元的含义如下: 1)S是系统所有可能的状态所组成的非空的状态集,有时也称之为系统的状态空间,它可以是有限的、可列的集合或任意非空集。本文中假定S是可数集(即有限或可列)。用小写字母i,j(或Si,Sj)等来表示状态。 2)是系统的状态转移概率矩阵,其中Pij表示系统在时刻t处于状态i,在下一时刻t+l处于状态i的概率,N是系统所有可能的状态的个数。对于任意i∈s,有。 3)是系统的初始概率分布,qi是系统在初始时刻处于状态i的概率,满足。
编辑本段基本性质
马尔可夫链模型的性质 马尔可夫链是由一个条件分布来表示的 P(Xn + 1 | Xn) 这被称为是随机过程中的“转移概率”。这有时也被称作是“一步转移概率”。二、三,以及更多步的转移概率可以导自一步转移概率和马尔可夫性质: 同样: 这些式子可以通过乘以转移概率并求k−1次积分来一般化到任意的将来时间n+k。 边际分布P(Xn)是在时间为n时的状态的分布。初始分布为P(X0)。该过程的变化可以用以下的一个时间步幅来描述: 这是Frobenius-Perron equation的一个版本。这时可能存在一个或多个状态分布π满足: 其中Y只是为了便于对变量积分的一个名义。这样的分布π被称作是“平稳分布”(Stationary Distribution)或者“稳态分布”(Steady-state Distribution)。一个平稳分布是一个对应于特征根为1的条件分布函数的特征方程。 平稳分布是否存在,以及如果存在是否唯一,这是由过程的特定性质决定的。“不可约”是指每一个状态都可来自任意的其它状态。当存在至少一个状态经过一个固定的时间段后连续返回,则这个过程被称为是“周期的”。
编辑本段离散状态
离散状态空间中的马尔可夫链模型 如果状态空间是有限的,则转移概率分布可以表示为一个具有(i,j)元素的矩阵,称之为“转移矩阵”: Pij = P(Xn + 1 = i | Xn = j) 对于一个离散状态空间,k步转移概率的积分即为求和,可以对转移矩阵求k次幂来求得。就是说,如果是一步转移矩阵,就是k步转移后的转移矩阵。 平稳分布是一个满足以下方程的向量: 在此情况下,稳态分布π * 是一个对应于特征根为1的、该转移矩阵的特征向量。 如果转移矩阵不可约,并且是非周期的,则收敛到一个每一列都是不同的平稳分布π * ,并且, 独立于初始分布π。这是由Perron-Frobenius theorem所指出的。 正的转移矩阵(即矩阵的每一个元素都是正的)是不可约和非周期的。矩阵被称为是一个随机矩阵,当且仅当这是某个马尔可夫链中转移概率的矩阵。 注意:在上面的定式化中,元素(i,j)是由j转移到i的概率。有时候一个由元素(i,j)给出的等价的定式化等于由i转移到j的概率。在此情况下,转移矩阵仅是这里所给出的转移矩阵的转置。另外,一个系统的平稳分布是由该转移矩阵的左特征向量给出的,而不是右特征向量。 转移概率独立于过去的特殊况为熟知的Bernoulli scheme。仅有两个可能状态的Bernoulli scheme被熟知为贝努利过程
编辑本段现实应用
马尔可夫链模型的应用
科学中的应用
马尔可夫链通常用来建模排队理论和统计学中的建模,还可作为信号模型用于熵编码技术,如算法编码。马尔可夫链也有众多的生物学应用,特别是人口过程,可以帮助模拟生物人口过程的建模。隐蔽马尔可夫模型还被用于生物信息学,用以编码区域或基因预测。 马尔可夫链最近的应用是在地理统计学(geostatistics)中。其中,马尔可夫链用在基于观察数据的二到三维离散变量的随机模拟。这一应用类似于“克里金”地理统计学(Kriging geostatistics),被称为是“马尔可夫链地理统计学”。这一马尔可夫链地理统计学方法仍在发展过程中。
人力资源中的应用
马尔可夫链模型主要是分析一个人在某一阶段内由一个职位调到另一个职位的可能性,即调动的概率。该模型的一个基本假设就是,过去的内部人事变动的模式和概率与未来的趋势大体相一致。实际上,这种方法是要分析企业内部人力资源的流动趋势和概率,如升迁、转职、调配或离职等方面的情况,以便为内部的人力资源的调配提供依据。 它的基本思想是:通过发现过去组织人事变动的规律,以推测组织在未来人员的供给情况。马尔可夫链模型通常是分几个时期收集数据,然后再得出平均值,用这些数据代表每一种职位中人员变动的频率,就可以推测出人员变动情况。 具体做法是:将计划初期每一种工作的人数量与每一种工作的人员变动概率相乘,然后纵向相加,即得到组织内部未来劳动力的净供给量。其基本表达式为: Ni(t):t时间内I类人员数量; Pji:人员从j类向I类转移的转移率; Vi(t):在时间(t-1,t)I类所补充的人员数。 企业人员的变动有调出、调入、平调、晋升与降级五种。表3 假设一家零售公司在1999至2000年间各类人员的变动情况。年初商店经理有12人,在当年期间平均90%的商店经理仍在商店内,10%的商店经理离职,期初36位经理助理有 11%晋升到经理,83%留在原来的职务,6%离职;如果人员的变动频率是相对稳定的,那么在2000年留在经理职位上有11人(12×90%),另外,经理助理中有4人(36×83%)晋升到经理职位,最后经理的总数是15人(11+4)。可以根据这一矩阵得到其他人员的供给情况,也可以计算出其后各个时期的预测结果。
马尔可夫链是啥?
回答如下
马尔可夫链(英语:Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain,缩写为DTMC),因俄国数学家安德烈·马尔可夫(俄语:Андрей Андреевич Марков)得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。
马尔可夫链是一个相当常见、相当简单的对随机过程进行统计建模的方式。它们被应用在很多领域,从文本生成到金融建模。一个比较流行的例子是 SubredditSimulator,它使用马尔可夫链自动创建整个 subreddit 的内容。总之,马尔可夫链在概念上是非常直观,并且易于理解的,不使用任何高级的统计或者数学概念就可以实现。马尔可夫链是入门概率建模和数据科学技术的很好的开端。
怎么把文本文档文件转换成C语言文件格式
如果你是XP系统。
首先打开“我的电脑”,依次点“工具”、“文件夹选项”、“查看”,将“隐藏已知文件类型的扩展名”前面的勾去掉,再确定,让系统显示完整的文件全名。
然后,在文本文件上点右键,选“重命名”改成“.c”格式即可。
如:原先是abc.txt,改成abc.c就可以了。