按概率收敛与几乎处处收敛

xiaoxiao2021-02-27  830

#注意 以下内容仅作为个人笔记,初学者请不要参考本篇内容,欢迎学过的同学指正错误。 #正文 首先给出两种收敛的定义。对于一个随机变量序列 { θ ^ n ( x ) } n \{\hat \theta_n(x)\}_n {θ^n(x)}n,这个随机变量的值由随机变量 x x x 决定。对于任意正实数 ϵ \epsilon ϵ,如果存在一个随机变量 θ ( x ) \theta(x) θ(x) 使下式成立: lim ⁡ n → ∞ P r ( x , ∣ θ ^ n ( x ) − θ ( x ) ∣ < ϵ ) = 1 , \lim_{n\to \infty}{\rm Pr}(x,|\hat\theta_n(x)-\theta(x)|<\epsilon)=1, nlimPr(x,θ^n(x)θ(x)<ϵ)=1, 则称序列 { θ ^ n ( x ) } n \{\hat\theta_n(x)\}_n {θ^n(x)}n 依概率收敛到随机变量 θ ( x ) \theta(x) θ(x)

如果对于任意正实数 ϵ \epsilon ϵ,如果存在一个随机向量 θ ( x ) \theta(x) θ(x) 使下式成立: P r ( x , lim ⁡ n → ∞ ∣ θ ^ n ( x ) − θ ( x ) ∣ < ϵ ) = 1 , {\rm Pr}(x,\lim_{n\to \infty}|\hat\theta_n(x)-\theta(x)|<\epsilon)=1, Pr(x,nlimθ^n(x)θ(x)<ϵ)=1, 则称序列 { θ ^ n ( x ) } n \{\hat\theta_n(x)\}_n {θ^n(x)}n 几乎处处收敛到随机变量 θ ( x ) \theta(x) θ(x)

直观来说,在 n n n 大到一定程度,前者的含义是 θ ^ n ( x ) \hat\theta_n(x) θ^n(x) θ ( x ) \theta(x) θ(x) 的距离小于 ϵ \epsilon ϵ 的概率收敛到 1 1 1 上;后者的含义是, θ ^ n ( x ) \hat\theta_n(x) θ^n(x) θ ( x ) \theta(x) θ(x) 的距离以 100 % 100\% 100% 的概率在 ϵ \epsilon ϵ 以内。准确来说,几乎处处收敛其实并不要求在 x x x 的取值范围内所有的取值都使得 θ ^ n ( x ) \hat\theta_n(x) θ^n(x) θ ( x ) \theta(x) θ(x) 的距离在 ϵ \epsilon ϵ 以内,要理解这一点需要测度论的知识,我还没接触过这方面的知识,但有一个例子很好理解:对于 x ∈ [ 0 , 1 ] x\in [0,1] x[0,1],如果只有 x = 1 x=1 x=1 使得 ∣ θ ^ n ( x ) − θ ( x ) ∣ ≥ ϵ |\hat\theta_n(x)-\theta(x)|\ge\epsilon θ^n(x)θ(x)ϵ 成立,我们仍然可以说 { θ ^ n ( x ) } n \{\hat\theta_n(x)\}_n {θ^n(x)}n 几乎处处收敛,这是因为 P r ( x = 1 ) = 0 {\rm Pr}(x=1)=0 Pr(x=1)=0,因而 P r ( x ∈ [ 0 , 1 ) ) = 1 {\rm Pr}(x\in [0,1))=1 Pr(x[0,1))=1

具体来说,这两种收敛的区别是什么呢?对于足够大的 n n n 来说,前者不需要满足 ∣ θ ^ n ( x ) − θ ( x ) ∣ < ϵ |\hat\theta_n(x)-\theta(x)|<\epsilon θ^n(x)θ(x)<ϵ x x x 所有的取值范围上成立,也就是可能存在一个区间 [ x 0 , x 0 + O ( g ( x ) ) ] [x_0, x_0+\mathcal{O}(g(x))] [x0,x0+O(g(x))] 使得 ∣ θ ^ n ( x ) − θ ( x ) ∣ ≥ ϵ |\hat\theta_n(x)-\theta(x)|\ge\epsilon θ^n(x)θ(x)ϵ 成立,而后者,如上一段所说的,要求这个不等式最多只能在 x x x 取某一个值 x 0 x_0 x0 上成立。

如果仍然难以理解,这里可以举例子说明。设随机变量 x x x 是在区间 [ 0 , 1 ] [0,1] [0,1] 上的均匀分布,定义关于 x x x 的随机变量序列为: θ ^ n ( x ) = x + x n . \hat\theta_n(x) = x+x^n. θ^n(x)=x+xn. 定义随机变量: θ ( x ) = x . \theta(x)=x. θ(x)=x. 可以发现这个随机变量只在 x = 1 x=1 x=1 时才有 ∣ θ ^ n ( x ) − θ ( x ) ∣ ≥ ϵ |\hat\theta_n(x)-\theta(x)|\ge\epsilon θ^n(x)θ(x)ϵ 成立,因此是几乎处处收敛。

对于同样的 x x x,按照另一种方法定义随机变量 θ ^ n ( x ) \hat\theta_n(x) θ^n(x) θ ( x ) \theta(x) θ(x)

θ ^ 2 k + i ( x ) = 1 x ∈ [ i 2 k , i + 1 2 k ] k = 1 , 2 , 3 , . . . i = 0 , 1 , . . . , 2 k − 1 θ ( x ) = 0 \hat\theta_{2^k+i}(x)=1_{x\in [\frac{i}{2^k}, \frac{i+1}{2^k}]}\\ k=1,2,3,...\\ i=0,1,...,2^{k}-1\\ \theta(x)=0 θ^2k+i(x)=1x[2ki,2ki+1]k=1,2,3,...i=0,1,...,2k1θ(x)=0

可以看到,即使 2 k + i 2^k+i 2k+i 的值再大, ∣ θ ^ n ( x ) − θ ( x ) ∣ ≥ ϵ |\hat\theta_n(x)-\theta(x)|\ge\epsilon θ^n(x)θ(x)ϵ 成立的概率也不会等于 0 0 0,但是他们是按概率收敛的。 #参考 几乎必然收敛和依概率收敛 by AlgorithmDog

转载请注明原文地址: https://www.6miu.com/read-243.html

最新回复(0)