Convergence Modes, Weak LLN

Tags:
Convergence in ProbabilityAlmost Sure Convergence
2024-11-11

학부에서 찍먹만 했던, 그리고 무엇보다도 궁금했던 이 개념들을 제대로 공부해야 할 때가 되었다.

Recap


Random variable을 항상 X(ω)X(\omega) 라고 쓰지 않는 이유

Random variable XX 가 어떤 분포를 따른다고 주어졌을 때, 그 XX 가 어떤 sample space를 바탕으로 하는지는 알 수 없다.

반대로 말하면 전혀 다르게 만들어진 두 확률 변수가 같은 분포를 따르는 것도 가능하다.

간단한 예시로 1. fair coin 하나를 던져서 앞면이 나오면 값이 1, 뒷면이 나오면 값이 0인 확률 변수 X1X_1 과 2. fair dice 하나를 던져서 짝수가 나오면 값이 1, 홀수가 나오면 값이 0인 확률 변수 X2X_2 는 같은 분포를 따른다. 각각이 어떻게 만들어진 확률 변수이든, 확률 변수만 관찰한다면 그냥 둘 다 1/2의 학률로 1 또는 0이 나오는 확률 변수 에 불과하고 기댓값이나 분산의 계산도 모두 동일하다.

그리고 확률 변수의 분포와 기댓값 등에만 관심이 있는 것이라면 애초에 그 확률 변수가 어떤 Sample space로부터 만들어진 것인지 알 필요가 없을 수도 있다. 그렇다면 굳이 확률 변수의 정의역인 ω\omega 를 표기하지 않고 XX 라고만 써도 충분할 것이다.

Random variable을 X(ω)X(\omega) 라고 표기하는 경우

대표적으로 Stochastic Process를 생각해보면, 확률 변수의 값을 결정하는 요인이 t,ωt, \omega 총 2개가 된다.

  • 고정된 특정 ω\omega 에 대해 시간의 흐름에 따른 변화를 관찰하면 sample path가 되고 (X0(ω0),X1(ω0),,XT(ω0)X_0(\omega_0), X_1(\omega_0), \cdots, X_T(\omega_0))

  • 고정된 특정 tt 시점에 나타날 수 있는 확률 변수의 값들을 관찰하면 확률 변수를 관찰하는 것과 같다.

이렇게 특정한 ω\omega 의 값에 대해 관찰할 일이 있다면 확률 변수를 X(ω)X(\omega) 와 같이 표기하게 된다.

Convergence


Definition (Convergence in Probability)

Definition
A sequence of random variables {Xn}\{ X_n \} converges in probability to XX if for every ε>0\varepsilon > 0:

limnP(XnX>ε)=0\lim_{n \to \infty}{P(\vert X_n - X \vert > \varepsilon) = 0}

  • 아래의 Almost Sure Convergence와의 차이점은, Sample space의 outcome ω\omega 과는 무관하다는 점이다.
    이는 위의 정의를 엡실론-델타 논법의 관점에서 보면서 Typewriter Sequence 예제를 보고 나서야 감이 잡혔는데, 이는 아래에

Definition (Almost Sure Convergence)

Definition
A sequence of random variables {Xn}\{ X_n \} converges almost surely to XX if:

P(limnXn=X)=1P(\lim_{n \to \infty}{X_n = X}) = 1

  • PP 안에 들어가는 것은 결국 event 이므로 P({ωΩ:limnXn(ω)=X(ω)})=1P(\{ \omega \in \Omega: \lim_{n \to \infty}{X_n(\omega) = X(\omega)}\}) = 1 로 표기하는 게 더 보기 편하지 않나 싶다

  • limnXn(ω)=X(ω)\lim_{n \to \infty}{X_n(\omega) = X(\omega)} 를 만족하는 ω\omega 가 많이 있어서 그것들이 모인 event의 확률이 1이면 된다.

    • 그런 ω\omega 가 얼마나 많아야 확률이 1까지 되나? 라고 하면 almost every ω\omega 가 모여야 한다고도 하는데, 이 almost every 라는 게 얼마나 많은 거냐고 한다면 그건 또 ω\omega 를 모은 것들의 확률이 1이 될 만큼... 이렇게 정의가 빙글빙글 도는 느낌이었다.
    • 이건 '점을 얼마나 모아야 선이 되냐?' 와 같게 생각할 수 있는 듯 하다.
      흔히 사용되는 ΩR\Omega \subset \mathbb{R} 이고 P\mathbb{P} 가 Lebesgue measure의 변형(Normal, Uniform의 probability measure 등)인 경우, limnXn(ω)=X(ω)\lim_{n \to \infty}{X_n(\omega) = X(\omega)} 를 만족하지 못하는 ω\omega 가 countable하게 많은 정도까지는 어차피 확률이 0이고 허용 가능하다.

Theorem (Slutsky's Theorem)

Example (Sample Mean)

Example (Typewriter Sequence)

테렌스 타오의 웹사이트에도 소개되어있는 예시이다. (Example 7)

Ω=[0,1]\Omega = [0,1] 에 uniform probability (measure)를 가정하고,

확률 변수 XnX_n 은 1또는 0의 값을 가지며, nn 이 커짐에 따라 XnX_n 이 1의 값을 가질 수 있는 ω\omega 값의 범위는 점점 작아진다.

  • X1(ω)=1 if ω[0,1],=0 otherwiseX_1(\omega) = 1 \ \text{if} \ \omega \in [0,1], = 0 \ \text{otherwise}
  • X2(ω)=1 if ω[0,1/2],=0 otherwiseX_2(\omega) = 1 \ \text{if} \ \omega \in [0,1/2], = 0 \ \text{otherwise}
  • X3(ω)=1 if ω[1/2,1],=0 otherwiseX_3(\omega) = 1 \ \text{if} \ \omega \in [1/2,1], = 0 \ \text{otherwise}
  • X4(ω)=1 if ω[0,1/4],=0 otherwiseX_4(\omega) = 1 \ \text{if} \ \omega \in [0,1/4], = 0 \ \text{otherwise}
  • X5(ω)=1 if ω[1/4,1/2],=0 otherwiseX_5(\omega) = 1 \ \text{if} \ \omega \in [1/4,1/2], = 0 \ \text{otherwise}

...

이 모든 것을 한 줄로 일반화하면

Xn(ω):=1(ω[n2k2k,n2k12k])(k0,2kn<2k+1>)X_n(\omega) := \mathbb{1}(\omega \in [\frac{n-2^k}{2^k}, \frac{n-2^k-1}{2^k}]) \quad (k \geq 0, 2^k \leq n < 2^{k+1}>)

라고 쓸 수 있다. 그리고 이 확률 변수가 수렴해야 할 확률 변수는 X(ω)=0X(\omega) = 0 이라고 하자.

여기에 두 convergence를 적용하기에 앞서, 일단 각각의 정의를 (GPT가 변환해준) 엡실론-델타 논법의 표현으로 바꿔서 보면 다음과 같다.

  • Convergence in Probability:
    ε>0,  δ>0,N such that nN, P(XnX>ε)<δ\forall \varepsilon > 0,\; \forall \delta > 0, \exists N \text{ such that } \forall n \ge N,\ P\big(|X_n - X| > \varepsilon\big) < \delta

  • Almost Sure Convergence:
    P({ω:ε>0,N(ω)s.t.nN(ω), Xn(ω)X(ω)<ε})=1P(\{\omega: \forall \varepsilon > 0, \exists N(\omega) s.t. \forall n\ge N(\omega), \ |X_n(\omega)-X(\omega)|<\varepsilon\})=1

이 정의를 사용해서 생각해보면,

  1. Convergence in Probability
  • X(ω)X_(\omega) 의 값이 1일 확률이 (nn 이 커짐에 따라) 점점 작아지면 된다. 그리고 이 예시에서 nn 이 커지면 Xn(ω)X_n(\omega) 의 값이 1일 확률은 계속해서 작아지므로, 어떤 δ\delta 가 주어지든 P(XnX>ε)P\big(|X_n - X| > \varepsilon)δ\delta 보다 작아지는 nn 값들을 찾을 수 있다. (So is NN.)
    • (이 예시에서는 XnX|X_n - X| 의 값이 항상 0 또는 1이 된다. 그래서 ε\varepsilon 의 값을 이것저것 테스트해보는 건 별 의미 없을 듯)
  • Convergence in Probability의 경우 ω\omega 를 하나하나 고려할 필요가 없음을 알 수 있다. nn 이 커짐에 따라 수많은 ω\omegaXn(ω)X(ω)>ε|X_n(\omega) - X(\omega)| > \varepsilon 을 만족하는 ω\omega 를 다 모아봤을 때, 그것들(event)의 확률이 0으로 수렴하기만 하면 된다.
    • 굳이 특정한 fixed ω\omega 에 대해 Sample path를 그려보면 어떻게 될까... 했지만 애초에 Convergence in Probability의 정의 자체가 ω\omega 들을 따로따로 보는 것이 아니니 생각해볼 필요가 없어보인다.
  1. Almost Sure Convergence
  • 이 경우에는 각 ω\omega 하나하나를 관찰해야 한다.
    (왜냐하면, 그것이 정의이니까.)
  • 임의의 fixed ω\omega (ω~\tilde{\omega} 라 하자) 에 대하여 Xn(ω~)X_n(\tilde{\omega})X(ω)X(\omega) 에 수렴해야 한다.
    • 즉 Sample path를 그려봤을 때, nn 이 커지면 Xn(ω~)=1X_n(\tilde{\omega})=1 인 부분이 없어야 한다.
    • 그런데 이 예시에서는, nn 이 아무리 커져도 Xn(ω~)=1X_n(\tilde{\omega})=1 인 부분은 계속해서 등장한다.
  • 따라서 모든 ω\omega 에 대해 Xn(ω)X_n(\omega)X(ω)X(\omega) 로 수렴하지 못한다. 따라서 P(limnXn=X)=0P(\lim_{n \to \infty}{X_n = X}) = 0 이라는 처참한 결과(...)에 의해 Almost Sure Convergence는 성립하지 않음을 알 수 있다.
typewriter_sequence

Definition (Convergence in LpL^p)

Definition
For p1p \geq 1, a sequence of random variables {Xn}\{ X_n \} converges in L^p to XX if:

limnE[XnXp]=0\lim_{n \to \infty}{\mathbb{E}[\vert X_n - X \vert^p]} = 0

  • p=1p=1 이면 Convergence in mean, p=2p=2 이면 Convergence in mean square
  • L2L^2 convergence는 E[(XnX)2]0\mathbb{E}[(X_n - X)^2] \rightarrow 0 와 같은데, 이것은 어떤 확률 변수의 제곱의 평균이니
    E[(XnX)2]=Var(XnX)+(E[XnX])2\mathbb{E}[(X_n - X)^2] = \text{Var}(X_n - X) + (\mathbb{E}[X_n - X])^2 와 같이 식을 변형할 수 있고,
    이는 Bias-Variance decomposition이다. 따라서 L2L^2 convergence는 Bias와 Vaiance가 모두 0이어야 함을 함의한다.

Theorem (LpL^p implies Convergence in Probability)

  • 증명은 Markov Inequality를 이용해 가능

Example (Convergence in Probability does not imply L1L^1)

Xn(ω)={nifω[0,1/n]0otherwise\begin{aligned} X_n(\omega) = \begin{cases} n \quad \text{if} \quad \omega \in [0, 1/n] \\ 0 \quad \text{otherwise} \end{cases} \end{aligned}
  • Convergence in Probability는 성립할 수 있으나, Convergence in L^1은 불가능
  • Escaping Mass: 작은 확률에 매우 큰 확률 변수의 값에 할당되는 경우

Theorem (Dominated Convergence)

Theorem
If XnpXX_n \overset{p}{\to} X and XnY\vert X_n \vert \leq Y for all nn with E[Yp]<\mathbb{E}[Y^p] < \infty, then XnLpXX_n \overset{L^p}{\to} X.

Theorem (Subsequence Criterion)

Theorem
XnpXX_n \overset{p}{\to} X iff every subsequence {Xnk}\{ X_{n_k} \} has a further subsequence {Xnkj}\{ X_{n_{k_j}} \} such that Xnkja.s.XX_{n_{k_j}} \overset{a.s.}{\to} X.

Weak Law of Large Numbers


Weak LLN은 Convergence in Probability, Strong LLN은 Almost Sure Convergence이다.

Setup

  • LLN은 Sample average가 실제로 Population mean에 가까워지는가에 대한 것이므로, 먼저 Sample average 라는 것이 구해지는 과정을 명확히 이해해야 할 것이다.

  • 한 나라에 총 NN 명의 국민이 있고, 전체 인구의 평균 키가 μ\mu 라고 하자. μ\mu 는 관측할 수 없는 값이니, 대신 nn 명으로부터 조사를 하여 nn 명의 평균 키는 계산해볼 수 있을 것이다.

  • nn 명의 키를 조사할 때, ii 번째 설문 대상인 사람의 키를 XiX_i 라 하면 X1,X2,...,XnX_1, X_2, ..., X_n 와 같이 관측값을 모을 수 있을 것이다.

  • XiX_iRandom Variable이고, 여러 버전의 LLN 각각에 따라 가정은 조금씩 다르다. XiX_i 끼리 uncorrelated이면 충분할 수도 있고, i.i.d.여야 할 수도 있다.

    i.i.d. 조건에 의해 각 XiX_i 가 모두 population distribution(= 전국민의 키 분포)을 따른다면, E[Xi]=μ\mathbb{E}[X_i]=\mu 는 trivial하게 성립한다.

  • nn 명의 평균 키를 의미하는 Sample average Xn=1ni=1nXi\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n}{X_i} 이다.

Theorem (L2L^2 Weak Law of Large Numbers)

Theorem (Weak Law of Large Numbers)

Theorem
Let X1,X2,...X_1, X_2, ... be i.i.d. with E[Xi]=μ\mathbb{E}[X_i]=\mu. Then:

Xn=1ni=1nXipμ\overline{X}_n = \frac{1}{n} \sum_{i=1}^{n}{X_i} \overset{p}{\to} \mu

이게 클레식한 정의

  • XiX_ifinite mean을 가지기만 하면 된다. 분산은 발산해도 상관 없음.
  • XnX_nXX 로부터 크게 벗어날(deviation) 가능성이 (nn 이 커짐에 따라) 0으로 수렴함을 알려줄 뿐, rate of convergence나 fluctuation에 대해서는 정보를 주지 못함

Application (Consistency of Sample Variance)

Application (Method of Moment)

Application (Monte Carlo Integration)



2026.04.05

References