학부에서 찍먹만 했던, 그리고 무엇보다도 궁금했던 이 개념들을 제대로 공부해야 할 때가 되었다.
Recap
Random variable을 항상 라고 쓰지 않는 이유
Random variable 가 어떤 분포를 따른다고 주어졌을 때, 그 가 어떤 sample space를 바탕으로 하는지는 알 수 없다.
반대로 말하면 전혀 다르게 만들어진 두 확률 변수가 같은 분포를 따르는 것도 가능하다.
간단한 예시로 1. fair coin 하나를 던져서 앞면이 나오면 값이 1, 뒷면이 나오면 값이 0인 확률 변수 과 2. fair dice 하나를 던져서 짝수가 나오면 값이 1, 홀수가 나오면 값이 0인 확률 변수 는 같은 분포를 따른다. 각각이 어떻게 만들어진 확률 변수이든, 확률 변수만 관찰한다면 그냥 둘 다 1/2의 학률로 1 또는 0이 나오는 확률 변수 에 불과하고 기댓값이나 분산의 계산도 모두 동일하다.
그리고 확률 변수의 분포와 기댓값 등에만 관심이 있는 것이라면 애초에 그 확률 변수가 어떤 Sample space로부터 만들어진 것인지 알 필요가 없을 수도 있다. 그렇다면 굳이 확률 변수의 정의역인 를 표기하지 않고 라고만 써도 충분할 것이다.
Random variable을 라고 표기하는 경우
대표적으로 Stochastic Process를 생각해보면, 확률 변수의 값을 결정하는 요인이 총 2개가 된다.
-
고정된 특정 에 대해 시간의 흐름에 따른 변화를 관찰하면 sample path가 되고 ()
-
고정된 특정 시점에 나타날 수 있는 확률 변수의 값들을 관찰하면 확률 변수를 관찰하는 것과 같다.
이렇게 특정한 의 값에 대해 관찰할 일이 있다면 확률 변수를 와 같이 표기하게 된다.
Convergence
Definition (Convergence in Probability)
Definition
A sequence of random variablesconverges in probabilityto if for every :
- 아래의 Almost Sure Convergence와의 차이점은, Sample space의 outcome 과는 무관하다는 점이다.
이는 위의 정의를 엡실론-델타 논법의 관점에서 보면서 Typewriter Sequence 예제를 보고 나서야 감이 잡혔는데, 이는 아래에
Definition (Almost Sure Convergence)
Definition
A sequence of random variablesconverges almost surelyto if:
-
안에 들어가는 것은 결국 event 이므로 로 표기하는 게 더 보기 편하지 않나 싶다
-
를 만족하는 가 많이 있어서 그것들이 모인 event의 확률이 1이면 된다.
- 그런 가 얼마나 많아야 확률이 1까지 되나? 라고 하면 almost every 가 모여야 한다고도 하는데, 이 almost every 라는 게 얼마나 많은 거냐고 한다면 그건 또 를 모은 것들의 확률이 1이 될 만큼... 이렇게 정의가 빙글빙글 도는 느낌이었다.
- 이건 '점을 얼마나 모아야 선이 되냐?' 와 같게 생각할 수 있는 듯 하다.
흔히 사용되는 이고 가 Lebesgue measure의 변형(Normal, Uniform의 probability measure 등)인 경우, 를 만족하지 못하는 가 countable하게 많은 정도까지는 어차피 확률이 0이고 허용 가능하다.
Theorem (Slutsky's Theorem)
Example (Sample Mean)
Example (Typewriter Sequence)
테렌스 타오의 웹사이트에도 소개되어있는 예시이다. (Example 7)
에 uniform probability (measure)를 가정하고,
확률 변수 은 1또는 0의 값을 가지며, 이 커짐에 따라 이 1의 값을 가질 수 있는 값의 범위는 점점 작아진다.
...
이 모든 것을 한 줄로 일반화하면
라고 쓸 수 있다. 그리고 이 확률 변수가 수렴해야 할 확률 변수는 이라고 하자.
여기에 두 convergence를 적용하기에 앞서, 일단 각각의 정의를 (GPT가 변환해준) 엡실론-델타 논법의 표현으로 바꿔서 보면 다음과 같다.
-
Convergence in Probability:
-
Almost Sure Convergence:
이 정의를 사용해서 생각해보면,
- Convergence in Probability
- 의 값이 1일 확률이 ( 이 커짐에 따라) 점점 작아지면 된다. 그리고 이 예시에서 이 커지면 의 값이 1일 확률은 계속해서 작아지므로, 어떤 가 주어지든 이 보다 작아지는 값들을 찾을 수 있다. (So is .)
- (이 예시에서는 의 값이 항상 0 또는 1이 된다. 그래서 의 값을 이것저것 테스트해보는 건 별 의미 없을 듯)
- Convergence in Probability의 경우 를 하나하나 고려할 필요가 없음을 알 수 있다. 이 커짐에 따라 수많은 중 을 만족하는 를 다 모아봤을 때, 그것들(event)의 확률이 0으로 수렴하기만 하면 된다.
- 굳이 특정한 fixed 에 대해 Sample path를 그려보면 어떻게 될까... 했지만 애초에 Convergence in Probability의 정의 자체가 들을 따로따로 보는 것이 아니니 생각해볼 필요가 없어보인다.
- Almost Sure Convergence
- 이 경우에는 각 하나하나를 관찰해야 한다.
(왜냐하면, 그것이 정의이니까.) - 임의의 fixed ( 라 하자) 에 대하여 이 에 수렴해야 한다.
- 즉 Sample path를 그려봤을 때, 이 커지면 인 부분이 없어야 한다.
- 그런데 이 예시에서는, 이 아무리 커져도 인 부분은 계속해서 등장한다.
- 따라서 모든 에 대해 가 로 수렴하지 못한다. 따라서 이라는 처참한 결과(...)에 의해 Almost Sure Convergence는 성립하지 않음을 알 수 있다.
Definition (Convergence in )
Definition
For , a sequence of random variablesconverges in L^pto if:
- 이면 Convergence in mean, 이면 Convergence in mean square
- convergence는 와 같은데, 이것은 어떤 확률 변수의 제곱의 평균이니
와 같이 식을 변형할 수 있고,
이는 Bias-Variance decomposition이다. 따라서 convergence는 Bias와 Vaiance가 모두 0이어야 함을 함의한다.
Theorem ( implies Convergence in Probability)
- 증명은 Markov Inequality를 이용해 가능
Example (Convergence in Probability does not imply )
- Convergence in Probability는 성립할 수 있으나, Convergence in
L^1은 불가능 - Escaping Mass: 작은 확률에 매우 큰 확률 변수의 값에 할당되는 경우
Theorem (Dominated Convergence)
Theorem
If and for all with , then .
Theorem (Subsequence Criterion)
Theorem
iff every subsequence has a further subsequence such that .
Weak Law of Large Numbers
Weak LLN은 Convergence in Probability, Strong LLN은 Almost Sure Convergence이다.
Setup
-
LLN은 Sample average가 실제로 Population mean에 가까워지는가에 대한 것이므로, 먼저 Sample average 라는 것이 구해지는 과정을 명확히 이해해야 할 것이다.
-
한 나라에 총 명의 국민이 있고, 전체 인구의 평균 키가 라고 하자. 는 관측할 수 없는 값이니, 대신 명으로부터 조사를 하여 명의 평균 키는 계산해볼 수 있을 것이다.
-
총 명의 키를 조사할 때, 번째 설문 대상인 사람의 키를 라 하면 와 같이 관측값을 모을 수 있을 것이다.
-
각 는 Random Variable이고, 여러 버전의 LLN 각각에 따라 가정은 조금씩 다르다. 끼리 uncorrelated이면 충분할 수도 있고, i.i.d.여야 할 수도 있다.
i.i.d. 조건에 의해 각 가 모두 population distribution(= 전국민의 키 분포)을 따른다면, 는 trivial하게 성립한다.
-
명의 평균 키를 의미하는 Sample average 이다.
Theorem ( Weak Law of Large Numbers)
Theorem (Weak Law of Large Numbers)
Theorem
Let be i.i.d. with . Then:
이게 클레식한 정의
- 각 가 finite mean을 가지기만 하면 된다. 분산은 발산해도 상관 없음.
- 이 로부터 크게 벗어날(deviation) 가능성이 ( 이 커짐에 따라) 0으로 수렴함을 알려줄 뿐, rate of convergence나 fluctuation에 대해서는 정보를 주지 못함
Application (Consistency of Sample Variance)
Application (Method of Moment)
Application (Monte Carlo Integration)
2026.04.05
