Definition
Events A1,...,An 이 모든 subset I⊂{1,...,n} 에 대해 다음을 만족하면 mutually independent 하다고 한다.
P(∩i∈IAi)=∏P(Ai)
총 2n−n−1 개의 등식이 필요해진다.
Definition
Events A1,...,An 이 다음을 만족하면 pairwise independent 하다고 한다.
P(Ai∩Aj)=P(Ai)P(Aj)for alli=j
mutual indepenence⇒pairwise indepenence 이지만
pairwise indepenence⇏mutual indepenence 이다.
예시로는 2 fair coin flips에 대해 위의 A,B 와 C={exactly one H} 에 대해 A,B,C 가 있다.
Definition (Independence of Random Variables)
Definition
Random Variables X,Y 가 모든 A,B∈B(R) 에 대해 다음을 만족하면 independent 하다고 한다.
P(X∈A,Y∈B)=P(X∈A)P(Y∈B)
이는 events {X∈A} 와 {Y∈B} 가 독립이라는 것과 동치이다.
또는 X,Y 의 CDFFX,FY 와 joint CDFFX,Y 를 이용해, FX,Y(x,y)=FX(x)FY(y)for allx,y∈R 이라고 random variable의 독립을 정의할 수도 있다.
PMF나 PDF를 이용해서도 이렇게 정의할 수 있다.
예를 들어 Bivariate standard normal은 joint PDF가 standard normal의 PDF 두 개를 곱한 것과 같다. (fX,Y=fX(x)⋅fY(y)=2π1e−2x2+y2)
(수업 유관) 또한 위의 joint PDF는 표준정규분포를 따르는 두 random variable의 correlation이 0인 경우와 같다고 한다. 이 경우 PDF의 countour는 원형으로 나온다.
(수업 유관) 문득 드는 궁금증은, 그럼 numpy같은 라이브러리는 correlation이 non-negative인 경우에 대해 joint PDF를 어떻게 만들어서 샘플링을 하는 걸까? GPT에 물어보니 variance-covariance matrix Σ 에 대해 다음과 같이 joint PDF를 만들 수 있다고 한다. 이 경우 PDF의 countour는 원형이 아닌 타원형이 될 것이다.
f(x,y)=2πdet(Σ)1exp(−21(xy)Σ−1(xy))
Consequences of Independence
Product of Expectations: 두 random variable X,Y 가 독립이고 E[∣X∣]E[∣Y∣]<∞ 이면, E[XY]=E[X]E[Y] 이다.
학부에서 아마 확통 연습 문제를 풀던 어느날 이걸 보면서 '독립이라고 해도 이게 되나...?' 했던 기억이 난다.
어쩌면 이 파트에서 가장 중요한 사실은 역시 Cov(X,Y)=0⇏independent 라는 사실이다.
Definition (Mutual Independence)
Definition
Random Variables X1,...,Xn 들이 모든 A1,...,An∈B(R) 에 대해 다음을 만족하면 mutually independent 하다고 한다.
P(X1∈A1,...,Xn∈An)=∏i=1nP(Xi∈Ai)
어디서든 등장하는 i.i.d. 가정에서 말하는 'independent' 역시 mutually independent 함을 의미한다.
Theorem (Functions of Independent Random Variables)
독립인 random variable X,Y 에 대해 함수 g,h:R→R 가 모두 Borel measurable이면, g(X) 와 h(Y) 는 독립이다.
따라서 X2,Y2 도 독립, eX,sin(Y) 도 독립, maxX,0,∣Y∣ 도 독립이다.
Joint Distribution
생각해보니 Joint distribution이 아직 정의되지 않았다.
Joint Distribution
Theorem
Random variable X,Y 의 joint cumulative distribution function은 다음과 같다. FX,Y(x,y)=P(X≤x,Y≤y)
Property로 Non-deacreasing, Pright-continuous 등이 있다.
Marginal Distribution
Theorem marginal cumulative distribution function은 다음과 같이 구할 수 있다. FX(x)=limy→∞FX,Y(x,y)=P(X≤x)
Conditional Distribution
Theorem
Continuous random variable X,Y 에 대해 fY∣X(y∣x)=fX(x)FX,Y(x,y) 이다.
Basic tail bound
Markov's Inequality
Theorem
Non-negative random variable X≥0 에 대하여, 임의의 a>0 에 대해 P(X≥a)≤aE[X] 이다.
Non-negative random variable이어야 하고, E[X] 정도는 알고 있어야 적용 가능하다.
Chevyshev's Inequality
Theorem
Mean μ, variance σ2<∞ 를 가지는 random variable X 에 대하여, 임의의 k>0 에 대해 P(∣X−μ∣≥k)≤k2σ2 이다.
Random variable이 유한한 분산을 가짐을 알고, σ 값도 아는 경우에 적용 가능하다.
증명은 Y=(X−μ)2 을 정의하여 Markov's Inequality를 적용하면 된다.
절댓값 항이 평균으로부터 몇 표준편차만큼 떨어져 있는지에 관심을 둔다면, t=σk 를 정의하여 P(∣X−μ∣≥tσ)≤t21
로도 바꿀 수 있다.
다만 정규분포를 따르는 random variable이 평균으로부터 n시그마만큼 떨어져 있을 확률을 구하면 그게 훨씬 타이트하다.
Weak LLN의 증명에 사용된다.
Moment Inequality
Cauchy-Schwarz Inequality
Theorem
두 random variable X,Y 가 각각 finite second moment를 가질 때, (E[XY])2≤E[X2]E[Y2] 이다.
등호가 성립할 필요충분조건은, 어떠한 상수 c 에 대해 almost surely X=cY 인 것이다.
Hölder's Inequality
Theorem p,q>1 가 p1+q1=1 을 만족할 때, random variable X,Y 에 대하여 E[∣XY∣]≤(E[∣X∣p])p1(E[∣Y∣q])q1 이다.
등호가 성립할 필요충분조건은, 어떠한 상수 c 에 대해 almost surely X=cY 인 것이다.
Cauchy-Schwarz Inequality의 일반화 버전. p=q=2 이면 Cauchy-Schwarz Inequality와 같다.
Minkowski Inequality
Theorem p≥1 에 대하여 (E[∣X+Y∣2])p1≤(E[∣X∣p])p1+(E[∣Y∣p])p1 이다.
Lp norm의 Triangle inequality
Exponential Inequality
위의 부등식들에 비해 훨씬 강력한 bound를 설정할 수 있다.
Chernoff Bound
Theorem
임의의 random variable X 와 t>0 에 대하여, P(X≥a)≤inft>0etaE[etX] 이다.
어떤 random variable이든 적용이 가능하나, E[etX] 즉 MGF를 다룰 수 있는 경우에 적용 가능하다.
Hoeffding's Inequality
Theorem
Independent Random Variables X1,...,Xn 이 almost surly Xi∈[ai,bi] 이고 E[Xi]=0 일 때, 임의의 t>0 에 대하여 P(∑i=1nXi≥t)≤exp(−∑i=1n(bi−ai)22t2) 이다.
Random variable들이 1. independent하고 2. bounded이고 3. 기댓값이 0이라면, 이 random variable들의 정확한 분포를 몰라도 적용이 가능하다. Moment에 관한 조건도 없다.