저번 파트에서는 AI가 어떻게 새로운 지식을 표현하고 도출할 수 있는지에 대해 논의했었다. 그러나 실제로는 AI가 세상에 대해 부분적인 지식만 갖고 있어 불확실성의 여지가 있는 경우가 많다. 그럼에도 불구하고 우리는 AI가 이러한 상황에서 최선의 결정을 내리기를 바란다.
예를 들어 날씨를 예측할 때 AI는 오늘 날씨에 대한 정보를 가지고 있지만 내일 날씨를 100% 정확하게 예측할 수 있는 방법은 없다. 그래도 우리는 우연히 보다 더 잘할 수 있으며, 이번에는 제한된 정보와 불확실성 속에서 최적의 결정을 내리는 AI를 어떻게 만들 수 있는지에 대한 알아보자.
확률(Probability)
불확실성은 사건의 수와 "거의", "가능성", "확률", "각각의 발생"들로 표현될 수 있다.
가능세계(Possible Worlds)
발생할 수 있는 모든 상황을 세계(ω)라고 생각할 수 있다. 예를 들면 주사위를 던졌을 때 나올 수 있는 가능세계는 6이다.
특정 세계의 확률을 P(ω)로 나타낸다.
확률의 공리( Axioms in Probability )
0 < P(ω) < 1: 확률을 나타내는 모든 값은 0부터 1까지의 범위에 들어야 한다.
0은 불가능한 사건(event)이다. 예: 표준적인 주사위를 던져 7을 얻음.
1은 확실히 일어나는 사건이다. 예: 표준적인 주사위를 던져 10보다 작은 값을 얻음.
일반적으로 값이 높을수록 사건이 일어날 가능성이 높다.
사건이 일어날 확률을 모두 합하면 1이 된다.
모든 확률값의 합은 1
표준 주사위로숫자 R이 나올 확률은 P(R)로 나타낼 수 있다.
이 경우 P(R) = 1/6이다. 왜냐하면 6개의 가능한 세계(1부터 6까지의 숫자 굴림)가 있고 각각이 일어날 가능성이 동일하기 때문이다.
이제 주사위 두 개를 굴리는 경우를 생각해 보자. 이제 36가지의 가능한 사건이 있으며, 역시 확률은 동일하다.
(독립사건: 한 사건이 다른 사건을 관여하지 않을 경우 사건의 경우의 수를 곱한다.)
2개의 주사위를 던져서 나오는 사건 값
자 그럼 두 주사위의 합을 예측하려면 어떻게 될까? 이 경우 가능한 값은 11개(2~12)이며 동일한 빈도로 발생하지 않는다.
위의 설명을 시각화함
어떤 사건의 확률을 구하기 위해 우리는 그 사건이 일어나는 세계의 수를 가능한 총세계의 수로 나눈다.
예를 들어, 주사위 두 개를 굴릴 때 가능한 세계는 36개이다. 이 세계 중 한 곳에서만 두 주사위가 모두 6이 나올 때 합이 12가 된다.
따라서 P(12) = 1/36, 즉 두 개의 주사위를 굴려 두 숫자의 합이 다음과 같은 결과를 얻을 확률인 것이다.
P(7)란 뭘까? 우리는 합 7이 6개의 세계에서 발생하는 것을 센다. 따라서 P(7) = 6/36 = 1/6이다.
비조건부 확률 (Unconditional Probability)
비조건부 확률은 다른 증거가 없을 때 명제를 믿는 정도이다. 지금까지 우리가 물어본 모든 질문은 비조건부 확률에 대한 질문이었다. 왜냐하면 주사위 굴림의 결과는 이전 사건에 관여하지 않기 때문이다.
조건부 확률 (Conditional Probability)
조건부 확률은 이미 밝혀진 일부 증거가 주어졌을 때 명제에 대한 믿음의 정도이다. 서론에서 논의한 바와 같이 AI는 부분적인 정보를 사용하여 미래에 대한 교육적인 추측을 할 수 있다. 사건이 미래에 발생할 확률에 영향을 미치는 이 정보를 사용하기 위해 우리는 조건부 확률에 의존한다.
조건부 확률 표기법은 P(a | b ): 사건 b가 발생했다는 것을 알고 있는 경우, 사건a가 발생할 확률. 더 간단히 말하면 주어진 b의 확률을 의미한다.
이제 우리는 어제 비가 내렸다는 점을 고려하여 오늘 비가 올 확률 P(오늘 비 | 어제 비 ) 또는 테스트 결과 P(질병 | 테스트 결과)를 고려하여 환자가 질병에 걸릴 확률과 같은 질문을 할 수 있다.
b의 조건부 확률
즉, 주어진 b가 참일 확률은 a와 b가 참일확률을 b의 확률로 나눈 것과 같다. 직관적인 추론 방법으로는 "우리는 a와b가모두 참(분자)인 사건에 관심이 있지만, b가 참(분모)이라고 아는 세계에서만 관심이 있다"는 생각이다.b로 나누면 가능한 세계는b가 참인 세계로 제한된다.
예를 들어, P(합계 12 | 하나의 주사위에 6 나옴) 또는 우리가 이미 하나의 주사위를 굴려 6을 얻었다면 두 개의 주사위를 굴려 합이 12가 될 확률을 생각해 보자. 이를 계산하기 위해 먼저 첫 번째 주사위의 값이 6인 세계로 세계를 제한한다.
하나의 주사위 값이 6인 세계
이제 우리는 질문을 제한한 세계(주사위 값:6)에서 사건 a(P(sum 12))가 몇 번 발생하는가(P(b)로 나누기, 또는 첫 번째 주사위가 6을 산출할 확률 = 1/6)를 묻는다.
결론: 주사위 2개 던져서 첫 주사위가 6일 때 두번째 주사위와의 합이 12인 확률
Random variable(확률 변수)
확률 변수는 가능한 값의 영역을 갖는 확률 이론의 변수이다.
예를 들어, 주사위를 굴릴 때 가능한 결과를 나타내기 위해 {0, 1, 2, 3, 4, 5, 6} 값을 취할 수 있는 무작위 변수 Roll을 정의할 수 있다. 항공편 상태를 나타내기 위해 {정시, 지연, 취소} 값을 갖는 변수Flight를정의할 수 있다.
종종 우리는 각 값이 발생할 확률에 관심이 있다. 우리는 이것을 확률 분포를 사용하여 표현한다.
예를 들어,
P(비행 = 정시) = 0.6
P(비행 = 지연) = 0.3
P(항공편 = 취소됨) = 0.1
확률 분포를 말로 해석하면 비행기가 정시에 도착할 확률이 60%, 연착될 확률이 30%, 결항될 확률이 10%라는 뜻이다. 앞서 살펴본 것처럼 가능한 모든 결과의 확률의 합은 1이다.
확률 분포는 벡터로 더 간결하게 표현될 수 있다. 예를 들어 P(비행) = <0.6, 0.3, 0.1>이다. 이 표기법을 해석할 수 있도록 값에는 설정된 순서가 있다(이 경우에는 정시, 지연, 취소됨).
독립성(independence)
독립성(independence)은 한 사건의 발생이 다른 사건의 확률에 영향을 끼치지 않음에 대한 지식(knowledge)이다.
예를 들어 주사위 두 개를 굴릴 때, 각 주사위의 결과는 독립적이다. 첫 번째 주사위가 4가 나왔다고 해서 두 번째 주사위 값에 영향을 끼치지 않는다(독립 사건).
이는 오전에 구름이 끼고 오후에 비가 오는 것과 같은 종속 사건(dependent event)과 반대다. 오전에 흐리면 오후에 비가 올 확률이 높으므로 두 사건은 종속적이다.
독립 사건을 수학적으로 정의할 수 있다. 사건 a와 b의 확률이 b의 확률의 a배와 같은 경우에만 사건 a와 b는 독립적이다:
P(a ∧ b) = P(a) P(b).
Bayes' Rule
베이즈 규칙은 일반적으로 확률 이론에서 조건부 확률을 계산하는 데 쓰인다. 즉, 베이즈 규칙이란𝑎일 때𝑏일 확률은𝑏일 때𝑎일 확률에𝑏의 확률을 곱한 것을𝑎의 확률로 나눈 것과 같다.
베이즈 규칙
예를 들어, 오전에 흐리면 오후에 비가 오는 확률인 P(비∣흐림)을 계산하고 싶다고 하자. 다음 정보에서 시작한다.
오후에 비가 온 날 중 80%는 오전부터 흐렸다.P(흐림∣비)
오전에 흐린 날이 40%다.P(흐림)
오후에 비가 온 날이 10%다. P(비)
베이즈 규칙을 적용해 계산하면(0.1)(0.8)/(0.4)=0.2를 얻는다. 오전에 흐리면 오후에 비가 올 확률이 20%라는 뜻이다.
베이즈 규칙을 응용하면 P( a) 및 P(b) 외에도 P ( a|b )를 알면 P(b | a )를 계산할 수 있다.
결합 확률(Joint Probability)
결합확률은 여러 사건이 모두 일어나는 것의가능성이다.
다음과 같이 오전에 흐리고 오후에 비가 올 확률을 생각해 보자.
C= 흐림
C = ~흐림
0.4
0.6
R = 비, R = ¬비
R = 비
R = ~비
0.1
0.9
이 데이터만으로는 오전에 흐린 것이 오후에 비가 올 가능도와 연관되었다고는 할 수 없다. 그 둘이 연관되었다고 말하려면, 두 변수의 가능한 모든 결과에 대한 결합 확률을 볼 필요가 있다. 다음 표에 이를 나타냈다.
R = 비
R = ~비
C = 구름
0.08
0.32
C = ¬구름
0.02
0.58
이제 우리는 사건의 동시 발생에 대한 정보를 알 수 있다. 예를 들어, 특정 날 아침에 구름이 끼고 오후에 비가 올 확률은 0.08이라는 것을 알고 있다. 아침에 구름이 없고 오후에 비가 오지 않을 확률은 0.58이다.
결합 확률을 사용하여 조건부 확률을 추론할 수 있다.
예를 들어, 오후에 비가 오면 아침에 구름이 낄 확률 분포에 관심이 있다고 가정해 보자. P(C|비) = P(C, 비)/P(비)
(참고: 확률에선 쉼표와 ∧는 같은 의미로 사용된다. 따라서 P(C, 비) = P(C∧비)).
즉, 비와 구름의 결합 확률을 비의 확률로 나눈다.
마지막 방정식에서 P(비)를 P( C, 비)에 곱하는상수로 보는 것이 가능하다.따라서 P(C, 비)/P(비) = αP(C, 비) 또는 α<0.08, 0.02>로 다시 쓸 수 있다. α를 빼면 오후에 비가 온다는 가정 하에 가능한 C 값의 확률 비율을 알 수 있다.
즉, 오후에 비가 올 경우 아침에 구름이 많을 확률과 아침에 구름이 없을 확률의 비율은 0.08 : 0.02이다. 0.08과 0.02의 합은 1이 되지 않는다. 그러나 이는 확률변수 C에 대한 확률분포이기 때문에 합이 1이 되어야 한다는 것을 알고 있다.
따라서 α0.08 + α0.02 = 1이 되도록 α를 계산하여 값을 정규화해야 한다(α =10). 마지막으로 P(C|rain) = <0.8, 0.2>라고 말할 수 있다.
확률 규칙(Probability Rules)
부정: P(¬a) = 1 - P(a). 이는 모든 가능세계의 확률의 합이 1이고, 상보적 문자 a와 ¬a가모든 가능세계를 포함한다는사실에서 비롯된다.
포함-배제: P(a ∨ b) = P(a) + P(b) - P(a ∧ b). 이는 다음과 같이 해석할 수 있다.a또는b 가 참인 세계는a가 참인모든 세계와 b가참인 세계를 더한 것과 동일하다. 그러나 이 경우 일부 세계는 두 번 계산된다( a와 b가모두 참인 세계). 이러한 중복을 제거하기 위해 a와 b가모두 참인 세계를 한 번 뺀다(두 번 계산되었으니까).
주변화: P(a) = P(a, b) + P(a, ¬b). 여기서의 아이디어는 b와 ¬b가 분리된 확률이라는 것이다. 즉, b와 ¬b가 동시에 발생할 확률은 0이다. 우리는 또한 b와 ¬b의 합이 1인 것도 알고 있다. 따라서 a가 발생하면 b가 발생하거나 발생하지 않을 수 있다. a와 ¬b의 확률에 더해 a와 b가 모두 발생할 확률을 취하면 단순히 a의 확률로 끝난다. 주변화는 확률 변수에 대해 다음과 같은 방식으로 표현될 수 있다.주변화 방정식
방정식의 왼쪽은 “랜덤변수 X가 xᵢ 값을 가질 확률”을 의미한다. 예를 들어 앞서 언급한 변수 C의 경우 가능한 두 가지 값은아침에 구름이 낀것과아침에 구름이 없는 것이다. 방정식의 오른쪽 부분은 소외의 개념이다. P(X = xᵢ)는 xᵢ의 모든 결합 확률과 확률 변수 Y의 모든 단일 값의 합과 같다. 예를 들어 P(C = 구름) = P(C = 구름, R = 비) + P (C = 구름, R = ¬비) = 0.08 + 0.32 = 0.4.
조건화: P(a) = P(a | b ) P( b) + P(a | ¬b ) P( ¬b). 이는 주변화와 비슷한 개념이다. 사건a가발생할 확률은주어진 b 의 확률에 b의 확률을곱하고 주어진¬b의 확률에 ¬b의 확률을 곱한값과 같다.조건화 방정식
이 공식에서 확률 변수 X는 확률 변수 Y의 각 값에 해당 값을 취하는 변수 Y의 확률을 곱한 xᵢ 확률의 합과 동일한 확률로 xᵢ 값을 취한다. P(a | b) = P(a, b)/P(b )를 기억하면 이는 의미가 있다. 이 식에 P(b)를 곱하면 P(a, b)가 되고여기서부터는 조건화에서와 동일한 작업을 수행하면 된다.
지금까지 불확실성의 확률과 관련된 내용을 알아봤고 나머지 파트는 이 내용을 가지고 응?용하는 파트라고 생각하면 된다. 다음에 또 보도록 하자.