확률변수와 확률분포
윷을 던지면 도, 개, 걸, 윷, 모의 다섯 가지 경우 중 하나가 발생한다.
확률 변수(x) : 다섯가지 중 한값을 가지는 변수
정의역 : 확률 변수가 가질 수 있는 값의 집합
확률 분포 : 정의역 전체에 걸쳐 확률 표현 ex) p(x=도) or p(도)
이산<=>연속
이산값(윷놀이)을 가지는 정의역의 확률분포는 확률질량함수(Probability Mass Function)
연속값(키 or 몸무게)을 가지는 정의역의확률분포는 확률밀도함수(Probability Density Function)
Iris 데이터는 샘플이 4개의 특징값을 가진다.
이때 확률 변수는 4차원 벡터이며 이를 확률 벡터(Random Vector)라고 하고, x라고 표기한다.
Iris는 길이와 너비를 특징으로 가지는 데이터이므로 연속값이다.
또한 정의역이 4차원 실수공간인 R^4이다.
곱규칙과 합규칙
주머니에서 카드(1, 2, 3)를 1장 꺼내 번호를 확인 후 해당 번호의 병에서 공을 하나 색을 말한다.
(꺼낸 카드와 공은 꺼낸 곳에 다시 넣는다.)
카드 번호와 공의 색을 나타내는 확률 변수를 각각 x 와 y라고 하며, 정의역은 이다.
결합 확률(Joint Probability) : 두 사건이 결합된 상태의 확률
ex) 카드는 1번이고, 공은 하양일 확률은 다음과 같이 표기
조건부 확률(Conditional Probability) : 이미 사건이 발생한 조건에서 다른 사건이 발생할 확률
ex) 주머니에서 이미 1 이라는 카드를 뽑고, 하양이라는 공을 뽑을 확률
주머니에서 나온 카드가 1이고, 하얀공을 뽑을 확률은 곱규칙을 통해 구할 수 있다.
곱 규칙의 공식은 아래와 같다.
전체 병에서 하양공이 뽑힐 확률은 합규칙을 통해 구할 수 있다.
합 규칙의 공식은 아래와 같다.
독립인 경우 y에 상관없이 x가 결정 되는 경우 ex) y =발크기, x = 성적
독립이 아닌경우 y에 따라 x가 결정 되는 경우 ex) y = 발크기, x = 키
독립의 경우 두 확률 변수가 아래의 식을 만족 해야한다.
'Statistics' 카테고리의 다른 글
신뢰도 평가 지표(Bland-Altman Plot, Intraclass correlation coefficient ) for python (0) | 2022.07.24 |
---|