[기초통계학] 통계

확률변수

확률변수

실험 결과에 따라 표본 공간의 각 원소에 실수 값 하나를 대응시켜 주는 것

함수 : 표본 공간의 각 원소를 실수 값에 하나씩 대응

확률변수 : 원소에 대응시킨 실수 값

확률변수 종류

이산확률변수 : 어느 구간 내에 존재하는 고립된 값만 선택하는 변수 (1,2,3)

연속확률변수 : 어떤 구간의 모든 실수 값을 선택하는 변수 (정밀측정이 불가능한 키, 몸무게)

확률 분포

확률변수의 조합으로 생기는 확률 값으 분포를 그래프로 나타낸 것

확률함수

이산확률변수일 때, 값에 대한 확률을 나타내는 함수

확률밀도함수

연속확률변수는 연속적이며 무한하기 때문에 분포 확인이 불가능

-> 연속확률변수의 문제를 해결하려면 확률밀도함수가 필요함

확률밀도함수는 특정 구간에 속할 확률을 계산하는 함수

특정 구간의 넓이 = 특정 구간에 속할 확률

확률은 적분을 통해 구하며, 전체 확률은 1임

$\int_{a}^{b}f(x)dx$

확률분포의 유형

데이터 분포나 이상치 값에 따라 세분화

정규분포 (가우시안 분포)

평균에 가까울수록 발생할 확률이 높고, 평균에서 멀어질수록 발생할 확률이 낮게 나타나는 분포

표준편차가 크면 퍼진 모양, 표준편차가 작으면 평균에 집중된 모양

평균이 작으면 왼쪽으로, 평균이 크면 오른쪽으로 이동함

직선 x에 대하여 대칭임

표준정규분포

정규분포를 표준화

정규분포의 평균을 0으로 만들고 표준편차를 1로 만들어서 표준화함

표준정규분포 = (확률변수 - 전체 평균) / 표준편차

표준화된 개별 데이터를 표준화점수 (Z-score)

카이제곱분포 ($X^{2}$)

집단의 분산을 추정하고 검정할 때 사용

신뢰구간, 가설 검정, 독립성 검정 등에 사용

양의 값만 존재

0에 가까운 값일수록 분포가 많고, 0에서 멀어질수록 분포가 감소

이항분포

베르누이분포를 기반

- 베르누이 분포

결과가 두 가지인 확률의 실험을 의미, 실험 횟수는 1회

성공할 확률이 p, 실패할 확률이 q=1-p라고 할 때 결과가 성공이면 확률변수 X가 1을 가짐, 실패이면 0을 가짐

- 이항 분포 (베르누이를 n번 실행한 것이라고 생각)

n번의 시행에 대한 p확률을 가진 사건의 발생확률

푸아송분포

단위 시간안에 어떤 사건이 몇 번 발생할지를 표현하는 이산확률분포

이항분포에서 시횡횟수가 충분히 많고 확률이 충분히 작을 때 푸아송분포를 문제를 해결

대푯값

대푯값

데이터를 가장 잘 설명하는 대표적인 값

평균

집단에서 중심 경항을 나타내는 수학적 척도

표분을 모두 더한 후 표본 개수로 나눈 값

극단적인 자료값을 사용하면 대푯값이 외곡될 수 있음

$평균 = \frac{표본의 총합}{표본의 개수}$

중앙값

주어진 값을 크기대로 정렬했을 때 가장 중앙에 위치하는 값

홀수개면 중앙에 하나, 짝수개이면 중앙에 두 개의 평균을 중앙값으로 함

최빈값

가장 많이 관측되는 수

가장 많이 발생하는 값을 구할 때 유용, 대소관계가 의미없는 질적 자료에 사용(ex. 좋아하는 수)

모집단분포와 확률표본

모집단과 모수

모집단 : 통계적 실험의 대상이 되는 모든 대상물

연구 대상을 구성하는 모든 데이터

모집단을 구성하는 데이터가 이루는 확률을 모집단 분포라고 함

모수 : 모집단의 특성을 나타내는 수치

모집단을 구성하는 데이터를 설명하는 수치 값 (우리가 알고 싶어하는 것)

모평균, 모분산, 모표준편차, 모비율, 모상관관계 등이 해당

모집단과 확률표본

모수 확인 방법 : 표본을 추출하여 모집단의 모수를 추정

확률을 동등하게 부여하고, 객관적으로 무작위 추출한 표본 -> 확률 표본

회귀분석

독립변수와 종속변수

y = f(x) 식이 성립할 때, x를 독립변수, y를 종속변수라고 함

독립 변수 : 연구자의 의도에 따라 변하는 변수 (원인)

종속 변수 : 독립변수에 따라 어떻게 변하는지 알고 싶어하는 수 (결과)

회귀식과 회귀분석

독립변수와 종속변수간의 함수 관계를 분석하는 방법 중 하나

회귀 : 평균으로의 회귀를 의미, 두 변수가 일반화된 선형 관계의 평균으로 돌아감을 의미

선형성 : 두 변수 관계를 직선 하나의 형태로 설명

선형 관계 : 예측 값과 실체 관측 값간 차이의 합이 최소가 되는 직선

찬차와 오차

잔차 : 표본집단의 회귀식에서 예측된 값 - 실제 관측 값

오차 : 모집단의 회귀식에서 예측된 값 - 실제 관측 값

회귀분석 유형

변수 개수 및 종류에 따라서 구분

단순선형 회귀분석, 다중선형 회귀분석, 로지스틱 회귀분석

독립변수가 한개일 때 단순선형 회귀분석

독립변수가 두 개 이상일 때를 다중선형 회귀분석

-> 독립변수의 상관관계만으로 결과를 도출하는 것은 위험할 수 있음

최소제곱법

수치해석, 회귀분석처럼 자료 사이에서 패턴을 도출할 때 사용

오차 제곱의 합이 최소가 되는 해를 미분으로 찾음

통계적 가설 검정

통계적 가설 검정 (=가설 검정)

통계적 추측의 하나

모집단의 실제 관측 값이 어느 정도 일 것이다 라는 가설에 근거하여 표본 정보를 사용해서 합당성 여부를 판정

사실 여부에 관계 없이 사실로 가정한 후 가정이 참인지 거짓인지를 검증

가설과 관찰 값이 일치하면 기본 가설을 기각하지 않고, 불일치한다면 기본 가설을 기각

가설 설정

$H_{0}$ : 귀무 가설 (자연적으로 발생할 확률이 높은 가설)

$H_{1}$ : 대립 가설 (귀무 가설과 대립되는 가설, 원하는 가설)

- 오류의 종류

1종 오류 : 귀무 가설이 참인데도 귀무 가설을 기각하는 오류 (실제 효과가 없는데 효과가 있다고 하는 것) (더 위험함)

2종 오류 : 대립 가설이 참인데도 대립 가설을 기가하는 오류 (효과가 있는데 효과가 없다고 하는 것)

유의수준 결정

유의 수준($\alpha $) : 귀무 가설을 기각시키고 대립 가설을 채택할 확률

유의 수준을 0.05로 정하였을 때 계산된 유의확률(p-value)이 0.05보다 적게 나와와 대립 가설을 채택할 수 있음

유의 확률 : 귀무 가설을 기각할 수 있는 최소한의 확률

유의 확률이 유의수준보다 높다면 귀무가설을 기각할 수 없고, 유의수준이 높다면 귀무가설을 기각

신뢰구간 : 모평균이 존재할 구간을 확률적으로 추정하는 구간추정중 하나

유의 확률의 반대

검정 방법 선택

양측 검정 : 기각역(귀무가설을 기각하는 영역)이 양쪽에 있는 검정, 대립가설이 아닌 경우 양측 검정 사용

단측 검정 : 기각역이 한쪽 끝에 있는 검정, ~보다 작다(좌측) or ~보다 크다(우측) 등에 사용

검정 통계량 계산 (표본 추출)

z-검정, t-검정, 분산 분석, 카이제곱 검정 등이 사용됨

분산을 알고 있는 경우 z검정, 모르는 경우는 t검정을 사용

t-검정 : 두 집단 간 평균을 비교하는 검정 용도로 사용

모집단의 표준편차를 모를 때 사용

검정 통계량 = \frac{표본평균-모평균}{표본표준편차}

성능 평가

혼동행렬, ROC 커브 등이 있음

혼동행렬

TP : 맞는 것을 맞다고 예측

TN : 아닌 것을 틀리다고 예측

FP : 아닌 것을 맞다고 예측

FN : 맞는 것을 틀리다고 예측

정밀도, 재현율, 정확도 (정리 필요)

ROC 커브

혼동행렬의 단점을 보완 (두 클래스 분포가 다를 때 양 끝만 판단이 가능하고 가운데는 판단이 불분명)

'개인 공부 > 컴퓨팅 수학' 카테고리의 다른 글

[수치해석] 행렬식 (0)	2022.09.18
[선형대수] 열 공간 (0)	2022.09.17
[기초통계학] 확률 (0)	2022.04.07
[기초통계학] 수열 (0)	2022.04.06
[기초통계학] 상호좌표계 (1)	2022.04.05

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

AngelPlayer`s Diary