통계학
모집단의 특성을 나타내는 모수(parameter)를 추정하기 위해 표본(sample)을 추출하고, 이를 통해 얻은 통계량(statistic)으로 모수를 추론하는 과정
> 모집단의 모수를 추정하기 위해 표본을 추출하고, 표본에서 얻은 통계량으로 모수를 추론한다.
용어
- 모집단 : 연구대상이 되는 모든 가능한 관측값의 집합
- 표본 : 모집단을 파악하기 위해 모집단에서 추출된 일부분
- 모수(parameter) : 모집단의 특성을 나타내는 미지의 수 (ex) 대한민국 학생 평균 나이)
- 통계량 : 표본의 특징을 나타내는 함수 (ex) 우리학교의 평균 나이)
경우의 수 계산하는 방법
- 순열 : 서로 다른 n개에서 r개를 중복없이 뽑아 특정한 순서로 나열
- 조합 : 서로 다른 n개에서 r개를 중복없이 순서를 고려하지 않고 뽑는 것
대표값(중심 경향치)
| 구분 | 개념 | 장점 | 단점 |
| 평균 | 모든 데이터를 더한 후 자료의 개수로 나눈 값, 가장 많이 쓰이는 대표값 |
- 계산이 간단, 직관적 - 데이터 전체를 반영해 분포를 잘 요약 |
- 이상치에 크게 영향 받음 - 분포가 치우친 경우 중심을 잘 표현을 못함 |
| 중앙값 | 데이터를 크기순으로 나열했을 때 정가운데에 위치한 값 | - 이상치의 영향을 거의 받지 않음 - 분포가 치우쳐 있어도 중심을 잘 보여줌 |
- 모든 데이터를 활용하지 않아 정보 손실 있음 - 수학적 계산(ex) 분산) 활용도 낮음 |
| 최빈값 | 데이터에서 가장 자주 등장하는 값 | - 가장 흔히 나타나는 값을 보여 직관적 이해에 용이 - 범주형 자료에도 사용 가능 |
- 최빈값이 없거나 여러개 일 수 있음 - 평균, 중앙값에 비해 활용도 낮음 |
평균과 기댓값의 차이
| 구분 | 평균 | 기댓값 |
| 개념 | 이미 관측된 데이터를 모두 더해 자료의 개수로 나눈 값 | 확률변수의 가능한 값 x 그 값의 확률을 모두 더한 값 |
| 의미/문맥 | 과거에 관측된 데이터를 요약하는 통계량 | 새로운 데이터가 주어졌을 때, 확률적으로 기대되는 값 |
| 활용 | 데이터 분석, 통계적 특성 파악 | 확률적 예측, 확률분포의 중심값 |
| 장단점 | 장점 : 계산이 간단, 직관적 단점 : 이상치에 민감 |
장점 : 확률적 현상을 이론적으로 설명 가능 단점 : 실제 데이터가 없으면 계산이 어려움 |
공분산
두 변수가 각각의 평균으로부터 얼마나 떨어져 있는지를 동시에 고려해, 두 변수의 방향성(같이 증가/감소하는지)을 나타내는 값
- 크기 : 원점에서 얼마나 멀리 떨어져있는지
- 방향 : 양/음에 따라 어느 방향으로 가는지
상관관계
- 공분산 양수 : 양의 상관성
- 공분산 음수 : 음의 상관성
상관계수
- 상관계수는 -1 ~ 1 사이의 값을 가진다.
- 데이터 간 양의 상관관계의 형태를 보이면 상관계수는 1에 가깝고, 음의 상관관계의 형태를 보이면 상관계수는 -1에 가까운 값을 가진다.
- 데이터가 정확히 1 or -1 이면 데이터가 완전히 직선상에 놓인다.

산포도
대표값 : 분산, 표준변차, 사분위
편차
각 데이터가 평균으로부터 어느 정도 떨어져있는지에 대한 지표, 평균은 0으로 하여 편차 평균으로는 산포도를 계산할 수 없음
분산
편차 제곱의 합의 평균, 편차의 평균은 항상 0이 되는 문제를 고려
표준편차
평균의 단위는 원래의 데이터 단위와 다르지 않지만 분산의 단위는 점수의 제곱으로 표현 (> 이해하기 어려운 단위), 실제 단위와 동일하게 표현하기 위해 루트를 씌움
범위
데이터의 최대값과 최소값만으로 산포도를 표현하는 방법, 분산 혹은 표준편차와는 다르게 데이터 전체를 표현하는 방식이 아님
사분위 범위
데이터의 하위 25%, 50%, 75%에 위치하는 값으로 표현
- 최대값, 최소값만을 활용 > 이상값 반영한 산포도 표현 어려움, but 사분위범위는 이상값을 반영한 산포도 표현에 효과적
- 분산과 표준편차는 평균값에 의해 정의된 산포도 지표, 사분위 범위는 중앙값에 의해 정의된 산포도 지표
확률분포
베르누이 분포
- 베르누이 시행 : 결과가 두가지 중 하나만 나옴
- 베르누이 확률변수 : 시행 결과가 0 or 1 (성공 or 실패 - 배반사건) 로 이산확률변수
- 베르누이 분포 : 단일한 베르누이 시행의 결과를 나타내는 이산확률분포
- 베르누이 시행 : 두가지 가능한 결과 중 하나가 나오는 실험
- 실험 결과는 "성공"과 "실패"로 구분 (배반사건)
- 각각의 결과가 발생할 확률은 고정되어 있다고 가정
- ex) 동전 던지기 > 앞면 : 성공, 뒷면 : 실패 로 정의할 수 있음
이항 분포
- 베르누이 시행을 N번 시행한 것
- ex) 동전 던지기 10번 던져서 앞면이 나온 횟수를 확률 변수로 둠
- 시행 결과가 횟수이므로 이산확률변수
카테고리 분포
- 베르누이 분포를 확장한 개념
- 카테고리 시행(여러개의 카테고리 중 하나 선택 실험)의 결과는 카테고리 분류를 따르게 됨
- 카테고리 분포를 누적하면 다항분포를 얻게 됨
다항분포
- 성공확률이 θ인 베르누이 시행을 n번 반복했을 때의 성공횟수가 이항분포를 따르는 것처럼, 성공확률인 카테고리 시행을 n번 반복했을 때의 각 카테고리별 성공횟수는 다항분포를 따르게 됨
가우시안 정규 분포
- 평균을 중심으로 좌우가 대칭인 종 모양을 그리는 정규분포
- σ와 μ는 그래프를 종모양으로 만드는데 사용
- μ는 확률 변수 X의 평균이고 σ는 확률 변수 X의 표준 편차
- 종 모양의 그래프는 평균을 기준으로 좌우 대칭
- 표준 편차가 높을 수록 그래프는 완만한 곡선 형태

t분포
- 정규분포와 같이 중심 좌우 대칭, 종모양 형태, 중심은 0으로 고정되어 있는 분포
- 자유도에 따라 종의 형태가 조금씩 변화
- 자유도(df, degree of freedom)는 표본수와 관련 있는 개념, 표본이 많아지면 표준정규분포와 거의 동일한 형태를 보임