예시 데이터
- 지구형 행성과 목성형 행성의 반지름 (지구 = 1)
- 지구형 행성과 목성형 행성의 질량 (지구 = 1)
- 지구형 행성과 목성형 행성의 평균밀도 (kg/L)
- 20~24세 여자와 남자의 신장 (mm) - 사이즈 코리아(2020)
- 9월과 3월 미세먼지(PM10) 농도 (μ/m³, 2010~2020년) - 국가통계포털(2022)
- 강원도, 울산, 제주도의 기온 (℃)
정규분포
몸무게, 식물 꽃잎의 수, 시간당 떨어지는 낙엽 개수, 과일의 크기, 여러 개의 동전을 던졌을 때 앞면이 나온 동전 개수 등 자연에서 관찰될 수 있는 데이터를 도수 분포 그래프로 그려보면 많은 곳에서 가운데가 볼록 솟아오른 종 모양의 그래프를 얻을 수 있습니다.
이렇게 종 모양의 분포를 나타내는 데이터들을 수학적으로 모형화한 것이 정규분포입니다.
정규분포와 표준편차
데이터들이 흩어져 있는 정도를 하나의 숫자로 나타낸 것이 표준편차입니다.
데이터들이 평균(m)을 중심으로 가까이 모여 있다면 표준편차(s)는 작아지고, 데이터들이 서로 멀리 떨어져 있다면 표준편차는 커집니다.
데이터가 정규분포를 따른다고 하면, 평균을 중심으로 하여 구성 원소의 약 68.2%가 표준편차의 1배수(±1s) 안쪽에 속하고, 구성 원소의 약 95.5%가 표준편차의 2배수(±2s) 안쪽에 속합니다.