분류
|
|
代表値 / representative value. 혹은 위치 측도 / measure of location.
대푯값(또는 중심경향값, measure of central tendency)은 어떤 데이터를 대표하는 값이다. 한글 맞춤법에 따르면 사이시옷을 넣어서 '대푯값'이라고 써야 하지만 사이시옷이 없는 '대표값'으로도 곧잘 쓰인다.
평균, 중앙값, 최빈값, 백분위수, 사분위수, 절사평균 등이 있다. 일반적으로 대푯값은 수 하나로 표현되지만 최빈값 등은 두 개 이상의 값으로 표현되기도 한다.
대한민국 수학 교육과정에서는 보통 중학교 3학년 통계 단원에서 산포도와 함께 배웠으나(2015 개정 교육과정까지), 2022 개정 교육과정부터는 중학교 1학년에서 배우게 된다.
대푯값(또는 중심경향값, measure of central tendency)은 어떤 데이터를 대표하는 값이다. 한글 맞춤법에 따르면 사이시옷을 넣어서 '대푯값'이라고 써야 하지만 사이시옷이 없는 '대표값'으로도 곧잘 쓰인다.
평균, 중앙값, 최빈값, 백분위수, 사분위수, 절사평균 등이 있다. 일반적으로 대푯값은 수 하나로 표현되지만 최빈값 등은 두 개 이상의 값으로 표현되기도 한다.
대한민국 수학 교육과정에서는 보통 중학교 3학년 통계 단원에서 산포도와 함께 배웠으나(2015 개정 교육과정까지), 2022 개정 교육과정부터는 중학교 1학년에서 배우게 된다.
- 평균(mean)은 변량을 모두 더한 후 변량의 개수로 나눈 값이다.
- 최빈값(mode)은 가장 자주 나오는 값이다. 최빈값은 두 개 이상일 수도 있다. 또한 자료가 수가 아니어도 구할 수 있는 점은 장점이다. 하지만 최빈값은 자료의 상황에 따라서 없을 수도 있어서 다른 대푯값(평균, 중앙값)에 비해 오히려 중심적인 경향을 잘 나타내지 못하거나, 권위가 없을 수도 있다.
- 사분위수(quartile): 자료를 크기순으로 나열했을 때 4등분하는 관측값이다.
- 백분위수(percentile): 자료를 크기순으로 나열했을 때 x%인 관측값을 말한다.
- 절사 평균(trimmed mean): 관측값의 양쪽에서 일정 비율 α의 이상점을 버리고, 나머지 관측값들만으로 낸 평균을 100α% 절사 평균이라고 함.
- 기댓값(expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다.
산술 평균(mean)은 n개의 변량을 모두 더하여 그 개수로 나누어 놓은 숫자이다. 평균 중에서 가장 많이 쓰기에, 일반적으로 평균이라고 하면 산술 평균이다. 다른 평균이 궁금하면 평균 문서 참고
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24 |
대수적으로 건드리기가 쉬워서 사실상 가장 대중적이고 유명한 대푯값. 통계와 관계된 자료라면 항상 빠지지 않고 등장하는 수치이다. 그러나 이상치의 영향을 가장 많이 받는 것이 단점이다. 이상할 정도로 다른 변량들과 차이나는 변량이 들어차면 대표로서의 의미를 잃어버리게 된다. 그런 상황에선 아래의 값들을 사용한다.
중앙값또는 중위수(둘다 median)는 n개의 값을 크기 순으로 늘어놓았을 때 가장 가운데에 있는 값이다. n이 홀수일 때 중앙값은 (n+1)/2번째에 있는 값을, n이 짝수일 때는 n/2번째 값과 (n/2)+1번째 값의 평균을 중앙값으로 한다.
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24 |
여기서는 (n+1)/2번째 값인 8번째 있는 데이터 세 번째 가 중앙값이다. n이 짝수일 경우 10,20,30,80의 중앙값은 20도 30도 아니고 이다.
중앙값 개념은 각 표본들의 격차가 워낙 커서 평균값이 의미가 없고 그 순위(백분위)가 더 중요할 때 주로 쓴다. 예를 들어 국민소득을 대표할 수 있는 값을 구할 때 산술 평균(평균소득)을 쓰게 되면 부유한 쪽으로 극단적인 값이 나타날 수 밖에 없다. 때문에 국민들이 생각하는 일반적인 소득보다 높은 값이 나타나게 된다. 따라서 모든 국민을 소득순으로 줄세우기하여 가운데에 있는 사람의 소득인 중위소득이 보다 합리적인 대푯값이 될 것이다.
더 쉬운 예시를 들어, 임직원이 100명인 A사에서 사장을 제외한 99명의 연봉이 일괄 5천만 원인데 사장의 연봉만 100억이라면, A사의 '평균' 연봉은 1억 4950만 원이 된다. 'A사 평균 연봉이 1억 4851만이래요.'라고 직원들에게 전한다면 직원들은 모두 '말도 안 된다'라는 반응을 보일 것이다. 즉, 이런 이상치가 존재하는 상황에서 평균은 대표성을 잃게 되고, 이것이 바로 평균의 함정이다.
이처럼 극단적인 값이 있는 경우에는 중앙값이 평균값보다 유용하다. 평균은 쉽게 변하지만 중앙값은 확률변수의 총 개수만 알면 거의 변하지 않는데, 이를 강고/강건하다(Robust)라고 하며, 중앙값이 가진 대표적인 성질이다. 통계 관련 문제에 Robust라는 단어가 보이면 무조건 중앙값에 해당하는 설명이니까 참고하자.
중앙값은 극단의 관찰값이 확정되지 않았을 때, 또는 자료가 극단성을 포함할 여지가 있도록 개방된(open-ended) 경우에도 유용하게 사용할 수 있다. 예를 들어, 10명이 퍼즐을 푸는 평균 시간을 측정하는데, 9명은 12분 언저리에서 풀었지만 1명은 측정 한계시간 1시간을 훌쩍 넘기도록 여전히 끙끙거리는 바람에 측정이 중단된 경우. 이런 경우에는 애초에 평균을 낼 수도 없기 때문에 중앙값을 이용해야 한다. 마지막 한 사람의 기록을 대충 60분으로 보고 평균을 내도 17분 정도가 나오기 때문에 평균값은 실제로 구하고자 하는 값과 많이 달라진다.
중앙값 개념은 각 표본들의 격차가 워낙 커서 평균값이 의미가 없고 그 순위(백분위)가 더 중요할 때 주로 쓴다. 예를 들어 국민소득을 대표할 수 있는 값을 구할 때 산술 평균(평균소득)을 쓰게 되면 부유한 쪽으로 극단적인 값이 나타날 수 밖에 없다. 때문에 국민들이 생각하는 일반적인 소득보다 높은 값이 나타나게 된다. 따라서 모든 국민을 소득순으로 줄세우기하여 가운데에 있는 사람의 소득인 중위소득이 보다 합리적인 대푯값이 될 것이다.
더 쉬운 예시를 들어, 임직원이 100명인 A사에서 사장을 제외한 99명의 연봉이 일괄 5천만 원인데 사장의 연봉만 100억이라면, A사의 '평균' 연봉은 1억 4950만 원이 된다. 'A사 평균 연봉이 1억 4851만이래요.'라고 직원들에게 전한다면 직원들은 모두 '말도 안 된다'라는 반응을 보일 것이다. 즉, 이런 이상치가 존재하는 상황에서 평균은 대표성을 잃게 되고, 이것이 바로 평균의 함정이다.
이처럼 극단적인 값이 있는 경우에는 중앙값이 평균값보다 유용하다. 평균은 쉽게 변하지만 중앙값은 확률변수의 총 개수만 알면 거의 변하지 않는데, 이를 강고/강건하다(Robust)라고 하며, 중앙값이 가진 대표적인 성질이다. 통계 관련 문제에 Robust라는 단어가 보이면 무조건 중앙값에 해당하는 설명이니까 참고하자.
중앙값은 극단의 관찰값이 확정되지 않았을 때, 또는 자료가 극단성을 포함할 여지가 있도록 개방된(open-ended) 경우에도 유용하게 사용할 수 있다. 예를 들어, 10명이 퍼즐을 푸는 평균 시간을 측정하는데, 9명은 12분 언저리에서 풀었지만 1명은 측정 한계시간 1시간을 훌쩍 넘기도록 여전히 끙끙거리는 바람에 측정이 중단된 경우. 이런 경우에는 애초에 평균을 낼 수도 없기 때문에 중앙값을 이용해야 한다. 마지막 한 사람의 기록을 대충 60분으로 보고 평균을 내도 17분 정도가 나오기 때문에 평균값은 실제로 구하고자 하는 값과 많이 달라진다.
최빈값(mode)은 가장 빈번하게 등장하는 값을 의미한다. 최빈수라고도 한다.
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24 |
위 데이터에서는 5가 네 번 나타나므로 최빈값은 이다.
최빈값는 각 값의 수치적 평균값이 의미 없고 대소 관계가 없을 때 사용한다. 그래서 질적 자료의 대표값을 선정할 때 많이 쓴다. 질적 자료는 수치의 우열이 없으므로 평균이나 중앙값을 사용할 수 없기 때문이다.
최빈값은 여러 개가 될 수도 있다. 예를 들어 사람들의 출생한 달이나 요일 따위.
그런데 모든 관찰값이 동일하게 나타날 경우 모든 값이 최빈값에 해당하므로, '최빈값은 의미가 없다'고 하며 '최빈값이 없다'라고도 줄여 부른다.
최빈값는 각 값의 수치적 평균값이 의미 없고 대소 관계가 없을 때 사용한다. 그래서 질적 자료의 대표값을 선정할 때 많이 쓴다. 질적 자료는 수치의 우열이 없으므로 평균이나 중앙값을 사용할 수 없기 때문이다.
최빈값은 여러 개가 될 수도 있다. 예를 들어 사람들의 출생한 달이나 요일 따위.
그런데 모든 관찰값이 동일하게 나타날 경우 모든 값이 최빈값에 해당하므로, '최빈값은 의미가 없다'고 하며 '최빈값이 없다'라고도 줄여 부른다.
자료를 같은 갯수를 가진 4개의 그룹으로 나누는 각각의 기준값을 사분위수(quartile)라고 한다.
데이터의 인덱스를 , 총 갯수를 이라고 한 뒤, 데이터마다 각각 을 부여한다. 가 각각 0.25, 0.5, 0.75일 때의 값이 , , 가 된다. 특성상 는 중앙값과 같다.
만약 가 정확히 0.25 따위로 떨어지지 않는다면, 원하는 사분률 바로 위 아래의 값 두 개를 통해 보간한다.
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
데이터의 인덱스를 , 총 갯수를 이라고 한 뒤, 데이터마다 각각 을 부여한다. 가 각각 0.25, 0.5, 0.75일 때의 값이 , , 가 된다. 특성상 는 중앙값과 같다.
만약 가 정확히 0.25 따위로 떨어지지 않는다면, 원하는 사분률 바로 위 아래의 값 두 개를 통해 보간한다.
예시로 다음의 15개 자료를 가지고 대푯값을 구해본다면 다음과 같다.
1, 1, 2, 3, 4, 5, 5, 5, 5, 7, 8, 9, 10, 11, 24 |
위 데이터를 기준으로 사분위수를 찾아보자. 먼저 일 때.
, 이므로, 이 인덱스에 해당하는 두 데이터(3과 4)를 보간하면 가 나온다.
는 일 때의 값인데, 이 정확히 이므로 이 인덱스(8)에 해당하는 데이터 5가 가 된다.
마지막으로 인데, , 이므로, 해당 인덱스에 해당하는 두 데이터(8과 9)를 가지고 가 되도록 보간하면 가 나온다.
사분위간 범위(interquartile range, IQR)는 Q3에서 Q1을 뺀 값으로, 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. 위의 예에서는 8.5 - 3.5 = 5이다.
, 이므로, 이 인덱스에 해당하는 두 데이터(3과 4)를 보간하면 가 나온다.
는 일 때의 값인데, 이 정확히 이므로 이 인덱스(8)에 해당하는 데이터 5가 가 된다.
마지막으로 인데, , 이므로, 해당 인덱스에 해당하는 두 데이터(8과 9)를 가지고 가 되도록 보간하면 가 나온다.
사분위간 범위(interquartile range, IQR)는 Q3에서 Q1을 뺀 값으로, 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. 위의 예에서는 8.5 - 3.5 = 5이다.
정규분포(normal distribution)에서 평균(mean), 최빈값(mode), 중앙값(median)은 전부 동일한 위치에 놓이는 높은 집중도를 보이지만, 분포(도)의 모양이 달라질 경우 세 값은 서로 달라질 수 있다. 예를 들어 기울어진(skewed) 분포에서는 두 가지 경우가 있는데, 왼쪽으로 기울어진 경우(정적편포, positive skewed distribution) 값이 작은 순으로 정렬하면 최빈값, 중앙값, 평균이 나오고, 오른쪽으로 기울어진 경우(부적편포, negative skewed distribution) 값이 작은 순으로 정렬하면 평균, 중앙값, 최빈값이 나온다. 평균은 긴 꼬리 쪽으로 이끌려가는데, 이는 평균이 극단값에 크게 영향을 받기 때문이다. 중앙값은 움직이지 않는다. 반면 최빈값은 평균과 반대방향으로 움직이며, 그 정의상 곡선의 최고점에서 벗어나지 않는다. 중앙값을 그래서 강고(robust)하다라고 표현한다. 이는 중앙값은 이상값들의 영향을 적게 받기 때문이다. 각각의 값들의 차이는 기울어진 정도가 클수록 커지며, 기울어진 정도를 따로 왜도(skewness)라고 부르기도 한다.
첨도(kurtosis)는 그래프가 세로로 뾰족한 정도이다.
위의 대푯값 모두 각 값들과의 거리가 최소가 되는 값, 즉 분산도가 최소가 되는 값들이다. 단지 각 값들의 거리를 어떻게 측정하느냐에 따라 무엇이 대푯값이 되는지 다를 뿐이다. 거리를 (x-y)2으로 정의하면 평균이, lx-yl로 정의하면 중앙값이, 차이가 있을 때 1이고 없을 때 0으로 정의하면 최빈값이 대푯값이 된다.(김태수, '통계학 입문', 자유아카데미, 2010, pp.11-13)
한편 평균(mean)과 중앙값(median) 그리고 최빈값(mode)들의 집중도를 조사하여 중심경향값인 중심값을 표현하고 이를 다루어볼 수도 있다.
이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외)
기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권을 갖습니다.
나무위키는 백과사전이 아니며 검증되지 않았거나, 편향적이거나, 잘못된 서술이 있을 수 있습니다.
나무위키는 위키위키입니다. 여러분이 직접 문서를 고칠 수 있으며, 다른 사람의 의견을 원할 경우 직접 토론을 발제할 수 있습니다.