본문 바로가기
Computer Science(컴퓨터 과학)/빅데이터

빅데이터 다루기3 - 평균

by BioLearner 2024. 10. 23.
반응형

빅데이터를 다루는 방법은 다양하다. 그 중 하나는 그래프를 활용하는 것이다. 그래프는 데이터의 상관관계, 추세, 비교 등을 시각적으로 표현하여 쉽게 이해할 수 있도록 도와준다. 그러나 이러한 시각적 도구보다 더 함축적으로 데이터를 하나의 값으로 요약하는 방법이 있다. 바로 평균이다. 평균은 빅데이터 분석에서 널리 사용되는 중요한 지표로, 데이터의 전반적인 경향을 파악하는 데 큰 도움을 준다.

 

오늘은 이러한 평균에 대해 자세하게 알아보도록 하겠다.

 

1. 산술평균 (Arithmetic Mean)

정의: 산술평균은 가장 일반적으로 사용되는 평균으로, 주어진 값들의 합을 값의 개수로 나눈 것이다. 수식으로 표현하면 다음과 같다.

여기서 xi는 각 관측값을 나타내고, n은 총 관측값의 수다.

 

특징:

  • 직관성: 산술평균은 간단하고 직관적으로 이해할 수 있어 많은 사람들에게 가장 익숙한 형태다.
  • 극단값의 영향: 그러나 산술평균은 극단값(outlier)에 민감하다. 예를 들어, 1, 2, 3, 4, 100이라는 데이터가 있을 때, 산술평균은 22가 되어 극단값이 전체 평균에 큰 영향을 미치게 된다.

적용 예: 산술평균은 평균 성적, 평균 수익 등과 같이 동일한 단위로 측정된 데이터를 요약하는 데 적합하다.

 

예로 들어 어떤 반에 달리기 속도의 수준이 어떤가 보면 평균을 통해 대략적으로 생각할 수 있다. 하지만 이러한 접근은 옳은 건 아니기에 대략적으로 보는데 가장 좋다.

 

2. 기하평균 (Geometric Mean)

정의: 기하평균은 데이터의 곱을 데이터 개수로 제곱한 값을 의미한다. 수식으로 표현하면 다음과 같다:

특징:

  • 비율의 평균: 기하평균은 비율이나 상대적 변화가 중요한 데이터(예: 금융 수익률)에 적합하다. 이는 각 데이터 포인트의 상대적 영향을 반영하기 때문이다.
  • 극단값의 완화: 기하평균은 극단값의 영향을 덜 받으며, 데이터가 모두 양수일 때에만 정의된다.

적용 예: 기하평균은 투자 수익률, 성장률 등 비율 기반의 데이터를 분석할 때 유용하다. 예를 들어, 투자 수익률이 10%와 20%일 때 기하평균을 사용하면, 두 수익률의 평균 성장률을 더 잘 표현할 수 있다.

 

예로 들어 이상치 1개가 있는 경우 산술평균을 통해 계산하게 되면 오류를 범할 수가 있다. 그러나 이것을 사용하여 생각하면 이상치에 대한 오류를 피할수가 있게 된다. 이런 부분에서 기하평균은 좋은 지표가 될 수 있다.

3. 조화평균 (Harmonic Mean)

정의: 조화평균은 데이터의 역수의 평균으로, 데이터 값의 역수의 산술평균을 다시 역수로 변환한 것이다. 수식으로 표현하면 다음과 같다:

특징:

  • 비율의 강조: 조화평균은 속도나 비율 기반 데이터를 분석할 때 특히 유용하며, 극단적으로 작은 값에 민감하다.
  • 응용 가능성: 조화평균은 교통 속도, 투자 기간 등에서 각 구간의 속도를 구할 때 효과적이다.

적용 예: 교통 수단의 평균 속도 계산, 작업의 평균 처리율 등 비율 중심의 데이터 분석에 적합하다.

 

예로 들어 10km/s의 이동수단이 있고 5km/s의 이동수단이 있다고 하면 이들의 평균을 구할 때, 7.5km/s로 대략적으로 계산할 수 있다. 하지만 이값들은 분수가 들어간 값으로 결과값이 정확하지가 않다. 이럴 때, 조화평균을 사용하게 되면 정확하게 평균을 이해할 수 있다. 조화평균으로 계산하면 약 6.67 km/s다. 

4. 가중 평균 (Weighted Mean)

정의: 가중 평균은 각 데이터 값에 특정 가중치를 부여하여 평균을 계산한 것이다. 수식으로 표현하면 다음과 같다:

여기서 wi는 각 데이터 값의 가중치를 나타낸다.

특징:

  • 가중치의 중요성: 각 데이터 포인트에 다른 중요도를 부여하여 보다 정교한 평균을 계산할 수 있다.
  • 적용의 유연성: 다양한 분야에서 데이터의 중요도를 반영할 수 있는 유연한 도구다.

적용 예: 학업 성적 계산에서 과목별 중요도를 반영하거나, 투자 포트폴리오의 평균 수익률 계산에 사용된다.

 

이러한 계산은 대표적으로 대학교 학점 계산이 있다. 만약에 중요도가 없는 것이 평균에서 다른 것들과 같이 계산되면 결과값에 오류가 날 수 있다. 이것은 이러한 오류를 고칠 수 있게 할 수 있다. 

 


마지막 하고 싶은말

다양한 평균은 데이터의 성격에 따라 적절히 선택되어야 하며, 각 평균은 고유한 특성을 지니고 있다. 하지만 데이터 분석에서 중요한 것은 단순히 평균을 계산하는 것이 아니라, 데이터의 본질을 이해하고 분석 목적에 맞는 방법을 신중하게 선택하는 것이다. 이를 통해서만 정확한 결론에 도달할 수 있다.

 

이와 같은 이해 없이 자주 언급되는 표현 중 하나가 "국평오"다. 이 표현은 보통 사람들의 무지를 비판하는 데 사용되며, 일부 지식인들이 나머지 사람들의 결함을 메워 나라가 유지된다는 논지로 해석되기도 한다. 그러나 이는 평균에 대한 잘못된 이해에서 비롯된 것이다. 평균을 맥락 없이 단순하게 적용함으로써, 개개인의 차이를 고려하지 않는 일반화의 오류를 범하고 있다.

 

예를 들어, 수능 점수는 학생들의 성적을 정규화하여 정규분포에 맞추는 방식으로 산출된다. 만약 하위 30%가 5등급을 받는 구조라면, 평균 등급은 7등급으로 치우칠 것이고, 상위 80%가 5등급을 받는다면 평균 등급은 2~3등급으로 올라갈 수 있다. "국평오"라는 주장은 이러한 정규화 과정을 이해하지 못한 데서 비롯된 것이다.

 

수능처럼 성적을 정규분포에 맞춰 상대적으로 등급을 부여하는 평가 방식에서는, 각 학생의 성적보다 상대적 순위가 더 중요한 역할을 한다. 따라서 "모든 사람이 5등급이다"라는 발상은 절대적인 성적과 상대적인 평가의 차이를 혼동한 것이다. 상대 평가에서의 5등급은 절대적인 성적이 아니라 다른 학생들과의 비교 속에서 결정되는 것이다. 그러므로 이러한 주장은 상대 평가의 본질을 오해한 결과라고 할 수 있다.

 

반대로, 평균에 대해 제대로 이해하는 사람들은 산술평균에만 의존하지 않고 다양한 통계적 지표를 함께 분석하여 더 정교한 결론을 도출한다. 이는 데이터 분석의 핵심이다. 평균의 특성과 한계를 충분히 인지하고 이를 올바르게 활용할 때, 데이터 해석의 정확성은 높아지고 분석의 깊이는 더욱 깊어진다.

 

결론적으로, 데이터 분석은 단순한 숫자의 나열이 아니라 그 뒤에 숨겨진 의미와 맥락을 이해하는 과정이다. "국평오"와 같은 표현은 평균의 개념을 왜곡한 대표적인 사례이며, 우리는 데이터를 해석할 때 보다 넓고 깊은 시각을 유지해야 한다. 편견에 휩쓸리지 않고 정확한 분석을 위해 끊임없이 노력하는 자세가 중요하다.

반응형