본문 바로가기
Computer Science(컴퓨터 과학)/빅데이터

빅데이터 다루기1 - 통계

by BioLearner 2024. 10. 16.
반응형

실제로 빅데이터를 어떻게 다룰까? 그 방법 중 하나는 데이터를 시각적으로 이해하기 쉽게 통계를 사용하는 것이다. 가장 잘 알려진 통계적 개념 중 하나인 '평균'도 빅데이터를 효과적으로 분석하는 데 활용된다.

 

오늘은 빅데이터를 다루기 위한 통계적 방법에 대해 이야기해보겠다.

 

1. 빈도, 합계, 평균, 최대, 최소, 최빈 , 중간

위의 항목들은 통계학에서 사용하는 기본 개념들이다. 이러한 통계적 도구들은 데이터가 어떤 값을 나타내는지 분석하는 데 매우 유용하다. 이를 통해 우리는 데이터의 전반적인 특성을 파악하고, 통찰력 있는 결론을 도출할 수 있다.

 

 

이제 예시를 통해 이 개념들이 어떻게 적용되는지 살펴보겠다. 그림을 보면 처음에는 그 의미를 파악하기 어려울 수 있지만, 오른쪽에서 추가적인 정보를 확인하면 대략적인 의미를 이해할 수 있다.

 

빅데이터 분석도 마찬가지다. 데이터를 시각화하고 통계적 방법을 활용하면, 값들이 가지는 의미를 명확하게 파악할 수 있다. 이러한 과정은 데이터에서 유의미한 정보를 추출하는 데 필수적이다.

 

 

2. 평균, 분산, 표준편차

수치들을 이해하는 방법 중 하나는 평균, 분산, 표준편차를 사용하는 것도 있다. 이 세 가지 통계적 개념은 데이터의 중심 경향과 변동성을 파악하는 데 중요한 역할을 한다.

 

평균은 데이터의 중심값을 나타내며, 모든 데이터 값을 합산한 후 데이터의 개수로 나누어 계산됩니다. 평균은 데이터 집합의 일반적인 경향을 파악하는 데 유용하지만, 극단적인 값에 민감할 수 있다.

 

분산은 데이터 값들이 평균값에서 얼마나 떨어져 있는지를 나타내는 지표다. 데이터의 각 값과 평균값의 차이를 제곱한 후, 그 값들의 평균을 구함으로써 계산된다. 분산이 크면 데이터 값들이 평균으로부터 멀리 떨어져 분포하고 있다는 것을 의미하며, 이는 데이터의 변동성이 크다는 것을 나타낸다.

 

표준편차는 분산의 제곱근으로, 데이터의 분포가 평균값으로부터 얼마나 퍼져 있는지를 직관적으로 보여주는 지표다. 표준편차는 분산보다 단위가 원래 데이터와 같아 해석하기가 더 용이하다. 표준편차가 작으면 데이터 값들이 평균값에 가깝게 모여 있다는 것을 의미하고, 표준편차가 크면 데이터 값들이 평균값에서 멀리 퍼져 있다는 것을 의미한다.

 

 

위는 예시이다. 이 그림을 보면 분산은 매우 넓다는 것을 알 수 있고 점수가 거의 100점씩 차이가 나는 것을 한눈에 알아 볼 수 있게 된다. 

 

3. 그래프 사용

위에서 설명한 방법 외에도 빅데이터의 의미를 이해하는 데 있어 중요한 도구가 바로 그래프다. 그래프는 데이터를 시각적으로 표현하여 정보를 보다 직관적으로 이해할 수 있게 해준다. 데이터의 패턴이나 트렌드를 시각적으로 파악함으로써, 수치적 분석보다 훨씬 더 쉽게 데이터의 의미를 이해할 수 있다.

예를 들어, 학생의 토익 점수를 그래프로 나타낸다고 가정해보자. 숫자로만 파악할 때보다 그래프를 활용하면 데이터의 변화를 한눈에 알아볼 수 있다. 특정 학생의 11번째 토익 성적을 예측해보면, "31.273 x 11 + 300 = 644점"이라는 수식을 통해 대략 640점 정도 맞을 것으로 예상할 수 있다. 이렇게 그래프를 사용하면 단순한 숫자 나열로는 놓칠 수 있는 통찰을 제공받을 수 있다.

 

결국, 그래프는 복잡한 데이터를 쉽게 시각화하여 우리에게 유용한 정보를 제공하며, 데이터의 의미를 보다 명확히 이해하는 데 큰 도움이 된다.

반응형