2. 빅데이터 개요(2) - 빅데이터 처리 과정

2025. 3. 12. 16:34
반응형

빅데이터 처리는 단순한 데이터 처리와 달리 복잡한 과정을 포함한다. 일반 데이터보다 더 많은 시간과 다양한 고려사항이 필요하며, 이로 인해 데이터의 생성부터 수집, 저장, 처리, 분석, 표현까지 전체 과정에서 특화된 기술들이 사용된다.

 

본 포스터에서는 이러한 전체적인 처리 과정을 단계별로 살펴보고, 빅데이터의 종류 및 수집 방법 등 세부 항목에 대해 구체적으로 이야기하고자 다.

1. 빅데이터 전체 처리 과정

출처: https://ikkison.tistory.com/69

 

빅데이터 처리의 기본 흐름은 데이터 소스 → 수집 → 저장 → 처리 → 분석 → 표현의 순서를 따릅니다. 각 단계에서는 다음과 같은 기술과 방법이 활용된다.

과정 영역 개요
생성 내부 데이터 데이터베이스(Database), 파일 관리 시스템(File Management System)
외부 데이터 인터넷으로 연결된 파일, 멀티미디어, 스트링
수집 크롤링(Crawiling) 검색 엔진의 로봇을 사용한 데이터 수집
ETL(Extracttin, Transformation, Loading) 소스 데이터의 추출, 전송, 변환, 적제
저장 NOSQL 데이터베이스 비정형 데이터 관리
스토리지(Storage) 빅데이터 저장
서버(Server) 초경량 서버
처리 맵라듀스(MapReduce) 데이터 추출
프로세싱(Processing) 다중 업무 처리
분석 NLP(Neuro Linguistic Programming) 자연어 처리
기계 학습(Machine Learning) 기계 학습으로 데이터의 패턴 발견
직렬화(Serialzation) 데이터 간의 순서화
표현 가시화(Visualization) 데이터를 도표나 그래픽적으로 표현
희득(Acquisition) 데이터의 희득 및 재해석

 

2. 빅데이터 종류

빅데이터는 데이터의 특성에 따라 크게 세 가지 유형으로 구분된다.

  • 정형 데이터: 고정된 필드에 저장되어 있는 데이터로, 관계형 데이터베이스나 스프레드시트에 주로 저장된다.
  • 반정형 데이터: 고정된 필드는 없지만, 메타데이터나 스키마를 포함하고 있어 일정한 구조를 지니는 데이터다. HTML 텍스트 등이 이에 해당한다.
  • 비정형 데이터: 고정된 필드 없이 다양한 형태로 존재하는 데이터로, 이미지, 동영상, 음성 데이터 등이 대표적이다. 특히 최근에는 비정형 데이터의 양이 급증하고 있다.

 

3. 빅데이터 수집

빅데이터 수집은 데이터의 출처에 따라 내부 데이터와 외부 데이터로 나뉜다.

  • 내부 데이터:기존 시스템이나 데이터베이스에 저장되어 있는 데이터를 활용한다.
  • 외부 데이터: 웹 크롤링이나 API를 통해 인터넷 상의 공개 데이터를 수집한다.

외부 데이터 수집 방법에는 다음과 같은 방식들이 포함다.

방법 설명
로그 수집기 내부에 있는 웹 서버의 로그를 수집. 즉, 웹 로그, 트랜잭션 로그, 클릭 로그, DB의 로그 데이터 등 수집
크롤링 주로 웹 로봇으로 거미줄처럼 얽혀 있는 인터넷 링크를 따라다기며 방문한 웹 사이트의 웹 페이지라든가 고셜 데이터 등 인터넷에 공개되어 있는 데이터 수집
센싱 각종 센서로 데이터 수집
RSS 리더/오픈 API 데이터의 생산, 공유, 참여 환경인 웹 2.0을 구현하는 기술로 필요한 데이터를 프로그래밍으로 수집

ETL(Extraction, Transformation and Loading) 데이터의 추출, 변환, 적재의 약자로 , 다양한 소스 데이터를 취합해 데이터를 추출하고 하나의 공통된 형식으로 변환하여 데이터웨어하우스에 적재하는 과정 지원

 

4. 빅데이터 주요 수집 기술

여러 기업에서는 야후의 Chukwa, 페이스북의 Scribe 등 다양한 수집 도구와 기술을 활용하여 데이터를 수집하고 있다. 이를 통해 대기업들은 수집된 데이터를 가공, 분석하여 새로운 가치를 창출하고 있다.

 

5. 빅데이터 저장

수집된 데이터를 효율적으로 저장하기 위해 여러 가지 접근 방식과 기술이 활용된다. 대표적인 저장 기술 및 제품은 다음과 같다.

접근 방식 설명 제품
분산 파일 시스템 컴퓨터 네트워크로 공유하는 여러 호스트 컴퓨터 파일에 접근할 수 있는 파일 시스템 GFS(Google File System),
HDFS(Hadoop Distributed File System),
아마존 S3 파일 시스템
NoSQL 데이터 모델을 단순화해서 관계형 데이터 모델과 SQL을 사용하지 않은 모든 DBMS 또는 데이터 저장 장치 Cloudata, HBase, Cassandra
병렬 DBMS 다수의 마이크로프로세서를 사용하여 여러 디스크의 질의, 갱신, 입출력 등 데이터베이스 처리를 동시에 수행하는 데이터베이스 시스템 VoltDB, SAP HANA Vertiva, Greeplum, Netezza
네트워크 구성 저장 시스템 서로 다른 종류의 데이터 저장 장치를 하나의 데이터 서서베 연결하여 총괄적으로 데이터를 저장 및 관리 SAN(Storage Area Network),
NAS(Network Attached Storage)

 

간단히 말해, 분산 파일 시스템은 데이터를 여러 서버에 분산하여 저장하고 처리하는 시스템이며, NoSQL은 "Not Only SQL"의 줄임말로 전통적 관계형 데이터베이스 외 다양한 저장 방식을 지원하는 시스템이다. 또한 병렬 DBMS는 여러 프로세서를 이용해 대량의 데이터를 동시에 처리하며, 네트워크 기반 스토리지 시스템(예: NAS, SAN)도 분산 저장 개념을 일부 공유한다.

6. 빅데이터 처리

저장된 데이터를 효과적으로 활용하기 위해서는 빠른 처리 기술이 필요하다. 빅데이터 처리 방식은 데이터 생성 속도와 다양한 데이터 종류를 고려하여 개발되었으며, 최근에는 실시간 스트림 데이터 처리가 중요해지고 있다.

용어 설명
빅데이터 일괄 처리 기술 - 빅데이터를 여러 서버로 분산하여 각 서버에서 나누어 처리하거, 이를 다시 모아서 결과를 정리하는 분산, 뱡랼 기술 방식

- 구글 맵리듀스(구글에서 분산 컴퓨팅을 지원할 목적으로 제작, 발표한 소프트웨어 프레임워크, 함수형 프로그래밍에서 일반적으로 사용되는 맵(Map)과 리듀스(Reduce)함수를 기반으로 주로 구성), 하둡 매리듀스 마이크로소프트 드라이애드(Dryad)등이 있음
빅데이터 실시간 처리 기술 스트림 처리 기술로 강화된 스트림 컴퓨팅을 지원하는 IBM의 INfoSphere Streams(인포스피어 스트림스), 분산 환경에서 스트리밍 데이터를 분석할 수 있게 해주는 트위커의 스톰(Storm)
빅데이터 처리 프로그래밍 지원 기술 분산 데이터를 처리하는 프로그래밍 언어인 구글의 소잴(Sawzall)과 병렬 처리를 하는 고성능 데이터-플로우 언어와 실행 프레임워크인 하둡 Pig

 

전자 2개는 기술이며 후자는 지원하는 기술이다. 

 

7. 빅데이터 분석

데이터가 수집·저장·처리된 후에는 분석을 통해 유의미한 정보를 도출한다. 빅데이터 분석은 다양한 기법을 통해 데이터 내 숨겨진 패턴과 인사이트를 발견하는 데 중점을 둔다.

용어 설명
텍스트 마이닝(Text Mining) 자연어 처리(Natural Language Processing) 기술을 사용해 인간의 언어로 쓰인 비정형 텍스트에서 유용한 정보를 추출하거나 다은 데이터와의 연계성을 파악하며, 분류나 군집화 등 빅데이터에 숨겨진 의미 있는 정보를 발견하는 것.
웹 마이닝(Web Miniing) 인터넷에서 수집한 정보를 데이터 마이닝 기법으로 분석하는 것
오피니언 마이닝(Opninion Mining) - 다양한 온라인 뉴스와 소셜 미디어 코멘트, 사용자가 만든 콘텐츠에서 표현된 의견을 추출, 분류, 이해하고 자신화하는 컴퓨팅 기술
- 텍스트 속의 감성과 감동, 여러 가지 감정 상태를 식별하려고 감성 분석 사용
- 마케팅에서는 버즈(Buzz 입소문) 분석이라고 함
리얼리티 마이닝(Realilty Mining) - 휴대폰 등 기기를 사용하여 인관관계와 행동 양태 등을 추론하는 것
- 통화량, 통화 위치, 통화 상태, 대상, 내용 등을 분석하여 사용자의 인관관계, 행동 특성 등 정보를 찾아냄
소셜 네트워크 분석(Soscial Network Analysis) 수학의 그래프 이론(Graph Theory)을 바탕으로 소셜 네트워크 서비스에서 소셜 네트워크 연결 구조와 연결 강도를 분석하여 사용자의 명상 및 영향력을 측정하는 것
분류(Classification) - 미리 알려진 클래스들로 구분되는 훈련 데이터군(Group)을 학습시켜 새로 추가되는 데이터가 속할 만한 데이터군을 찾는 지도학습(Supervised Learning)방법
- 가장 대표적인 방법으로 KNN(K-Nearest Neighbor)이 있음
군집화(Clustering) - 특성이 비슷한 데이터를 합쳐 군(Group)으로 분류하는 학습 방법
- 분류와 달리 훈련 데이터군을 이용하지 않기 때문에 비지도 학습 방법(Unsupervised Learning)방법
- 트위터에서 주로 사진/카메라를 논의하는 사용자군과 게임에 관심 있는 사용자군 등 관심사나 취미에 따라 분류
기계 학습(Machine Learning) - 인공지능 분야에서 인간의 학습을 모델링한 것
- 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하여 수신한 이메일의 스패 여부를 판단할 수 있도록 훈련
- 결정 트리(Decision Tree)등 기호적 학습, 신경망이나 유전자 알고리즘 등 비기호적 학습, 베이지안(Bauesian)이나 은닉 마코프(Hidden Markov) 등 확률적 학습 등 다양한 기법이 있음
감성 분석(Sentiment Analysis) 문장의 의미를 파악하여 글의 내용에 긍정/부정, 좋음/나쁨 을 분류하거나 만족/불만족 강도를 지수화, 그런 다음 이 지수를 이용하여 고객의 감성 트랜드를 시계열적으로 분석하고 고객 감성 변화에 기업의 신속한 대응 및 부정적인 의견의 확산을 방지하는 데 황용

 

여러 기업들이 이러한 분석 기법을 지원하는 솔루션을 제공하지만, 세부적인 요구 사항에 따라 자체 개발이 필요할 수도 있다.

 

8. 빅데이터의 표현

출처:https://blog.altair.co.kr/69196/

 

최종적으로 분석된 데이터를 시각화(Visualization) 등의 방법으로 표현함으로써, 사용자가 직관적으로 이해하고 활용할 수 있도록 돕는다. 다양한 그래프, 차트, 인터랙티브 대시보드 등이 이러한 표현 기법에 포함된다.


이와 같이 빅데이터는 생성, 수집, 저장, 처리, 분석, 표현의 일련의 과정을 거치며, 각 단계마다 특화된 기술과 방법론이 적용된다. 이를 통해 방대한 데이터로부터 유의미한 인사이트를 도출하고, 새로운 가치를 창출할 수 있다.

 

다음 포스터에서는 이러한 빅데이터의 플랫폼에 대해서 이야기해보도록 하겠다.

반응형

BELATED ARTICLES

more