본문 바로가기
Data/책

[빅데이터를 지탱하는 기술] 데이터 파이프라인이란?

by 투말치 2023. 11. 23.

목차

    반응형

     

    책 <빅데이터를 지탱하는 기술> Chapter1-2 : 빅데이터 분석 기반의 내용을 기반으로 정리한 글입니다.

    데이터 파이프라인의 구성요소

    데이터 파이프라인은 다양한 소스에서 데이터를 수집하고, 이를 처리 및 저장한 후 분석하는 과정을 말한다. 데이터 파이프라인의 주요 구성 요소와 각각의 기능을 살펴보자.

    1. 데이터 수집

    데이터 파이프라인의 시작은 데이터를 수집하는 것부터 시작된다. 외부 소스, 로그, 센서, API 등 다양한 소스에서 데이터를 수집한다.

    데이터 전송 방법

    - 벌크형(Bulk) : 이미 존재하는 데이터를 정리해 추출하는 방법으로, 보통 정기적으로 데이터를 수집할 때 사용된다.
    - 스트리밍형(Streaming) : 생성되는 데이터를 계속해서 전송하는 방법으로, 모바일 어플리케이션과 임베디드 장비 등에서 데이터를 수집할 때 사용된다.

    2. 데이터 처리

    데이터 처리 단계는 스트림 처리와 배치 처리로 나뉜다.

     

    스트림 처리

    - 스트리밍형으로 전송받은 데이터를 실시간으로 처리한다.
    - 실시간 알림, 이벤트 기반 처리, 실시간 모니터링 등에 활용된다.
    - 사용되는 기술: Apache Kafka Streams, Apache Flink, Apache Storm
    - 대표적인 시계열 데이터베이스: InfluxDB

     

    배치 처리

    - 일정한 주기에 따라 대량의 데이터를 일괄적으로 처리한다.
    - 주로 ETL 프로세스에서 활용된다.
    - 사용되는 기술: Apache Hadoop, Apache Spark

     

    3. 데이터 저장

    수집된 데이터는 분산 스토리지에 저장된다. 분산 스토리지는 여러 컴퓨터와 디스크에서 구성된 스토리지 시스템이다. 데이터를 저장할 때는 객체 스토리지(Amazon S3 등)나 NoSQL 데이터베이스를 분산 스토리지로 사용할 수 있다.

     

    4. 분산 데이터 처리

    분산 데이터 처리는 분산 스토리지에 저장된 데이터를 처리하는 것을 말한다. 사용되는 기술로 MapReduce, Hadoop, Spark 등이 있다. SQL을 사용해 데이터를 분석할 수 있는 기술로는 Hive, Impala가 있다.

     

    5. 워크 플로 관리

    데이터 파이프라인의 전체적인 동작을 관리하기 위해 사용되는 기술이다. 데이터 흐름을 효율적으로 관리하고 감시하는 데 도움이 된다.

     

    기본형 데이터 파이프라인

     

     

    데이터 웨어하우스를 중심으로 구성된 파이프라인이다.

    데이터 웨어하우스는 기업 전체의 데이터들을 통합하여 중앙 집중식으로 저장하고 관리하는 시스템이다.

    데이터 소스에서 로우 데이터를 추출하고 가공한 후 데이터 웨어하우스에 저장하는 흐름이 ETL 프로세스다.

    데이터 마트는 특정 부서나 업무 영역을 위한 데이터 스토리지 시스템을 말한다.

     

    데이터 레이크를 중심으로 하는 파이프라인

     

    데이터 레이크는 다양한 종류의 대규모 데이터를 원시 형태로 저장한다. 주로 CSV나 JSON 등의 형식을 사용하며, 데이터를 가공하기 위해 분산 데이터 처리 기술을 사용한다.

     

    데이터를 수집하는 목적

    1. 데이터 검색

     

    대량의 데이터 중 조건에 맞는 것을 찾고 싶은 경우, 실시간 데이터 처리와 검색 엔진을 사용해 신속한 검색이 필요하다.

    2. 데이터 가공

    데이터 처리 결과를 이용하고 싶은 경우에는 데이터 가공이 목적이다. 데이터 가공은 자동화가 필수적이며, 이를 위해 워크플로 관리 시스템을 구축해야 한다.

     

    3. 데이터 시각화

    데이터를 시각화해 원하는 정보를 얻기 위해 반복적인 분석이 필요하다. 시각화를 고속화하려면 데이터 마트가 필요하다.

     

    데이터 분석

    1. 확증적 데이터 분석 : 가설을 세우고 그것을 검증하는 과정이다.

    2. 탐색적 데이터 분석 : 데이터를 보면서 의미를 읽어내는 과정이다.

     

     


     

    더 자세한 내용은 책 "빅데이터를 지탱하는 기술"에서 확인할 수 있습니다. 

     

    출처 : 책 <빅데이터를 지탱하는 기술>

    https://product.kyobobook.co.kr/detail/S000001916916

     

    빅데이터를 지탱하는 기술 | 니시다 케이스케 - 교보문고

    빅데이터를 지탱하는 기술 |

    product.kyobobook.co.kr

     

    반응형