본문 바로가기
반응형

전체보기119

[빅데이터를 지탱하는 기술] 데이터 파이프라인이란? 책 Chapter1-2 : 빅데이터 분석 기반의 내용을 기반으로 정리한 글입니다.데이터 파이프라인의 구성요소데이터 파이프라인은 다양한 소스에서 데이터를 수집하고, 이를 처리 및 저장한 후 분석하는 과정을 말한다. 데이터 파이프라인의 주요 구성 요소와 각각의 기능을 살펴보자.1. 데이터 수집데이터 파이프라인의 시작은 데이터를 수집하는 것부터 시작된다. 외부 소스, 로그, 센서, API 등 다양한 소스에서 데이터를 수집한다.데이터 전송 방법- 벌크형(Bulk) : 이미 존재하는 데이터를 정리해 추출하는 방법으로, 보통 정기적으로 데이터를 수집할 때 사용된다. - 스트리밍형(Streaming) : 생성되는 데이터를 계속해서 전송하는 방법으로, 모바일 어플리케이션과 임베디드 장비 등에서 데이터를 수집할 때 사.. 2023. 11. 23.
[TIL] 231120 - 데브코스 36일차 학습 내용 밀린 강의 듣는 중(5주차 3, 4일차 강의) - GROUP BY - Aggregate 함수 : COUNT, SUM, AVG, MIN, MAX, LISTAGG - CTAS - CTE - JOIN : INNER JOIN, LEFT/RIGHT JOIN, FULL JOIN, CROSS JOIN, SELF JOIN 새로 알게 된 것 가장 많이 사용된 채널은? 이런 질문을 보면 가장 많이 사용되었다는 기준이 무엇인지에 대해서 생각을 해야 한다. 날짜 파싱 1. TO_CHAR(timestamp, 'YYYY-MM') 2. LEFT(timestamp, 자릿수) 3. DATE_TRUNC('month', timestamp) 4. SUBSTRING(timestamp, 시작위치, 추출할 문자열의 길이) CTAS :.. 2023. 11. 20.
[TIL] 231119 - 데브코스 35일차 학습 내용 2일차 강의 - Redshift 생성 - SQL : SELECT, CASE WHEN, COUNT, WHERE, ORDER BY 새로 알게 된 것 RedShift 를 생성할 때 이전에는 RedShift 프리티어를 제공했지만, 지금은 RedShift Serverless를 기준으로 300달러의 크레딧을 제공하고 있다. 과금은 무섭기 때문에 Serverless로 생성하고 Google Colab으로 연결하려고 했는데, 아래 블로그에 잘 정리되어 있어 수월하게 연결할 수 있었다. https://velog.io/@ssongji/AWS-RedShift-4.-AWS-RedShift-Serverless-%EC%83%9D%EC%84%B1 [AWS RedShift] 4. AWS RedShift Serverless .. 2023. 11. 19.
[TIL] 231113 - 데브코스 29일차 학습 내용 - 관계형 데이터베이스 - 데이터 웨어하우스 - 데이터 인프라 - Redshift 새로 알게 된 것 Star schema - production db용 관계형 데이터베이스에서 사용됨 - 데이터를 논리적 단위로 나누어 저장 - 필요한 경우 조인을 사용함 Denormalized schema - 데이터 웨어하우스에서 사용됨 - 단일 테이블로 구성되어 있어서 조인이 필요없음 데이터 웨어하우스 - SQL 기반의 관계형 데이터베이스 - ETL 혹은 데이터 파이프라인 - AWS의 RedShift, Google Cloud의 Big Query, Snowflake RedShift - 벌크 업데이트를 지원함 => 데이터 웨어하우스에 있는 대량의 데이터를 효율적으로 처리하기 위한 방법이다. 레코드가 들어있는 파일을.. 2023. 11. 13.
반응형