Data Pipeline

데이터 인프라 이해하기

재심 2022. 10. 23. 10:14

[데이터 인프라의 목적]

  • 비즈니스 리더들의 결정을 도와주기
  • 서비스나 제품을 데이터의 도움을 받아 발전시키기

데이터 웨어하우스?

  • 데이터 인프라의 기초는 각종 운영시스템이다.
  • 이 데이터들을 분석하고 싶으면 각각의 분석 도구를 붙여아 한다.
    • 어느 순간부터는  통합된 데이터 분석 환경이 필요하게 되었다. 그래서 다양한 소스로부터 데이터를 저장하는 DataWarehouse라는 곳이 필요하게 됨. 

데이터 유형의 차이

  • 운영시스템(Normalized Schema): 모든 데이터를 쪼개서 관리함.
  • Warehouse(Dimensional Schema): 분석을 위한 단순한 데이터들만 관리함.

 

[ETL, ELT]

ETL이란 데이터의 추출(Extract), 변환(Transform), 로드(Load)를 나타내며 조직에서 여러 시스템의 데이터를 여러 저장소로 옮기기 위해 사용되는 방법을 의미한다.

 

ETL, ELT의 차이

  • ETL은 데이터의 추출, 변환, 로드의 프로세스. ELT는 데이터의 추출, 로드, 변환 프로세스를 거침
  • ETL은 데이터 소스에서 스테이징을 거쳐 데이터웨어하우스로 이동
  • ELT는 데이터웨어하우스를 활용하여 기본변환을 수행하므로 데이터를 스테이징을 할 필요가 없음.
  • ETL은 민감 데이터를 정리한 후 데이터 웨어하우스에 로드하므로 정보보안에 도움이 될 수 있음.
  • ETL은 자동화와 변환시키는 과정이 쉽지는 않다고 한다. 그래서 ELT를 활용하는 경우도 많음.

구성요소

  • Source: 원천이 되는 데이터
  • Ingesstion and Transformation: 데이터를 가져와서 변환
  • Storage: 저장소  
  • Hisstorical: 예전 데이터 분석
  • Predictive: 미래 데이터 예상 (ML)
  • Output: 결과

 

 

 

 

 

'Data Pipeline' 카테고리의 다른 글

CDC (Change Data Capture) ?  (0) 2022.11.02