정보

    • 업무명     : 데이터분석 전문가 (ADP) 필기 : 제2과목 데이터 처리 기술 이해
    • 작성자     : 이상호
    • 작성일     : 2022.10.15
    • 설   명      :
    • 수정이력 :

     

     

     내용

    [ETL (Extraction, Transformation and Load)]

    • Extraction (추출) : 원천들로부터 데이터 획득
    • Transformation (변형) : 데이터 클렌징, 형식변환, 표준화,통합
    • Load (적재) : 적재

     

    [ODS (Operational Data Store) 구성]

    • 데이터에 추가 작업을 위해 다양한 데이터 원천들로부터의 데이터 추출 통합한 데이터베이스

     

    [데이터웨어하우스 특징]

    • 주제 중심 : 데이터 웨어하우스의 데이터는 실 업무 상황의 특정 이벤트나 업무 항목을 기준으로 구조화된다.
    • 영속성 : 데이터 웨어하우스의 데이터는 최초 저장 이후에는 읽기 전용 속성을 가지며 삭제되지 않는다.
    • 통합성 : 데이터 웨어하우스의 데이터는 기관, 조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본이다.
    • 시계열성 : 운영 시스템들은 최신 데이터를 보유하고 있지만, 데이터 웨어하우스는 시간순에 의한 이력 데이터를 보유한다.

     

    • 스타 스키마

     

    • 스노우 플레이크 스키마 : 스타스키마의 차원 테이블을 제3정규형으로 정규화한 형태

     

    [CDC (Change Data Capture)]

    • 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속처리(데이터 전송/공유)를 자동화하는 기술 또는 설계 기법이자 구조 
    • CDC 구현 기법
      • Time Stamps on Rows 
      • Version Numbers on Rows
      • Stratus on Rows
      • Time/Version/Status on Rows
      • Triggers on Tables
      • Event Programming
      • Log Scanner on Database

     

    [EAI (Enterprise Application Integration)]

    • 기업 정보 시스템들의 데이터를 연계 통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크
    • 구현 유형
      • 가. Meditation (intra-communication) : Publish – subscribe 모델
        • EAI 엔진이 중개자로 동작
      • 나. Federation(inter-communication) : Request – reply 모델
        • EAI 엔진이 외부 정보 시스템(고객 또는 파트너)으로부터의 
          데이터 요청들을 일괄적으로 수령해 필요한 데이터를 전달

     

    [데이터 연계 및 통합 기법 요약]

    • 데이터 연계 밑 통합 아키텍처 비교
    일괄 통합 비동기식 실시간 통합 동기식 실시간 통합
    비실시간 데이터 통합
    대용량 데이터 대상
    높은 데이터 조작 복잡성
    데이터 추출
    데이터 변형
    데이터 적재
    Change data capture
    감사 증적(audit trail)
    웹 서비스/SOA
    교차 참조
    데이터 재 처리 허용
    점대점 데이터 연계
    자동화 도구 및 자체 개발 SW 혼용
    근접 실시간 데이터 통합
    중간 용량 데이터
    중간 데이터 조작 복잡성
    데이터 추출,변형, 적재
    Change data capture
    Data pooling and DB Streams
    웹 서비스/SOA
    감사 증적(audit trail)
    교차 참조
    다수 데이터 원천 및 목표 시스템
    데이터 재 처리 허용
    자동화 도구 및 자체 개발 SW 혼용



    실시간 데이터 통합
    목표 시스템 데이터 처리 가능시에만 원천 데이터 획득
    데이터 추출,변형,적재
    웹 서비스/SOA
    Single transaction integration
    단일 트랜잭션 단위 데이터 통합
    데이터 재처리 불가
    단일 또는 다수 데이터 원천
    감사 증적(audit trail)


     

    • 일괄 통합 
      • 비실시간 데이터 통합    
      • 대용량 데이터 대상
      • 높은 데이터 조작 복잡성
      • 데이터 추출
      • 데이터 변형
      • 데이터 적재
      • Change data capture
      • 감사 증적(audit trail)
      • 웹 서비스/SOA
      • 교차 참조
      • 데이터 재 처리 허용
      • 점대점 데이터 연계
      • 자동화 도구 및 자체 개발 SW 혼용
    • 비동기식 실시간 통합
      • 근접 실시간 데이터 통합
      • 중간 용량 데이터
      • 중간 데이터 조작 복잡성
      • 데이터 추출,변형, 적재
      • Change data capture
      • Data pooling and DB Streams
      • 웹 서비스/SOA
      • 감사 증적(audit trail)
      • 교차 참조
      • 다수 데이터 원천 및 목표 시스템
      • 데이터 재 처리 허용
      • 자동화 도구 및 자체 개발 SW 혼용
    • 동기식 실시간 통합
      • 실시간 데이터 통합
      • 목표 시스템 데이터 처리 가능시에만 원천 데이터 획득
      • 데이터 추출,변형,적재
      • 웹 서비스/SOA
      • Single transaction integration
      • 단일 트랜잭션 단위 데이터 통합
      • 데이터 재처리 불가
      • 단일 또는 다수 데이터 원천
      • 감사 증적(audit trail)

    • 데이터 처리 기법 비교
    구분 전통적데이터처리기법 빅데이터 처리 기법
    추출 운영 DB -> ODS -> DW 빅데이터 환경
    변환 O O
    로딩 O O
    시각화 X O
    분석 OLAP, 통계와 데이터마이닝 통계와 데이터마이닝
    리포팅 BI BI
    인프라스트럭처 SQL, 전통적 RDBMS NoSQL, 초대형 분산 데이터 스토리지


    [대용량 비정형 데이터 처리]

    • 1. 대용량 로그 데이터 수집
      • 초고속 수집 성능과 확장성
      • 데이터 전송 보장 메커니즘
      • 다양한 수집과 저장 플러그인
      • 인터페이스 상속을 통한 애플리케이션 기능 확장

     

    • 2. 대규모 분산 병렬 처리 (하둡)
      • 선형적인 성능과 용량 확장
      • 고장감내성
      • 핵심 비즈니스 로직에 집중
      • 풍부한 에코시스템 형성

     

    [데이터 연동]

    • 스쿱
      • 데이터베이스를 대상으로 맵리듀스와 같은 대규모 분산 병렬 처리를 하는 것은 심한 부하를 야기할 수 있음
      • 이러한 이유로 정형 데이터와 비정형 데이터간의 연계 분석을 위해서 데이터베이스의 데이터를 하둡으로 복사를 한 후 하둡에서 대규머 분산 병렬 처리를 수행
      • 그 결과로 생성된 요약된 작은 데이터 셋을 다시 데이터베이스에 기록

     

    [대용량 질의기술]

    • 아파치 드릴 : 드레멜의 아키텍처와 기능을 동일하게 구현한 오픈 소스 버전의 드레멜
    • 아파치 스팅거 : 기존의 하이브 코드를 최대한 이용하여 성능 개선하는 식으로 개발 진행
    • 샤크 : 인메모리 기반의 대용량 데이터웨어하우징 시스템
    • 아파치 타조
    • 임팔라 : 하둡 전문 회사인 클라우데라에서 개발 주도
    • 호크 :  상용과 커뮤니티 2가지 버전 제공
    • 프레스토  : 페이스북에서 자체적으로 개발, 하둡 기반의 데이터웨어하우징 엔진


    [데이터 처리 기술]

    • 분산파일시스템
      • GFS, HDFS, 러스터 (객체 기반 클러스터 파일 시스템)
      • 데이터베이스 클러스터
      • 무공유
        • 무공유 클러스터에서 각 데이터베이스 인스턴스는 자신이 관리하는 데이터 파일을 자신의 로컬 디스크에 저장하며, 이 파일들은 노드 간에 공유하지 않는다.
      • 공유디스크
        • 클러스터에서 데이터 파일은 논리적으로 모든 데이터베이스 인스턴스 노드들과 공유하며, 각 인스턴스는 모든 데이터에 접근할 수 있다.
      • Oracle RAC 서버
        • 가용성 
        • 확장성
        • 비용절감
      • IBM DB2
      • MS SQL 서버
      • MySQL
      • NoSQL (구글 빅테이블, 아마존 Simple DB, 마이크로소프트 SSDS)

     

    [분산 컴퓨팅 기술]

    • MapReduce
      • 분할정복 방식으로 대용량 데이터를 병렬로 처리할 수 있는 프로그래밍 모델
      • 특별한 옵션을 주지 않으면 Map task 하나가 1개의 블록 (64MB)을 대상으로 연산 수행

     

    [병렬 쿼리 시스템]

    • 구글 sawzall
      • MapReduce를 추상화한 스크립트 형태의 병렬 프로그래밍 언어
      • Sawzall은 사용자가 이해하기 쉬운 인터페이스를 제공하여 MapReduce 개발 생산성을 높였다.
      • 이로써 MapReduce에 대한 이해가 없는 사용자들도 더욱 쉽게 병렬 프로그래밍을 할 수 있게 되었다.
    • 아파치 피그
      • 야후에서 개발해 오픈소스 프로젝트화한 데이터 처리를 위한 고차원 언어
    • 아파치 하이브
      • 페이스북에서 개발한 데이터 웨어하우진 인프라, 하둡플랫폼에서 동작하며, 사용자가 쉽게 사용할 수 있도록 SQL 기반 쿼리 언어인 JDBC를 지원

     

    [SQL on Hadoop]

    • 임팔라
      • 분석과 트랜잭션 처리를 모두 지원하는 것을 목표로 만든 SQL 질의 엔진 하둡과 Hbase에 저장된 데이터를 대상으로 SQL 질의를 할 수 있다.

     

    [클라우드 인프라 기술]

    • 클라우드 컴퓨팅은  동적으로 확장할 수 있는 가상화 자원들을 인터넷으로 서비스 할 수 있는 기술이고 아래의 3가지 유형으로 나뉨
      • SaaS (Software as a Service)
      • PaaS (Platform as a Service)
      • IaaS (Infrastructure as a Service)
    • 클라우드 컴퓨팅에서 인프라 기술은 근간이 되는 기술
    • 특히 서버 가상화 기술은 물리적인 서버와 운영체제 사이에 적절한 계층을 추가해 서버를 사용하는 사용자에게 물리적인 자원은 숨기고 논리적인 자원만을 보여주는 기술을 말한다.

     

    [서버 기술 가상화 효과]

    • 가상머신 사이의 데이터 보호
    • 예측하지 못한 장애로부터 보호
    • 공유자원에 대한 강제 사용의 거부
    • 서버 통합
    • 자원할당에 대한 증가된 유연성
    • 테스팅
    • 정확하고 안전한 서버 사이징
    • 시스템 관리
    • CPU 가상화 
    • 완전 가상화  
    • 하드웨어 지원 완전가상화 
    • 반가상화 
    • 호스트기반 가상화 
    • 컨테이너 기반 가상화
    • 메모리 가상화
    • I/O 가상화

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

     문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기