정보

    • 업무명     : 데이터분석 전문가 (ADP) 필기 : 기초, 핵심 요약, 문제풀이
    • 작성자     : 이상호
    • 작성일     : 2023.02.14
    • 설   명      :
    • 수정이력 :

     내용

    [통계 분석]

    • 가장 정확한 조사 방법 : 모집단을 대상으로 조사하는 것
    • 그러나 대부분 표본으로 조사를 진행
    •  확률적 표본추출 방법 (probability sampling method)
      • 표본추출의 방법은 동일한 확률 하에서 표본을 구성
    • 비확률적 표본추출 방법 (non-probability sampling method)    
      • 확률과는 상관없이 조사자가 자신의 의지로 표본을 뽑거나 조사 대상이 자발적으로 표본을 구성

     

    [표준화]

    • 원시 데이터
      • 평균 : 60
      • 표준편차 : 4.47
    번호 x
    1 61
    2 59
    3 60
    4 67
    5 53

     

    • 표준화 데이터
      • 평균 : 0.00
      • 표준편차 : 1

    번호 z
    1 0.22
    2 -0.22
    3 0.00
    4 1.57
    5 -1.57

     

    [데이터웨어하우스 구성]

    • ODS (Operational Data Store) : 다수의 OLTP(뱅킹) 시스템에서 추출한 데이터를 통합적으로 관리하는 데이터베이스
    • ETL : 추출, 정제, 적재
      • Extraction : 획득
      • Transformation : 데이터 클렌징, 형식 변환, 표준화
      • Loading : 적재
    • OLAP (Online Analytical Processing) : 다차원 분석
    • 데이터마이닝 : 분류, 회귀, 클러스터링, 연관분석

     

    [데이터 변환 방법]

    • 정규분포화
      • 로그 변환 : 입력되는 데이터가 멱함수 분포를 나타내는 경우 log를 사용해서 정규분포로 변환
      • 제곱근 변환 : 정규분포가 아닌 데이터를 제곱근을 사용해서 정규분포 변환
    • 범주화
      • 이산형 (discretization) : 다수의 구간으로 연속형 변수를 범주화
      • 이항변수화 (binarization) : 0과 1의 두개의 값으로 더미 변수화 한다.
    • 개수 축소
      • 단순 임의 추출
      • 체계적 추출
      • 층화 임의 추출
      • 군집 추출
      • 다단계 추출
    • 차원축소
      • 요인분석 : 잠재적인 변수를 찾는 방법으로 공통적인 요인을 찾아냄
      • 주성분 분석
    • 시그널 데이터 변환
      • 푸리에 변환
      • 웨이블릿 변환
        • wavelet(작은 파)를 패턴으로 하여 이것을 천이하거나 확대
        • 축소의 스케일을 사용해서 임의의 파형으로 표현

     

     

    [데이터분석기초] 정규화, 표준화

    • 정규화 (Normalization)
      • 데이터의 범주를 변경
      • 즉 여러 개의 변수가 있어 서로간의 범위가 다를 경우 (100~200, -10~10 등) 범주를 일치시킨다 (주로 0~1
    • 표준화 (Standardization)
      • 표준정규분포를 통해 계산
      • 즉 z 변환 (transformation) 또는 z 스코어 (score)를 의미

     

    [파동의법칙] 푸리에

    • 푸리에는 인간 음성의 수수께끼를 단계적으로 풀어가는 기술
    • 복잡한 파동은 단순한 파동의 집합체

     

    • 파동의 특성
      • 파동이 높아지는 곳 -> 공기가 진해진 상태
      • 파동이 낮아지는 곳 -> 공기가 엷어진 상태
      • 목소리가 크면 파동은 세로로 높다
      • 목소리가 높으면 파동의 한 패턴은 폭이 좁다

     

    [핵심 요약]

    핵심 내용 세부 내용
    데이터
    데이터와 정보의  관계(
    DIKW)
    데이터의 유형
    데이터는 객관적인 사실, 추론, 예측, 전망, 추정을 위한 근거
    유형 : 정성(문자) / 정량(수치)
    지식 창조 메커니즘
      
    암묵지       →     형식지   (표출화)
       형식지       →     암묵지   (내면화)
     
       공통화               표출화
       내면화               연결화(새로운 형식지를 창조)
    정의(통합,저장,운영,공용)
    데이터웨어하우스
    데이터베이스 활용
    데이터베이스 특징(실시간,지속적 변환,동시 공유,내용에 의한 참조)
    데이터웨어하우스 특징(주제지향적, 통합적,시계열성,비소멸성(갱신이 발생하지 않는 조회전용)
    KMS / ERP / SCM / CRM / EAI
    클라우드 컴퓨팅
    ISP(Information Strategy Planning)
    빅데이터 / 빅데이터의 미래 TPEZY        

    3V(volume,variety,velocity)
    4V(Veracity)
    5V(Value)

    렌즈 역할/플랫폼 역할/표본조사->전수조사/질보다는양,인과관계보다는 상관관계가 더 중시

    연관규칙 / 유형분석 / 유전 알고리즘 / 기계학습 / 회귀 분석
    감성분석 / 소셜 네트워크 분석
    빅데이터 활용을 위한 3대요소
    빅데이터 처리 프로세스
    빅데이처 처리 프로세스별 관련 기술
     자원 /  기술 / 인력
    데이터 소스 -> 수집 -> 저장 -> 처리 -> 분석 -> 시각화
        빅데이터 서비스 모델
        원시 데이터 구성 및 보관 방식
    data lakes : 막대한 원시 데이터를 본연의 형식 그대로 저장하는 것
    빅데이터 저장 방식(RDB, NoSQL, 분산파일시스템(HDFS))
    빅데이터 위기요인과 통제
    비식별화 조치
    위기요인
    사생활 침해(분석자 또는 사용자 책임을 져야함
    책임원칙 훼손(분석이 되는 사람들은 예측 알고리즘으로 희생양이 되기 때문에 기존의 책임원칙 강화)
    데이터 오용(데이터에 대해 잘못된 인사이트를 얻어서 비즈니스에 직접적인 손실되므로 데이터 알고리즘에 대한 접근 권한 허용, 객관적인 인증 방안 도입)


    통제방안
    책임제 전환/책임원칙 강화/알고리즘에 대한 접근허용


    비식별화 조치방안(가명처리/총계처리,평균값 대체/데이터값삭제/범주화/데이터마스킹)
    분석 목적 설정
    빅데이터 분석의 기본 원칙
    빅데이터 분석 주제 유형(
    최통솔발)
    목표 시점별 분석 기획
    빅데이터 분석 기획 시 고려사항
    데이터사이언티스트(하드/소프트 스킬)
                   
    대상
                  O    X
             O   최  통
    방법   X    솔  발
     
    데이터의 특징
    데이터 확보계획 수립
    데이터 분석 방안 설정
     
    ODS 구성 : 인터페이스-스테이징-프로파일링-클렌징-데이터통합-익스포트 데이터웨어하우스 특징 : 주제중심,영속성,통합성,시계열성
    스타스키마/스노우플레이크스키마
    데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속처리(데이터 전송/공유)를 자동화하는 기술 또는 설계기법이자 구조 구현 기법 : Time stamp on Rows, Version Numbers on Rows, Status on Rows, Time/Version/Status on Rows
                   Triggers on Tables, Event Programming, Log Scanner on Database
    분산 파일 시스템(GFS), 하둡 분산 파일 시스템(HDFS),Luster :객체 기반 클러스터 파일 시스템 데이터베이스 클러스트(Oracle RAC, IBM DB2 ICE, MS SQL 서버,MySQL)
    NOSQL(구글 빅테이블,아마존 Simple DB,MS SSDS)
    MapReduce, 병렬쿼리시스템(구글 Sawzall, 아파치 피그, 아파치 하이브) SQL on Hadoop(임팔라)
    cpu 가상화(완전 가상화, 하드웨어 지원 완전 가상화, 반가상화, 호스트 기반, 컨테이너 기반) 메모리 가상화
    I/O 가상화
    분석 기획의 특징





    분석 기획시 고려사항
    수학/통계  + 정보기술 + 도메인 지식
                               분석 대상
                              O      X
                   O        최       통
    분석방법    X        솔       발                       //최적화.통찰.솔루션.발견

    데이터에 대한 고려/가치가 창출될 수 있는 적절한 활용 방안 및 활용가능한 유스케이스의 탐색
    폭포수 모델(계획수립-요구분석-설계-구현-시험-적용-유지보수)
    프로토타이핑 모델
    반복점증형 모델
    나선형 모델(폭포수+프로토타이핑)

      KDD :
    선정 - 전처리 - 변환 - 데이터마이닝- 해석 및 평가
      CRISP-DM : 비즈니스 이해-데이터 이해-데이터 준비-모델링-평가

      빅데이터 분석 방법론 ( 분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 데이터 평가 및 전개)
     하향식  : 비지니스모델 캔버스, 외부참조모델 기반(산업별)
     상향식
     
    분석과제 관리영역(data complexity, size,speed,accuracy&precision,analytic complexity)  
    우선순위 고려요소(전략적 중요도,비즈니스 성과/ROI, 실행용이성)  
    통계 분석 개요 기술/추론    모수/비모수
    인사이트 : 예리한 관찰력으로 사물을 환희 꿰뚫어 봄 시각화와 인사이트 : 삼찰(관찰,성찰,통찰)
    사용 가능한 데이터 확인
    연결 고리의 확인(공통 요소 찾기, 공통 요소로 변환, 탐색 범위 설정)
    관계의 탐색
    데이터 명세화(차원과 측정값), 데이터 구성 원리 ( 이벤트 기록으로서 접근, 객체 지향 관점에서 접근)

    이상값 처리, 차원과 측정값 유형에 따른 관계 파악 시각화, 잘라보고 다르게 보기, 내려다 보고 올려다보기, 척도 조정
    분석 대상의 구체화
    분석과 시각화 도구
    지표 설정과 분석
    2차 탐색, 분석 목표에 따른 분석 기법
    1. 내부에서 적용
    2. 외부에 대한 설명, 설득, 시각화 도구
    3. 인사이트의 발전과 확장
     
    데이터 시각화의 중요성
    시각 이해와 시각화
    시각화 분류와 구분
    빅데이터 시각화 영역
     
    정보 디자인 프로세스
    빅데이터 시각화 프로세스
    데이터 수집-모든것을 읽기 - 내러티브 찾기-문제정의 -계층 구조 만들기-와이어프레임 그리기 - 포맷 선택-시각 접근 방법 결정
    정보 구조화(수집, 분류, 배열, 관계 맺기)
    정보 시각화
    정보 시각표현
      - 정보 표현을 위한 그래픽 요소(
    위치, 크기, 모양, 색, 명도, 기울기,질감)


    시각정보 디자인 7원칙(시각적 비교 강화/인과관계/다중변수표시/조화/연관성과진실성/시간순이아닌공간순/정량성을 제거하지 말아라)
    시각 시각화(막대, 누적 막대, 점그래프)
    분포 시각화(원,도넛차트,트리맵,누적 연속 그래프)
    관계 시각화(산점도,버블차트,히스토그램)
    비교 시각화(히트맵, 체르노프페이스,스타차트,평행좌표계, 다차원척도법,공간시각화)



    배경을 지워라-범례를 지워라-테두리를 지워라-색깔을 지워라-특수효과를 지워라-굵은글씨 지워라-라벨을 흐리게 처리-라벨을 직접 표시

     

    [문제풀이] 제1과목 데이터 이해

    문제 보기1 보기2 보기3 보기4 정답
    데이터에 대한 설명으로 부적절한 것은? 데이터를 단순한 객체로서 가치뿐만 아니라 다른 객체와의 상호 관계 속에서 가치를 갖는 것으로 설명할 수 있다. 데이터는 그 형태에 따라 언어,문자등으로 기술되는 정량적 데이터와 수치, 기호, 도형으로 표시되는 정성적 데이터로 구분된다. 설문조사와 주관식 응답, 트위터나 페이스북, 블로그 등에 올린 글 등과 같은 정성 데이터의 경우 그 형태와 형식이 정해져 있지 않아 비정형데이터라고도 한다. 지역별 온도, 풍속, 강수량과 같이 수치로 명확하게 표현되는 데이터를 정량 데이터하고 한다. 2
    DIKW에 대한 설명으로 적절한 것은? 지식은 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 정보는 상호 연결된 정보 패턴을 이해하고 이를 토대로 예측한 결과물 지혜는 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 데이터는 존재형식을 불문하고 타 데이터와의 상관관계가 없는 가공하지 전의 순수한 수치나 기호 4
    데이터베이스의 일반적인 특징, 부적절? 통합 저장 공용 변환되지 않는 데이터 4
    데이터베이스의 일반적인 특성, 부적절 모두 ? 정보의 축적 및 전달 측면에서 대량의 정보를 일정한 형식에 따라 정보처리기기가 읽고 쓰고 검색할 수 있도록 하는 기계가독성과 검색가능성, 그리고 정보통신망을 통하여 원거리에서도 즉시 온라인으로 이용할 수 있는 원격조작성을 갖는다. 정보 관리 측면에서는 이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고 원하는 정보를 적확하고 경제적으로 찾아낼 수 있다는 특성을 지니다. 정보 이용측면에서는 정보를 일정한 질서와 구조에 따라 정리 저장하고 검색 관리할수 있도록하여 정보를 체계적으로 축적하고 새로운 내용의 추가나 갱신이 용이하다. 정보 기술의 발전 측면에서 정보처리, 검색관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한네트워크 기술 등의 발전을 견인할 수 있다. 2,3
    빅데이터의 특징에 해당되지 않는 것? 규모의 증가 복잡성의 증가 단순성의 증가 가치의 증가 2
    다음 설명은?
    그림, 동영상, 로그, 센서 데이터 등 형태나 구조가 정형화 되지 않고 다양한 형식
    정형 반정형 비정형 스트리밍 3
    빅데이터가 기업에게 주는 가치가 아닌것? 혁신 수단 제공 경쟁력 강화 생상성 제고 환경 탐색 4
    빅데이터가 만들어 내는 변화가 아닌것? 데이터의 질보다는 양 데이터의 사전 처리보다 사후 처리에 비중을 둠 새로운 것에 대한 발견법으로 상관관계보다 인과관계에 비중을 둠 조사방법으로서 표본조사보다 전수조사에 비중을 둚 3
    커피를 사는 사람들이 탄산 음료도 많이 구매하는지를 알아보기 위해 사용되는 분석? 회귀분석 기계학습 유전알고리즘 연관규칙학습 4
    구글이 제공하는 Ngram Viewer 서비스는
    빅데이터 역할 중 무엇에 해당?
    렌즈 역할 차세대 산업혁명에서 철이나 석탄의 역할 21세기의 원유 플랫폼 1
    데이터 사이언스의 핵심 구성 요소는? Analytics IT 비즈니스 분석    
    데이터 사이언티스트의 요구 역량? 하드 스킬:빅데이터에 대한 이론적 지식, 분석 기술에 대한 숙련
    소프트 스킬:통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력(커뮤니케이션)
     
    맞는 것? 빅데이터 과제의 주된 걸림돌은 비용이 아니라 분석적 방법에 대한 이해 부족이다. 분석을 다방면에 많이 사용하는 것이 경쟁우위를 가져다 주는 첫번째 요소 빅데이터 분석에서 가치 창출은 데이터의 크기에 의해 좌우 성과가 높은 기업들은 대부분 폭넓은 가치 분석적 통찰력을 갖추고 있다. 1
    전략적 가치 기반 분석을 위해 고려해야 할 요소가 아닌 것은? 사업에 영향을 미치는 트렌드에 대해 큰 그림을 그려야 한다. 사업 성과를 견인하는 핵심요소에 집중 기존 성과를 유지하기 위해 필용한 것이 무엇인지에 주의 경쟁의 본질에 영향을 미치는 단계에까지 나아가야 한다. 3
    틀린 것? 강력한 호기심은 데이터 사이언티스트의 중요한 특징 과학적 분석 과정에는 가정과 인간의 해석이 개입하지 않는다. 분석은 미세한 관점에서 접근할 때 큰 효과를 보기 어렵다. 뛰어난 분석적 리더들은 의사결정에서 과학과 직관을 혼합한다. 2
    빅데이터 요소 기술
    시각화
    데이터 공유 처리 분석 시각화 4
    빅데이터 분석, 기획 업무 중 프로젝트 계획 및 설계 단계에서 프로젝트 수행을 위한 예산, 소유기간 및 현재의 IT환경 등을 고려하여 작성하는 문서로 옳은 것? 빅데이터 요건 정의서 빅데이터 분석목표 정의서 As/Is-To/Be분석 문서 Work BreakDown Structure 설계문서 4
    빅데이터 분석목표정의서에 작성되는 요소로 부적합? 테이블정보 및 메타 정보 과거의 빅데이터 분석 방법 데이터 수집의 난이도 분석목표에 부합된 분석기법과 기술 2
    WBS 설계절차 데이터 분석과제 정의->데이터 준비,탐색->산출물 정리->데이터분석모델링,검증  

     

    [문제풀이] 제2과목 데이터 처리 기술 이해

    문제 보기1 보기2 보기3 보기4 정답
    ETL Extract-Transformation-Load       1
    ODS     Operational Data Store   3
    데이터 모델링 기법       스타스키마-스노우플레이크스키마 4
    데이터 웨어하우스의 특징 주제중심,영속성,통합성,시계열성       1
    CDC 옳은 것은? 일괄 작업 중심 정보 시그템과 정보 시스템 간 통제 시그널 전송이 주목적 실시간 또는 근접실시간 데이터 통합을 목적 데이터웨어하우스구축에는 사용할 수 있으나, ODS 구축에는 사용할 수 없다. 3
    EAI 옳은 것은 Point to Point 방식 메시지 기법만 사용할 수 있다. 웹 서비스 기반만을 사용할 수 있다. Hub and Spoke 방식 4
    비정형 데이터로 보기 어려운 것? 텍스트 스프레드시트 오디오 센서데이터 2
    맞는 것? 하둡 분산 파일시스템은 작은 파일 GFS는 오픈 소스 프로젝트 데이터를 저장하고 관리하는데에는 관계형 데이터베이스만 있으면 된다. 하둡분산파일시스템을 구성하는데 중/저가 서버들이 주로 사용된다. 4
    데이터베이스 솔루션 중 특성이 다른 것? 아파치 Hbase 구글 빅테이블 MySQL 클러스터 아마존 심플 DB 3
    하이브에 대한 설명으로 맞는것? 관계형 데이터베이스 조회 모든 표준 ANSI SQL 지원 직접 코딩하지 않고 맵리듀스 작업을 수행 아마존 개발한 분산 병럴 처리 기술 3
    SQL on 하둡 하둡과 하이브에서 처리 가능한 데이터보다 더 큰 데이터를 처리하기 위한 기술 데이터 웨어하우징 용도로 사용할 수 있는 데이터 분석 기술 클라우데라에서 개발한 임파라는 오라클 데이터베이스에 저장된 데이터를 처리할 수 있다. SQL on Hadoop 원조 기술은 구글에서 개발한 빅테이블이다. 2
    가상화 전가상화/반가상화 VMWare 현재 가상화는 CPU 자원만 지원 클라우드 컴퓨팅의 SaaS를 구현하기 필수 기술 전 가상화에서는 운영체제를 수정하지 않은 채 그대로 사용할 수 있다. 4

     

    [문제풀이] 제3과목 데이터 분석기획

    문제 보기1 보기2 보기3 보기4 정답
    데이터 분석을 통한 가치 발굴에서 필요한 주요 요소가 아닌것? Data Hadoop Analiytic Model Analyst 2
    분석 기획은 단기적으로는 ( 분석 과제 )를 도출하여 프로젝트화 한 후 관리를 수행하여 분석 결과를 도출
    중장기적으로는 (
    분석 마스터 플랜 )를 수행하여 지속적인  ( 분석 마스터 플랜   ) 수행을 지원할 수 있는 가버넌스 체계를 수립
    분석가가 가져야 할 주요 역량 문제에 대한 전문성 역량 수학/통계적 지식 등 분석 역량 프로그래밍 등 기술 역량 1,2,3 포괄하는 역량 4
    데이터 분석 단계 모델링 태스크 중 모델 적용 및 운영방안 스텝의 주요한 산출물은? 알고리즘 설명서 모델 검증 보고서 모델 발전 계획서 프로젝트 범위 정의서 1
    분석 주제 유형 중 문제를 잘 알고 있으면서 기존에 수행하고 있는 방법이 존재하는 경우에 해당하는 유형? Optimization Solution Discovery Insight 1
    분석 과제를 도출하기 위한 방식은 문제가 주어진 경우 해답을 찾기 위하여 절차적으로 수행하는 ( 하향식     ) 방식과
    문제의 정의 자체가 어려운 경우 데이터를 기반으로 탐색하고 이를 지속적으로 개선해나가는 방식인   (  
    상향식    )로 분류된다.
    비즈니스 모델 캔버스를 활용한 분석 기획 발굴 시에 탐색하는 주요 영역이 아닌것은? 경쟁자 업무 제품 고객 1
    분석 프로젝트는 IT 프로젝트와 달리, 앞서 분석 방법론에서 살펴본 (폭포수) 방식 같은 초기 의도했던 결과에 안정적인 이관을 수행하는 것이 아니라,
    도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부부이므로 프로토타이핑 방식의 (
    애자일) 프로젝트 관리방식에 대한 고려도 필요.
    분석 프로젝트 수행시 "Data, Business, 분석 등 다양한 영역의 사람들이 프로젝트에 참여하며, Project Sponser 및 향후 분석 결과를 활용할 User 등 다양한 사람들의 니즈를 고려해야 한다.라는 관리 포인트에 대한 부분을 고려해야 하는 영역은? 원가 이해관계자 범위 품질 2
    빅데이터 특징 중 투자비용 측면의 요소가 아닌것은? 데이터 규모 데이터 다양성 데이터 속도 데이터 가치 4
    분석 과제의 우선 순위 선정 메트릭스에서 일반적으로 데이터 분석 과제를 가장 먼저 추진해야 하는 영역?     시급성-현재, 난이도-쉬움   3
    분석 가버넌스 체계의 주요 구성 요소가 아닌것? 시스템 데이터 비용 조직 3
    데이터 가번너스 구성요소가 아닌것? 원칙 조직 프로세스 활동 4
    분석 성숙도 모델 환경이 갖추어지고, 전사 차원에서 분석 관리, 공유, 전문 조직 운영 도입 활용 확산 최적화 3
    기업 내 별도의 독립적인 전담 조직이 전략적 중요도에 따라 분석 우선순위를 정해서 추진할 수 있는 조직 구조? 집중형 구조 기능형 분산형 복합형 1
    업무 최적화를 위한3가지 데이터 지연시간 줄이기 분석 지연시간 줄이기 의사결정 지연시간 줄이기    
    하향식 분석 요건 정의 -> 분석 요건 식별-> 프로세스 흐름 분석 -> 프로세스 분류  
    빅데이터의 특징에 해당되지 않는 것? 규모의 증가 복잡성의 증가 단순성의 증가 가치의 증가 3
    그림, 동영상, 로그, 센서 정형 반정형 비정형 스트리밍데이터 3
    차트와 데이터 사이의 관계등을 시각화 데이터 공유 데이터 처리 데이터 분석 데이터 시각화(Visualization) 4
    빅데이터 분석,기획 업무 중 프로젝트 계획 및 설계 단계에서 프로젝트 수행을 위한 예산, 소요기간 및 현재의 IT 환경 등을 고려하여 작성하는 문서 빅데이터 요건 정의서 빅데이터 분석목표 정의서 As/Is -To/Be 분석 Work BreakDown Structure 설계문서 4
    여러명의 사용자들이 컴퓨터에 저장된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어 Big Data Database Management System Database Data 2
    빅데이터의 분석의 활용분야(Use Case)로 적합하지 않은 것은? 빅데이터의 효율적인 수집 및 저장 고객이 구매한 상품의 선호도 분석 고객이 원하는 디지털 제품 및 서비스 제공방안 도출 제품의 생산 및 유통 과정의 효율성 제고 1
    빅데이터 분석 목표 정의서에 작성되는 요소로 부적합한 것? 테이블 정보 및 메타 정보 등 데이터 정보 조사 결과 과거의 빅데이터 분석 방법 및 주요 기술 데이터 수집 난이도 분석목표에 부합된 빅데이터 분석기법과 기술 2
    WBS 설계절차 데이터 분석과제 정의 -> 데이터 준비,탐색 -> 산출물 정리 -> 데이터 분석 모델링, 검증
    장바구니 구매 패턴 Association Analysis       1
    정형+비정형 빅데이터       1
    빅데이터 주요 특징 Volume Variety Virtue Value 3
    3V가 아닌것? Volume Volatility Variety Velocity 2
    빅데이터 특징 규모 증가 다양성 증가 복잡성 증가    
    알맞은 것 Volume - 대용량성 확보 Variety - 적응성 확보 Velocity - 실시간성 확보    
    옳지 않은 것?   실시간 처리가 중요하지 않다.     2
    옳지 않은 것?   주로 텍스트 위주의 정형화된 데이터 집합     2
    부적합한 것?   관리가 비교적 용이     2
    옳지 않은 것? ERP-비정형       1
    적합하지 않은 것?       정형화 4
    옳지 않은 것?       컴퓨터 생산기술의 발달 4
    옳지 않은 것? 1980       1
    가장 필요로 하는 인력?     데이터 분석가   3
    참여 인력이 아닌? 현업 담당자 자바 개발자 Hive R 모델러 2
    데이터 분석가 역량 수학적 역량 전략적 역량 전문적 지식 역량 프로그래밍 역량 2
    분석 시 필요한 태도 창의적 사고 논리적 사고 침착함 대범함 4
    데이터 크기 bit -byte -KB -MB- GB-TB - PB-EB-ZB-YB (TPEZY)        
    공공 데이터 플램폼   data.go.kr      
    데이터 공개 장점     업무의 과중   3
    옳지 않은 것?       개인차원 효용이 어렵다 4
    빅데이터 주요 요소 기술 수집 저장 분석 분할 4
    차트, 관계도, 그래프       시각화 4
    데이터 처리 방법에 옳지 않응 것?     반드시 존재한다   3
    추출, 변환, 적개   ETL      
    ETL 기능 도메인 생성        
    WBS     프로젝틑 계획    
    대용량 데이터 예측   빅데이터 분석 직무      
    데이터베이스 정의          
    데이터베이스 장점     중복된 자료의 맵핑을 이용하여 연관성을 쉽게 파악   3
    데이터베이스 특징 stored shared unchanged integrated 3
    빅데이터 영향       기업 - 제품 차별화 4
    빅데이터 활용가치     고객의 개인정보 파악   3
    적합하지 않은 것?       비용이 아니다 4
    정보의 주요 특징 균등성 정확성 적시성 관련성 1
    정보의 주요 특징 정확성 적시성 관련 적당 비용가치(정보 산출의 가치가 비용을 넘어서지 말아야 함)
    DIKW          
    빅데이터 분석에 대한 세부 계획     WBS    
    데이터 확보 계획 수립 절차 분석 목표 정의 -> 요구사항 도출 ->예산안 수립 -> 데이터 확보 계획 수립  
    데이터 분석 프로젝트 수행 과정 분석 과제 정의 -> 준비 및 탐색 -> 모델링 검증 -> 산출물 정리  
    빅데이터 분석 프로세스 요구사항 분석 -> 모델링 -> 검증 및 테스트 -> 적용  
    분석을 위한 예산 수립 업무 관련이 적은것? 데이터 확보 비용 거래처리 시스템 개발 비용 시스템 운영 예산 외부 컨설팅 비용 2
    데이터마이닝 정의          
    데이터마이닝 기법에 해당되지 않는 것? T-test Decision Tree k-means clustering Text Mining 1
    빅데이터 분석 프로세스 순서 문제인식-관련 요구 조사-모형화-자료수집-자료분석-분석결과 제시  
    빅데이터 분석 절차 순서 도메인 이슈 도출 - 분석 목표 수립 - 프로젝트 계획 수립 - 보유 데이터 자산 확인 - 분석 결과 시각화  
    분석 비용 인건비 하드웨어 구입 사용 산출물 관리 및 하드웨어 유지보수 비용 성과측정 자문료 3
    복잡한 현상을 제어 가능한 변수들로 출려서 단순화 과정   모형화      
    제어 가능한 변수 선정   모형화      
    변수 선정       가능한 많은 수의 변수를 고려 4
    도메인 이슈 도출 과정에서 작성되는 문서 빅데이터 요건 정의서        
    분석목표정의서     기획의도   3
    비즈니스 모델 수익 창출 사업        
    비즈니스 모델의 적합성 판별 기준     수익성   3
    컨설팅 관련 빅데이터 비즈니스 모델로 적합하지 않은 것?       소셜네트워크분석 4
    SNA 링크 노드 -행위자     , 링크 - 우정, 조직력, 연대감        
    가공 Information        
    DIKW          
    데이터마이닝 지도(분류,회귀)비지도(클러스터링, 연관분석)  
    빅데이터 분석 과정 수집-저장-처리-분석-시각화-이용-폐기  
    데이터베이스 특징 Atomicity Consistency Isolation Durability  
    빅데이터 용어 최조 정의 IBM          
    도메인 이슈 도출 : 개선사항을 도출하기 위해 분석하고자 하는 과제의 현황을 파악 분석하고 이를 통한 개선 과제 정의하면, 빅데이터 요건 정의서를 작성한다.  
    빅데이터 분석 목표 정의서 작성은 분석 목표 수립시 작성  
    크론바하 알파(Cronbach Alpha)값은 설문 문항 답변에 대한 신뢰도 평가  
    플랫폼          
    데이터 수집 비용은 프로젝트 계획 단계에서 수립  
    분석 PM 팀원   의사결정자  
    프로젝트 평가위원회의 구성인원 리더 참여위원 자문 검수위원  
    로드맵 비용배분-WBS-업무분장 계획 및 배문        

     

    [문제풀이] 제4과목  데이터 분석

    문제 보기1 보기2 보기3 보기4 정답
    서로 다른 성격의 프로그램 S-Plus R C SAS 3
    R의 특징 패키지의 사용을 통한 기능 확장 서버 프로그램을 이용해 설치하지 않고도 웹에서 사용 강력한 그래픽 기능 복잡한 행렬 계산을 빠르게
    수행
    2
      R-Studio        
    벡터 생성 코드 중 제대로 동작하지 않는 코드는?          
    반복 구문에 설명 중 옳은 것은? for 구문은 괄호 안의 조건이 만족되어 있는 동안 이후의 구문을 반복한다. while 구문은 반복되는 구문 내에서 반복변수 i를 변화시켜 주어야 한다. for 구문이 반복되는 횟수는 실행시키기 전까지는 알 수 없다. while 구문은 for 구문보다 더 빠르게 실행된다. 2
    R의 데이터 형식으로 올바르지 않은 것은? numeric character functional logical 3
    마트 생성을 편리하게 해주는 패키지 ggplot2 party mart reshape 4
    key 값이 존재하는 object vector list data.table data.frame 3
    data에 대한 전체적인 기초통계량을 보고자 할 때 함수 head summary inform str 2
    data에 포함된 변수의 이름과 결과 값의 일부인 첫 6줄을 볼 수 있는 함수? head summary inform str 1
    hi라는 데이터에서 birth라는 칼럼의 평균을 알고자 할 때 명령어? mean(hi$birth)        
    산점도(scatter plot)를 만들고 확인해 볼 점으로 옳지 않은 것? 두 변수 사이에 선형 관계가 성립 이상값 존재 유무 집단의 개수 인과관계 유무 4
    단계적 변수 선택 방법이 아닌것? 전진선택 후진제거 순차적 방법 단계별 3
    ARIMA 모형 차분이나 변환을 통해 나올 수 없는 모형 ARMA AR MA RIM 4
    분해시계열 시계열을 구성하는 요인이 아닌것은? 계절요인 불변요인 추세요인 순환요인 2
    로지스틱회귀모형 설명 모수 추정을 위해 초기값 설정 예측변수는 모두 연속형이어야 한다. 연속형 반응변수에 대해서도 적용할 수 있다. 분류의 목적 4
    의사결정나무분석에서 분류 기준 변수의 선택에 사용되는 기준이 아닌것? 일반화 분산 엔트로피 지수 F 검정통계량의 P값 지니 지수 1
    역전파 알고리즘을 이용하여 모수를 추정 인공신경망 로지스틱회귀 혼한분포모형 랜덤포레스트 1
    여러 분류기들의 결과를 종합하여 예측의 성능을 높이는 방법이 아닌것? 배깅 부스팅 다층신경망 랜덤포레스트 3
    모형평가에 앞서 과적합 문제를 해결하기 위해 사용되는 방법이 아닌것? 부트스트랩 이익도표 홀드아웃 교차검증 2
    오분류표를 통해 계산할 수 있는 평가지표가 아닌것은? 정분류율 특이도 향상도 재현율 3
    R 함수 중 고객세분화의 목적으로 사용될 수 없는 함수 agnes() nnet() kmeans() hclust() 2
    EM 알고리즘에 대한 설명으로 틀린것? 최대가능도추정을 위한 수치적 방법 초기값 설정이 필요하다. 잠재변수의 도입 정규분포에 대한 모수 추정기법 2
    해킹을 당하는 컴퓨터를 발견할 때 사용되는 데이터마이닝 혼합분포군집 인공신경망 로지스틱회귀 앙상블 1
    지도학습 계층적군집 의사결정나무 신경망 서포트벡터 1
    고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 군집 분석 방법 의사결정나무 신경망 자기 조직화 지도 svc 3
    연관성 분석 평가지표 지지도 오분류표 신뢰도 향상도 2
    텍스트마이닝에 대한 설명으로 옳지 않은 것은? 특정 집단에 대한 반응 sales lead에 대한 정보 획득 타 브랜드에 대한 모니터링을 통해 경쟁 전략을 수립 다양한 언어에 같은 방법을 적용 4
    텍스트마이닝의 어려운 점 해당언어에 대한 폭넓은 이해와 지식이 필요 keyword가 명확하지 않다. insight를 얻기 힘든 경우가 많다. 활용하는데 한계가 많다. 1
    감성분석에 대한 설명으로 맞지 않는 것 문장에서 사용된 긍정과 부정의 점수를 매긴다. 브랜드 평판의 추이 분석 긍정 단어사전과 부정 단어 사전이 필요 긍정사전과 부정사전은 모든 분야에서 공통적으로 사용할 수 있다. 4
    자신의 커뮤니티와 다른 커뮤니티에 모두 연결이 높은 사람을 무엇이라고 하는가? queen inflencer leader boss 2
    소셜 네트워크의 활용방안으로 옳지 않은 것은? 네트워크가 몇 개의 집단으로 구성되는지 알수 있다. 영향력 있는 고객을 알 수 있다. 시간의 흐름에 따른 변화를 알 수 있다. 고객이 다음번에 이탈여부 4

     

    [문제풀이] 제5과목 데이터 시각화

    문제 보기1 보기2 보기3 보기4 정답
    시각적 이해의 위계 구도 상에서 인간의 경험이 본격적으로 개입되는 단계 데이터 정보 지식 지혜 3
    시각과 인사이트 프로세스에 대한 설명 중 틀린 것 두개 통찰을 얻기 위해 살펴봐야할 대상은 외부와 내부(사람)의 두 가지다. 지혜는 개인화된 지식 분석 단계에서는 그래프를 이용하지 않고 수치 분석 기법 사용 통찰의 활용에는 프리젠테이션도 포함 1,3
    계층형 구조를 만들 수 없는 것 경위도 YYYY-MM-DD 행정구역 일반 텍스트 데이터 4
    데이터를 명세화하기 위한 개념 관계가 없는것 데이터형 로그 데이터 클래스 메서드 2
    공간 데이터의 처리와 직접적인 관계가 없는 것 두개 코로플레스 지도 지오코딩 워들 vlook함수 3,4
    시간에 따른 다차원 데이터의 변화를 직관적으로
    살펴볼 수 있는 기법
    트리맵 모션차트 산포도 피벗테이블 2
    결과에 영향을 미치는 요인들 사이의 관계와 핵심 요인을 선별하는 통계적 분석 기법 두가지 요인 분석 상관분석 판별분석 주성분 분석 1,4
     분석 및 지표에 대한 설명 중 맞는 것 빅데이터 분석에서는 표본데이터에 기반한 분석 모델링 결정 계수는 모델의 설명력을 의미 원본 데이터에서 여러 지표를 잘 추출하여 모델에 많이 반영할수록 설명력이 유의미하게 커진다. 지표간의 설명력에 대한 효과는 요인분석을 통해 확인해볼 수 있다. 2,4
    통찰을 활용하는 방법 중 성격이 다른것 조기 경보 체계의 구축 설명력을 강화하는 변인의 추가 설명과 설득을 위한 스토리텔링 콘텐츠 제작 기존 모델에 대한 전면적인 재검토 3
    인사이트의 발정과 확장 틀린것       복잡한 분석 4
    틀린 것 데이터-원자재 생산자와 사용자 같게 지식은 다른 영역의 정보가 자기 조직화해 획득할 수 있다. 지혜는 자기 내면화한 지식 2
    데이터 수집-모든것을 읽기 - 내러티브 찾기-문제정의 -계층 구조 만들기-와이어프레임 그리기 - 포맷 선택-시각 접근 방법 결정-정제와 테스트
    LATCH (location, alphabet,time,category,hierarchy)  
    관계 시각화 구현     스캐터플롯   3
    데이터를 시각화하는 이유 인사이트        
    시각화에 쓰이는 패키지 ggplot2        
    그래프의 x축과 y축을 지정하는 함수 aes        
    데이터가 분류유형이 많은 경우 선그래프 원그래프 히스토그램 점그래프 3
    그래프의 내부 색상을 바꿔주는 옵션 fill        
    D3.js에서 scale 입력값의 범위 지정 함수 domain()        
    D3.js에서 축의 눈금 단위 지정 함수 ticks()        
    시각화 라이브러리 아닌 것 Gephi jqPlot D3.js Flot 1
    D3.js의 특징 항상 SVG 객체를 기반으로 동작 오페라브라우저 오픈소스 CSS활용 1
    D3.js에서 시각화 요소의 위치 변경 속성 transform        
    히트맵 활용 분포 시각화        

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

     문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기