반응형

     정보

    • 업무명     : 데이터분석 전문가 (ADP) 필기 : 10회, 11회 기출 문제
    • 작성자     : 이상호
    • 작성일     : 2022.10.15
    • 설   명      :
    • 수정이력 :

     

     

     내용

    [10회 기출 문제]

    문항번호 평가문항 정답 및
    해설
    문제 보기1 보기2 보기3 보기4 정답 해설
    1 다음 중 기업의 빅데이터 활용사례 중 잘못 연결된 것은? 구글-사용자 로그 데이터를 분석해서 기존의
    페이지 링크 알고리즘을 개선
    월마트-고객의 구매패턴을
    분석해서 상품 진열을 바끔
    페이스북-실시간 자동 번역시스템을 통해 의사소통의 불편을 해소 아마존-전자책 관련 데이터를 분석하여
    저자에게 독서 패턴 정보 제공
    3 3
    2 빅데이터의 위기 요인과 통제방안을 서로 연결한 것 중 잘못된 것은?
    가-사생활 침해-동의제에서 책임제로 변화
    나-책임원칙 훼손 - 알고리즘 접근 허용
    다-데이터오용-정보선택 옵션 제공
    가,나다 가,다 가,나 나,다 4 4
    3 데이터에 대한 설명으로 부적절한 것? 그 형태에 따라 정성 데이터와 정량 데이터로 구분 존재 형식을 불문하고 개발 데이터 자체로 의미가 중요하지 않다. 사전적으로 추론과 추정의 근거를 이루는 사실을 의미 암묵지와 형식지의 상호 작용에 중요한 역할을 한다. 2 2
    4 데이터사이언스와 통계학이 다른점 중 부적절한 것? 데이터사이언스는 통계학과 달리 총체적 접근법을 사용한다. 정형 및 비정형을 포함한 다양한 유형의 데이터를 분석 대상으로 한다. 분석뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한다. 기존 통계학에 데이터마이닝을 접목한 새로운 학문이다.   4
    5 빅데이터 활용에 필요한 기본적인 3요소 데이터,기술,인력 기술,인력,프로세스 데이터,인력,프로세스 데이터,기술,프로세스 1 1
    6 아래는 특정산업의 일차원적 분석사례를 나열한 것이다.
    다음 중 특정산업으로 적절한 것은?

    트레이딩, 공급,수요예측
    제조업 에너지 소매업 헬스케어 2 2
    7 다음 중 사회기반구조로써 데이터베이스가 구축되어 활용되고 있는 응용시스템은? CRM NEIS ERP KMS   2
    8 다음 중 빅데이터에 대한 설명으로 부적절한 것? 빅데이터 환경에서는 표본조사의 중요성이 더욱 대두되고 있다. 빅데이터를 통해 기존 방식으로는 얻을 수 없었던 새로운 통찰이나 가치 창출이 가능하다. 빅데이터의 출현배경으로 클라우드 컴퓨팅의 발전, 저장장치의 가격하락 등이 있다. 4차 산업혁명 시대에 과거 석탄과 같은 역할을 하게 될 것으로 기대한다. 1 1
    9 다음 중 데이터베이스에 대한 설명으로 부적절한 것은? 특정 조직의 임무를 수행하는데 있어 필요한 상호 관련된 데이터 집합 다수 사용자들이 공동으로 이용하고 유지하는 공용데이터 DBMS는 데이터베이스를 조작하는 별도의 소프트웨어 텍스트나 숫자, 그래프 형태의 데이터를 처리하는데 최적화되어 있다. 4 4
    10 다음 중 설명이 가장 부적절한 것은 과학적 분석 과정은 가정을 근거로 인간의 해석이 필요하게 된다. 뛰어나 분석적 리더들은 의사결정에 과학적 직관을 혼합한다. 빅데이터 분석에서 가치 창출 여부는 데이터의 용량과 형태에 따라 좌우된다. 데이터과학자에게는 비판적 시각, 글쓰기 및 대화 능력 등 인문학적 소양이 요구되기도 한다.   3
    11 다음 중 MapReduce에서 입력 데이터를 key-value 쌍으로 변환하는 역할을 수행하는 것은? Reducer Mapper Combiner Partitioner 2 2
    12 다음 중 ODS(Operational Data Storage)와 DW(Data Warehouse)에 관한 설명으로 가장 부적절한 것은? 데이터 측면에서 보면 ODS는 현재 또는 비교적 최근의 데이터를 저장하고, DW는 오래된 상세 데이터 및 2차 가공된 고도로 요약된 데이터를 저장한다. ODS가 비교적 소규모 데이터를 저장하는데 비해 DW는 대규모 데이터를 저장하는데 사용된다. ODS는 단순한 적재와 접근 기능 중심인데 비해 DW는 데이터의 업데이트 저장환경으로 데이터베이스 데이터 처리의 모든 기능을 사용하도록 설계되어 있다. 과거 ODS는 DW와 구분되는 분명한 특징을 지닌 분석 영역이었지만 현재는 운영환경의 통합이 상당수 진행된 환경에서는 단순히 DW를 구축하기 위한 1차 데이터 수집공간의의미로 구성하는 경우도 있다. 3 3
    13 다은 중 CPU 가상화에 대한 설명으로 적절한 것은? 완전 가상화는 CPU를 제외한 모든 자원을 하이퍼바이저가 직접 제어 관리한다. 현재 가상화는 CPU 자원만 지원한다. 완전 가상화는 운영체계의 수정이 필요하기 때문에 설치할 수 있는 운영체제에 제한이 있다. 반가상화는 privileged 명령어를 게스트 운영체제에서 hypercall로 하이퍼바이저에 전달하고, 하이퍼바이저는 hypercall에 대해서 privileged 레벨에 상관없이 하드웨어로 명령을 수행시킨다. 4 4
    14 Hadoop Mapreduce 연산에서 key와 value에 대한 설명으로 적절한 것은? key는 tab 앞에 나오는 단어이고, value는 tab 뒤에 나오는 나머지 부분이다. key는 byte offer이고 value는 그 중의 내용이다. key는 value는 모두 사용자가 정의한다 key는 comma로 구분된 첫 번째 단어이고, value는 comma 뒤에 나오는 나머지 부분이다.   1
    15 다음 중 ETL(Extraction, Transformation and Load)의 작업 단계로 올바른 것은? Staging -> Profiling -> Cleansing -> Integration Staging->Cleansing->Profiling->Integration Profiling->Staging->Cleansing->Integration Staging->Cleansing->Integration->Profiling 1 1
    16 다음 중 대규모 분산 병렬 처리기술 중 하나인 하둡의 특징에 관한 설명으로 적절한 것은? 하둡은 최대 3000대까지 서버 클러스터를 구성할 수 있다. MapReduce는 MapReduce라는 하나의 프로그래밍 인터페이스만 구현하면 동작하므로 개발자는 비즈니스 로직 개발에만 집중할 수 있다. HDFS에 저장되는 데이터는 별도의 설정을 변경하지 않으면, 3중 복제가 되어 서로 다른 블록서버에 저장된다. 하둡 에코시스템에서 사용하는 대용량 SQL 질의 기술로는 Sqoop이 대표적이다. 3 3
    17 다음중 NoSQL에 관한 설명으로 적절한 것은 ? NoSQL은 관계형 데이터 모델을 사용하지 않고 일반적으로 스키마를 강제제 적용하지 않는다. NoSQL을 사용하면 언제나 관계형 데이터베이스보다 좋은 성능을 얻을 수 있다. NoSQL의 성능을 향상시키기 위해서는 더 빠른 하드웨어로 확장해야 한다. NoSQL 중 key-value DB 방식은 주로 JSON이나 XML 형식의 문서와 같은 비정형 데이터를 저장하도록 설계되었다. 1 1
    18 다음 중 데이터베이스 클러스터에 관한 설명으로 부적절한 것은? 무공유 클러스터에서는 모든 노드가 데이터를 수정할 수 있다. 데이터를 통합할 때, 성능 향상과 가용성을 높이기 위해 데이터베이스 차원의 파티셔닝 또는 클러스터링을 이용한다. 무공유 클러스터에서 각각 인스턴스나 노드는 완전히 분리된 데이터의 서브 집합에 대한 소유권을 가진다. 무공유 클러스터에서는 각 노드에 장애가 발생할 경우를 대비해 별도의 폴트톨러런스(fault-tolerance)를 구성해야 한다. 1 1
    19 다음 중 EAI와 ESB(Enterprise Service Bus)에 대한 비교 설명으로 부적절한 것은? EAI는 미들웨어를 이용하여 서비스를 지원하기 위한 시스템을 유기적으로 연계하는 기술이고, ESB는 미들웨어를 이용하여 비즈니스 로직을 중심으로 기업 내의 Application을 통합 연계하는 기술이다. EAI는 Application 관점의 통합이고, ESB는 프로세스 관점의 통합이다. EAI에서 로직 연동은 개발 application에서 수행되고, ESB에서 로직 연동은 ESB에서 수행된다. EAI는 단일 접점인 허브 시스템을 통해 시스템을 통합하는 중앙집중식 방식이고, ESB는 각 시스템을 BUS를 통해 연결하므로 뛰어난 확장성과 유연성을 제공한다. 1 1
    20 다음 중 ETL(Extraction, Transformation and Load)의 설명으로 부적절한 것은? ETL은 데이터 이동과 변환 절차에 관련된 업계 표준 용어이다. Extraction(추출)은 하나 또는 이상의 데이터 원천들로부터 데이터를 획득할 수 있는 과정이다. Loading(적재)는 변환단계 처리가 완료된 데이터의 분석을 위하여 메모하여 적재하는 과정이다. Transaction(변환)은 데이터 클렌징, 형식변환, 표준화, 통합 또는 다수의 어플리케이션에 내장된 비즈니스 룰을 적용하는 과정이다. 3 3
    21 다음 중 분석 과제 발굴에 대한 설명으로 가장 부적절한 것은? 분석해야 할 대상이 명확하다면 상향식 접근방식이 적절하다. 문제가 주어지고 해법을 찾기 위해 각 과정이 체계적으로 단계화되어 수행되는 방식이 하향식 접근방식이다. 데이터를 활용하여 인사이트를 도출하는 상향식 접근 방식의 유용성이 점차 증가되고 있다. 디자인 사고(Design Thinking)프로세스는 분석과제 발굴에 유용하게 활용될 수 있다. 1 1
    22 다음 중 분석 과제 수행방식에 대한 설명으로 가장 부적절한 것은? Quick-Win 방식의 분석을 통하여 전사적이고 장기적인 과제를 도출하고 수행 단일 분석 과제 중심적인 접근 방식과 지속적인 분석 내재화를 위한 접근방식 등 시점별 구분 필요 과제 단위로 진행되는 프로젝트는 문제에 대한 명확한 해결을 위하여 Quick-Win 방식의 데이터 분석 수행 조직내 분석 문화를 내재화하기 위해서는 전사적이고 중장기적인 관점에서 과제 도출 1 1
    23 다음 중 분석 마스터 플랜 수립시 분석 과제 우선순위를 결정하는 고려 요소로써 가장 부적절한 것은? 전략적 중요도 비즈니스 성과 및 ROI 실행 용이성 데이터 필요 우선 순위 4 4
    24 다음 중 분석 가버넌스 체계 구성요소로 보기 어려운 것은? 과제 기획운영 프로세스 분석의 데이터 및 추진 조직 과제 예산 및 비용 집행 IT 시스템 및 마인드 육성 체계 3 3
    25 다음 중 분석기회 발굴을 위한 범위 확장에서 경쟁사 확대 관점에 포함되지 않는 영역은? 대체재 영역 경쟁자 영역 신규진입자 영역 경쟁 채널 영역 4 4
    26 다음 중 빅데이터 특징 4V를 고려한 분석 ROI에서 비즈니스 효과에 해당되는 것은? Volume Variety Velocity Value 4 4
    27 다음 중 빅데이터 분석 방법론에서 단계 간 피드백이 반복적으로 많이 발생할 수 있는 단계는? 분석기획->데이터 준비 데이터 준비 -> 데이터 분석 데이터 분석->시스템 구현 시스템 구현 -> 평가 및 전개 2 2
    28 다음 중 비즈니스 모델 캔버스의 9개 요소를 5개의 분석 과제 발굴 영역과 연결한 것 중 잘 못 연결한 것은? 업무-비용 제품-가치제안 고객-수익 지원인프라-핵심자원 4 4
    29 다음 중 아래의 데이터 거버넌스 체계가 설명하는 항목은?
    메타데이터관리, 데이터 사전관리, 데이터 생명주기 관리
    데이터 표준화 데이터 관리 체계 데이터 저장소 관리 표준화 활동 2 2
    30 빅데이터의 특징을 고려한 분석 ROI 요소와 분석 우선순위 평가 기준에 대한 설명으로 가장 부적절한 것은? 시급성이 높고 난이도가 낮은 분석과제는 과제 우선순위가 높다. 분석 난이도는 분석 준비도와 성숙도 진단 결과에 따라 해당 기업의 분석 수준을 파악하고 이를 바탕으로 결정된다. 시급성이 높고 난이도가 높은 분석과제는 경영진 또는 실무 담당자의 의사 결정에 따라 적용 우선순위를 조정할 수 있다. 분석 과제의 우선순위 평가에서 시급성은 전략적 중요도, 데이터 수집비용 등을 평가하고 난이도는 분석 수준과 복잡도가 평가요소이다. 4 4
    31 사회 연결망 분석에서 관계의 방향이 존재하는 방향 그래프를 분석할 때에는 연결정도 중심성을 구분할 수 있다. 다음 중 어떤 노드 A가 다른 노드로부터 관계를 받는 정도를 의미하는 중심성 지표로 적절한 것은? 인디그리 중심성 아웃드그리 중심성 위세 중심성 근접 중심성 1 1
    32 아래는 근로자의 임금 과 교육 수준의 관계를 나타낸 그래프이다.  부적절한 것은 각 막대의 높이는 임금 수준을 나타낸다. 각 학력 수준에 따라 임금의 분포를 나타낸다. 학력 수준이 높아질수록 임금은 높아지는 경향이 있다. 5.Advanced Degree  그룹의 임금 분포는 쌍봉이다. 1 1
    33 아래는 암세포주에 대한 자료를 이용한 군집분석 결과이다. 부적절한 것은 최단 연결법을 사용한 계층적 군집 분석 방법이다. 사슬모양의 군집이 생길 수 있다. 두 군집 사이의 거리를 각 군집에서 하나의 관측값을 뽑았을 대 나타날 수 있는 거리의 최소값으로 측정한다. 평균 연결법에 비해 계산량이 많다. 4 4
    34 로지스틱 회귀모형은 독립변수의 선형결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계기법이다. 로지스틱 회귀분석은 종속변수가 이진형과 순서형인 경우에 사용할 수 있다. 다음 중 로지스틱 회귀분석에 대한 설명으로 부적절한 것은? 로지스틱 회귀모형에서 연결함수는 음과 양의 기울기에 따라 -1과 1의 값을 가지는 형태의 함수를 사용한다. 로지스틱 회귀모형은 회귀모형이라는 명칭을 가지고 있지만 분류 방법의 일종이다. 종속변수 y=1일 확률의 로짓과 q개의 설명변수간의 관계를 선형으로 모형화한 것이다. 집단(y=1)에 속하는 오즈(odds)는 집단1에 속하는 확률을 집단 0에 속하는 확률로 나눈 비율이다. 1 1
    35 다음 중 lasso 회귀모형에 대한 설명으로 부적절한 것은 모형에 포함된 회귀 계수들의 절대 값 크기가 클수록 penalty를 부여하는 방식이다. 자동적으로 변수 선택을 하는 효과가 있다. 람다 값으로 penalty의 정도를 조정한다.. L2 penalty를 사용한다. 4 4
    36 아래는 변수들 간의 상관계수를 나타낸다. 다음 중 아래에 대한 설명으로 가장 부적절한 것은 Salary와의 상관계수가 가장 적은 변수는 Errors이다. Salary와 CRuns의 상관계수는 통계적으로 유의한다. Salary와의 Errors  간에 상관관계는 알 수 없다. Salary를 종속 변수로 나머지 변수들을 설명변수로 하는 회귀모형을 만들 때, 다중 공선성이 존재할 가능성이 높다. 2 2
    37 상자그림은 자료로부터 얻은 통계량인 5가지 요약 수치 min,max, Q1, Q2,Q3의 그림이다. 다음 중 상자 그림에 대한 설명으로 부적절한 것은? 중위수는 상자 안의 선이며, 관측치의 절반은 이 값보다 크거나 같고, 절반은 작거나 같다. 사분위가 범위 상자는 데이터의 중간 50%를 보여주며, 1사분위수와 3사분위수간의 거리를 보여준다. 수염은 상자의 양쪽에서 연결되며, 수염은 이상치를 제외하고 데이터 값의 하위 25%, 상위 25%의 범위를 나타낸다. 상자 그림에서는 그룹의 산포간 차이가 있는지 확인할 수 있고, 차이가 통계적으로 유의한지 여부도 확인할 수 있다. 4 4
    38 Default 데이터셋은 연체여부, 학생여부를 포함하며, 아래는 default와 student 간의 관계를 나타내는 그림이다. 다음 중 옳지 않은 것은? default Yes  고객이 default No 고객에 비해 적다. student Yes 고객이 Student No 고객보다 많다. Default No 고객 중 Student Yes의 비율이 default Yes 고객 중
    student Yes의 비율보다 적다
    student 여부와 default 여부는 서로 독립이 아닐 것으로 추측된다. 2 2
    39 아래는 Hitters 데이터셋의 모형 적합에 앞서 데이터를 train set과 test set으로 분할하는 과정이다.
    부적절한 것은?
    데이터를 50:50으로 분할하고 있다. 모형 학습과 평가를 동일한 데이터셋에 진행하면 모형이 과적합 될 수 있다. 50%의 데이터(train set)를 사용하여 모형을 학습하고 나머지 50%의 데이터(test set)로
    모형을 평가하기 위한 사전작업이다.
    대부분 test set에 대한 모형평가 결과는 train set에 대한 모형평가 결과보다 좋다. 4 4
    40 Default 데이터셋은 연체여부, 평균 카드 잔고, 연봉, 학생여부를 포함하며, 아래는 연체 가능성에 대한 로지스틱 회귀분석 결과이다. 다음 중 유의 수준 0.05하에서 아래에 대한 설명으로 가장 부적절한 것은? student는 default를 설명하는 데 통계적으로 유의하다. income는 default를 설명하는 데 통계적으로 유의하다. balance는 default를 설명하는 데 통계적으로 유의하다. balance는 income이 동일할 때 학생일수록 default 가능성이 낮다. 2 2
    41 다음 중 결측값을 처리하는 방법에 대한 설명 중 부적절한 것은? complete Analysis는 불완전 자료를 모두 삭제하고 완전한 관측치만으로 자료를 분석하는 방법이다.
    그러나 부분적 관측 자료를 사용하므로 통계적 추론의 타당성 문제가 있다.
    평균대치법은 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석하는 방법이다. 단순확률대치법은 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안된 방법이다. 다중대치법은 단순 대치법을 한번하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만드는 방법으로 순서로는
    1단계인 대치, 2단계인 결합, 3단계인 분석이다.
    4 4
    42 아래의 산점도에 대한 설명 중 부적절한 것은? mpg와 housepower 은 음의 상관관계가 있다. 상관계수는 -1에서 1사이의 값이다. horsepower가 커질수록 mpg은 작아진다. mpg와 horsepower의 상관관계는 통계적으로 유의하다고 할 수 있다. 4 4
    43 다음 중 의사결정나무 모형에 대한 설명으로 부적절한 것은? 대표적인 사례는 신용평가, 환자 증상 유추, 고객 세분화 등이 있다. 의사결정 나무 모형에는 CHAID, C4.5, CART 등 여러 가지 알고리즘이 있는데
    핵심적인 공통개념은 상향식 의사결정 흐름과 해시 탐색 기반의 구조를 가지고 있다는 것이다.
    과적합의 문제를 해결하기 위해 가지치기 방법을 이용하여
    트리를 조정하는 방법을 사용한다.
    불순도 측도인 엔트로피 개념은 여러 가지 임의의 사건이 모여있는
    집합의 순수성 또는 단일성 관점의 특성을 정량화해서 표현한 것이다.
    2 2
    44 다음 중 R의 데이터 구조 중 벡터에 대한 설명으로 적절한 것은? 벡터는 행렬과 유사한 2차원 목록 데이터 구조이다. 벡터는 하나의 스칼라 값 또는 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합이다. 벡터는 숫자로만 구성되어야 한다. 벡터는 행과 열을 갖는 nXn 형태의 데이터를 나열한 데이터 구조이다. 2 2
    45 실험의 목적에 맞게 관측해 자료를 얻는 것을 측정이라 한다. 자료는 질적자료와 양적자료로 구분할 수 있는데 이에 대한 설명으로 잘못된 것은? 명목척도는 측정대상이 그들이 속한 범주나 종류에 따라 분류될 수 있도록 수치나 부호를 부여하고 이를 통한 연산을 통해 의미를 부여한다. 성별, 아파트 동호수 등이 있다. 서열 척도는 개체간의 서열관계를 나타내 주는 척도이다. 셔츠 사이즈, 선호도 등이 있다. 구간 척도 등간척도라고도 한다. 숫자 간의 간격이 산술적 의미를 가진다. 온도, 주가지수 등이 있다. 비율 척도는 숫자 간의 비율이 산술적 의미를 가진다. 키, 무게, 압력 등이 있다. 1 1
    46 다음 중 시계열 분석의 분해 요소에 대한 설명이 부적절한 것은? 추세 분석은 장기적으로 변해가는 큰 흐름을 나타내는 것으로
    자료가 장기적으로 커지거나 작아지는 변화를 나타내는 요소이다.
    계절 변동은 일정한 주기를 가지고 반복적으로 같은 패턴을 보이는
    변화를 나타내는 요소이다.
    순환 변동은 경제 전반이나 특정 산업의 부침을 나타내 주는 것을 말한다. 불규칙 변동은 불규칙하게 변동하는 급격한 환경변화, 천재지변 같은 것으로 발생하는 변동을 말한다. 3 3
    47 영향 관측치는 모형의 인수들에 불규칙한 영향을 미치는 관측치이며, 하나의 관측치를 제거함으로써 모형이 극적으로 달라지는 경우가 있는데 이러한 관측치가 영향 관측치이다. 다음 중 관측치의 영향력을 진단에 대한 설명으로 부적절한 것은 Cook's Distance는 추정 회귀모형에서 판단하며 이 값이 클수록 영향치 가능성이 높다. COV Ratio는 제외시 추정 분산이 커지는 정도를 측정하는 것이다. DFBETAS의 절대값이 유난히 큰 관측개체는 k번째 회귀계수의
    추정에 대하여 큰 영향력을 행사하는 것으로 간주하는 방법이다.
    Leverage H의 대각원소는 관측치가 다른 관측치 집단으로부터 떨어진 정도를 나타낸다.
    표준화 잔차와 대각원소가 크면 영향 관측치이다.
    2 2
    48 시계열 데이터는 시간에서 순차적으로 관측된 값들의 집합이다. 다음 중 시계열 데이터 분석에 대한 설명으로 부적절한 것은? ARIMA 모형은 데이터에 대한 모형화를 통해 미래를 예측하는 방법으로
    설명변수가 종속변수의 과거값인 AR 모형과 설명변수가 오차항의 과거값인 MA  모형이 결합된 형태이다.
    정상시계열이란 어떤 일정한 값을 중심으로 일정한 변동 폭을 가지면서 시간에 따라 변하는 형태의 패턴을 갖는 시계열이다. 시계열요소분해법은 시계열 자료가 몇 가지 변동 요소의 결합으로 이루어져 있고 변동 요소들을 찾아내어 요소별로 분해하여 분석하기 쉽게 하기 위한 방법이다. 지수평활법은 복잡한 모형을 세우지 않고 과거와 현재의 데이터를 단수평균 혹은 가중평균해서 미래의 데이터를 예측할 때 사용하는 방법이다. 4 4
    49 다음 중 시간의 흐름에 따라 관측된 데이터에 관한 것으로 적절한 것은? 횡단면 자료 시계열 자료 질적자료 양적자료 2 2
    50 데이터 전처리는 데이터 분석 작업 전에 데이터를 분석하기 좋은 형태로 만드는 과정을 총칭하는 개념이다. 아무리 좋은 분석 기법과 데이터를 활용하더라도 데이터의 품질이 낮으면 좋은 결과를 얻기 힘들다, 다음 중 데이터의 품질을 떨어트리는 원인으로 부적절한 것은? 데이터가 비어있는 불완전한 경우가 있으며, 테이블의 속성값이 NULL로 되어 있다. 데이터에 오류가 포함되어 있는 경우에도 데이터 전처리가 필요한다. 데이터 간에 정합성이 없는 경우, 데이터 품질이 떨어지게 된다. 데이터의 구조적 형태가 분석 목적이나 분석 기법에 적합하지 않은 경우에는 해당 데이터는 분석에 사용하지 않는 것이 원칙이다. 4 4
    51 다음 중 연관성 분석에 대한 설명으로 부적절한 것은? 품목 A와 품목 B의 구매가 상호 관련이 없다면 향상도는 1이된다. 연관성 분석은 하나 이상의 제품이나 서비스를 포함하는 거래 내역을 이용하여 동시에 구매되는 제품별 거래 빈도표를 통해 규칙을 찾는데서 시작했다. 사건들이 어떤 순서로 일어나고 이 사건들 사이에 연관성을 알아내는 것이 시차 연관분석이지만 원인과 결과의 형태로 해석되지는 않는다. Apriori 알고리즘은 최소 지지도보다 큰 빈발항목집합에서 높은 측도(신뢰도, 향사도)값을 갖는 연관규칙을 구하는 방법이다. 3 3
    52 다음 중 통계적 추론에 대한 설명으로 부적절한 것은 구간 추정은 모수의 참값이 포함되어 있으리라고 추정되는 구간을 결정하는 것이며, 신뢰수준은 신뢰구간이 모수를 포함할 확률이다. 점추정에서는 추정량이 모수에 얼마나 가까운지를 나타내기 위해서 추정량의 표준오차를 사용한다. 베이지안 추론은 모수를 상수가 아니라 확률변수로 보고 사후분포를 유도하는 것이다. 비모수적 추론은 모집단에 대한 분포 가정을 하지 않으며 분포의 특성을 결정하는 모수를 추론하는 방법이다. 4 4
    53 아래는 모임 참석 여부에 대한 회신 결과이다. 아래의 모임 참석 여부에 대한 엔트로피 지수는?
    Yes, No, Yes, No, Yes
    -(3/5 * log 3/5) - ( 2/5 * log 2/5)       3 3
    54 아래는 20명의 남녀를 대상으로 자신이 좋아하는 과일이 무엇인지를 조사한 결과이다. 다음 중 조건부 확률 P(사과|남자)로 적절한 것은 1/10 2/3 1/2 1/4 4 4
    55 다음 중 아래의 인공신경망의 활성화 함수를 무엇이라고 하는가? 기호함수 계단함수 시그모이드함수 소프트맥스 함수 3 3
    56 다음 중 비모수 검정 방법으로 부적절한 것은? 만-위트니 U 검정 런 검정 윌콕슨의 순위합 검정 카이제곱 검정 4 4
    57 다음 중 기업이 보유하고 있는 거래 데이터, 고객 데이터 등과 외부 데이터를 포함하는 모든 데이터를 기반으로 새로운 규칙 등을 발견하고 이를 비즈니스 의사결정 등에 정보로 활용하고자 하는 일련의 작업을 무엇이라고 하는가? 회귀분석 데이터마이닝 데이터웨어하우징 의사결정시스템 2 2
    58 다음 중 연속형 변수의 경우 최소값, 1사분위수, 중앙값, 평균 등을 출력하고 범주형 변수의 경우
     각 범주에 대한 빈도수를 출력하여 데이터의 분포를 파악할 수 있게 하는 함수로 적절한 것은?
    summary 함수 ddply 함수 melt 함수 aggregate 함수 1 1
    59 다음 중 앙상블 기법이라고 할 수 없는 것은 소프트맥스 부스팅 배깅 랜덤포레스트 1 1
    60 아래는 쇼핑몰의 거래 내역이다. 다음 중 규칙
    '사과->딸기'에 대한 향상도는 얼마인가?
              2
    61 다음 중 사회연결망 분석 시 연결된 노드의 중요성에 가중치를 두고
    노드의 중심성을 측정하는 방법으로 적절한 것은
    연결 정도 중심성 근접 중심성 매개 중심성 위세 중심성 4 4
    62 다음 군집화 방법 중 DBSCAN, DENCLUE 기법 등 임의적인 모양의 군집 탐색에 가장 효과적인 방법은 격자기반 군집 모형기반 군집 밀도기반 군집 커널기반 군집 3 3
    63 다음 데이터마이닝의 대표적인 기능 중 이질적인 모집단을 세분화하는 기능으로 적절한 것은? 분류분석 예측분석 군집분석 연관분석 3 3
    64 분류 모형의 평가에서 붓스트랩을 사용하며 훈련용 자료의 선정을 충분히 한다고 가정할 때 훈련용 자료로 사용되는 비율로 적정한 것은 36.80% 19.80% 80.20% 63.20% 4 4
    65 신경망 모형에서 사용되는 활성화함수로 부적적할 것은 계단함수 엔트로피 함수 softmax 함수 가우스 함수 2 2
    66 다음 중 이상값 자료에 민감한 k평균 군집의 단점을 보완하기 위해 평균 대신 사용되는 것으로 적절한 것은? 중앙값 기하평균 조화평균 최대값 1 1
    67 다음 중 kmeans 군집분석의 장점으로 적절한 것은? 사전에 주어진 목적이 없어도 결과 해석이 용이하다 계층적 군집보다 많은 양의 자료를 다를 수 있다. 명목형 변수에도 적용할 수 있다. 잡음이나 이상값에 영향을 받지 않는다. 2 2
    68 다음 중 텍스트 데이터를 구조화한 단계로 더 잉상 추가적인 절차 없이 실험에 활용될 수 있는 상태를 나타내는 용어로 적절한 것은? Stamming Corpus Stop Words API 2 2
    69 텍스트데이터의 수집을 위한 API 사용은 서비스 제공자의 정책에 따라 기능이 제한적임에 따라 웹페이지의 구조를 분석하여 자동적응로 데이터를 수집하는 방법을 사용하기도 한다. 이를 나타내는 용어는? TDM 워드 스테밍 웹크롤링 클라우드 컴퓨팅 3 3
    70 다음 사회 연결망 특성을 나타내는 지표 중 연결망 내 전체 구성원이 얼마나 많은 관계를 맺고 있는 가를 표현하기 위해 총 관계수 중에서 질제로 맺어진 관계 수의 비율을 나타내는 지표는 무엇인가? 밀도 중심화 중심성 구조적 틈새 1 1
    71 정보 디자인 개념에 포함되지 않는 것은 데이터 수집 맥락 만들기 형태 만들기 의미 만들기 1 1
    72 시각화 방법의 단계적 순서? 정보 시각표현->정보시각화->정보구조화 정보구조화->정보 시각표현->정보 시각화 정보 시각화->정보 시각표현->정보 구조화 정보 구조화->정보 시각화->정보 시각표현 4 4
    73 버블 차트는 어떤 종류의 시각화 방법인가? 시간 시각화 분포 시각화 비교시각화 관계시각화 4 4
    74 코드에 따른 시각화 결과물로 적절한 것은         2 2
    75 잘못된 설명은? 데이터는 정보를 만들기 위한 원자재와 같다 정보는 생산자와 사용자의 관점에 구애 받지 않고 같은 내용으로 전달 될 수 있으며, 공통된 형태와 형식을 갖고 있다. 지식은 다른 영역의 정보가 자기 조직화 해 획득할 수 있다. 지혜는 자기 내면화된 지식으로 명시적인 언어로 상대방에게 전달하기 어렵다. 2 2
    76 R에서 제공하는 시각화 방식으로 가장 부적절한 것은? 히스토그램 세계지도 별그림 얼굴그림 2 2
    77 다음 중 정보 디장인의 빅데이터 시각화 영역에 대한 설명으로 부적절한 것은 정보 디장인은 데이터의 디테일을 나타낸다. 데이터 시각화는 정보형 메시지를 전달한다. 인포 시가고하는 설득형 메시지를 전달한다. 빅데이터 시각화는 정보형 메시지를 전달하는 경향이 강하다. 1 1
    78 시각화 라이브러리가 아닌 것은 Flot D3.js Timeline Visual.ly 4 4
    79 정보 시각화 방법으로 부적절한 것은? 시간 시각화에는 막대그래프, 점그래프 등이 있다. 관계시각화에는 스캐너플롯,히트맵등이 있다. 공간 시각화에는 지도 매핑이 활용된다. 분포 시각화에는 파이차트, 트리맵 등이 있다. 2 2
    80 매드워드 터프티가 제시한 디자인 7원칙에 대한 설명으로 부적절한 것은 시간적 비교를 강화하여 정보의 가치를 높인다. 공간순 보다는 시간순으로 나열하여 사용자의 이해가 쉽게 한다. 다중 변수를 표시하여 관련된 변수의 정보를 표현한다. 정량적 지표의 정당성은 제시하지 않는 것이 좋다. 2 2

     

     

    [11회 기출 문제]

    문항번호 평가문항 정답 및 해설
    문제 보기1 보기2 보기3 보기4 정답
    1 다음은 데이터에서 최종적으로 지혜를 얻어내는 과정을 계층 구조로 설명하는 지식 피라미드의 예시이다.
    아래의 예시들이 피라미드에서 어느 과정에 해당하는지 순서대로 나열한 것은?
    아래
    가. A 마트의 다른 상품들도 B마트보다 쌀 것이라고 판단한다.
    나. A 마트의 연필이 더 싸다.
    다. A 마트는  100원에 B 마트는 200원에 연필을 판매한다.
    라. 상대적으로 저렴한 A마트에서 연필을 사야겠다.
    가.지식 나.지혜 다.정보 라.데이터 가.지혜 나.정보 다.데이터 라.지식 가.지혜 나.지식 다.정보 라.데이터 가.지식 나.지혜 다.데이터 라.정보 2
    2 다음 중 정보 관리 시스템의 능력을 넘어서는 정보량을 다루기 위해 필요한 정보만을 수집하여 효율성을 달성하는 것은? 사전처리 표본조사 상관관계 인과분석 1
    3 다음 중 통찰력을 제공하는 분석 기술로 부적절한 것은? 모델링 추출 최적화 예측 2
    4 개인에게 축적된 경험을 언어나 기호 등의 객관적인 데이터로
    문서나 매체에 저장, 가공, 분석하는 과정은?
    내면화 공통화 표출화 연결화 3
    5 빅데이터 시대 위기 요인으로 가장 부적절한 것은? 익명화 사생활 침해 데이터 오용 책임원칙 훼손 1
    6 노타카 이쿠지로 교수는 지식을 "형식지"와 암묵지로 구분하고 4가지 지식변환 프로세스 모델을 통해 지식창조과정을 설명하였다. 다음 중 지식 창조과정에 대한 설명으로 부적절한 것은? 공통화-다른 사람과의 대화 등 상호 작용을 통해 개인의
    암묵지로 습득하는 단계
    표출화-암묵지를 언어나 상징으로
    표현함으로써 형식지화 하는 단계
    연결화-형식지를 암묵지에 맞춰 수행하고 편집하여 정리하는 단계 내면화-행동과 실천교육 등을 통해 형식지가
    개인의 암묵지로 변화하는 단계
    3
    7 데이터 사이언스와 데이터 사이언티스트에 대한 설명으로 부적절한 것은 통계학과 데이터 사이언스는 " 데이터를 다룬다"는 것이 비슷하지만 통계학은 더욱 확장된 유형의 데이터를 다룬다. 대부분의 전문가들이 데이터 사이언티스트가 갖춰야 할 역량으로 호기심을 언급한다. 더 높은 가치 창출과 차별화를 가져오는 것은 전략적 통찰력과 관련된 소프트 스킬이다. 뛰어나 데이터 사이언티스트는 정량적 분석이라는 과학과 인문학적 통찰을 근거로 합리적 추론을 한다. 1
    8 한 제과회사에서 기온이 변함에 따라 생산한 빵의 매출이 변화하는 데이터를 활용하여 빵의 판매량을 예측하려고 할 때 분석 방법은? 연관규칙학습 유형분석 회귀분석 군집분석 3
    9 다음 DIKW 단계를 설명하는 것 중 다른 하나는 무엇인가 7월 A상품을 구매하는 고객의 60%가
     30대 남성 고객이다.
    작년 매출은 2월에서
    7월까지 증가하였고, 10월에 다시 증가했다.
    날씨가 추워지고, 지점이 늘어난 11월 매출액은
    5000만원으로 예상한다.
    작년 매출액의 70%는 2월에 집중되어 있다. 3
    10 데이터가 만들어낸 본질적인 변화에 대한 설명으로 적절한것을 모두 고르시오 정해진 특정한 정보만 처리하는 것이 아니라 가능한 많은 데이터를 모으고,
    다양한 형식으로 조합해 숨은 정보를 찾아내는 방식으로 전환
    폭발적인 데이터 증가와 더불어 처리비용
    증가의 대안으로 전반적인 샘플링 분석 방식의 발전
    데이터 양이 증가함에 따라 사소한 몇 개의 오
    류 데이터가 대세에 영향을 주지 못한다는 인식의 발전
    복잡한 상관관계 분석으로 발생하는 많은 시간과 비용을 줄이기 위해 인과관계 분석을 더욱 선호하게 되는 경향과 관련기술 발전 가, 다
    11 다음 중 EAI에 대한 설명으로 가장 적절한 것은 EAI는 웹서비스, XML 등의 표준 기술을 사용하여
    서비스 중심으로 하나의 프로세스를 처리하기 위한 관련 시스템을 연계하는 기술이다.
    EAI는 이기종 플랫폼 환경 하의 애플리케이션
    통합은 지원하지 않는다.
    EAI는 기업 또는 여러 기업 간 이질적 정보 시스템들의
    데이터를 연계함으로써 상호 동기화 돼 동작하도록 되어 있다.
    EAI를 활용하면 기존 단위 업무 위주의 정보시스템
    개발시 정보 시스템들 간 point to point 방식으로 데이터를 연계할 수 있다.
    3
    12 MapReduce 연산에서 Mapper의 중간 Output은 어느 단계의 Input으로 사용되는가? Mapper Shuffle Reduce mapper, Shuffle, Reduce 모든 단계 3
    13 다음 중 대규모 분산 병렬 처리 기술 중 하나인 하둡 에코 시스템의 구성요소로 부적절한 것은? RAID 시스템 MapReduce HDFS YARN 1
    14 아래는 데이터 연계 및 통합 아키텍처와 관련된 도표이다. 알맞게 채워 넣으시오  ODS -> Data Warehouse -> ETL        
    15 MapReduce에 대한 설명으로 가장 적절한 것은? MapReduce 작업은 특별한 옵션을 주지 않으면 3개의 Map Task가 한 개의 블록을 대상으로 연산을 수행하다. Map 과정에서 생산된 중간 결과물들은 네임노드에서 시스템 환경에 따라 자동 할당된 Reduce Task들이 받아와서 최종 결과물을 만들어 낸다. MapReduce는 Map과 Reduce 함수 외에 Cirbar by 함수의 연산을 수행하여 입력과 출력을 처리한다. MapReduce 연산은 연산의 병렬화, 장애 복구 중의 복잡성을 추상화시켜서 개발자가 오직 핵심 기능 구현에만 집중할 수 있도록 고안되었다. 4
    16 하둡과 데이터베이스의 연동 솔루션인 스쿱(Sqoop)에 대한 설명으로 부적절한 것은? 거의 대부분의 NOSQL을 지원한다. 오라클, MySQL 등 거의 대부분의 관계형 데이터베이스를 지원한다. 하둡과 데이터베이스간의 데이터 연동을 위해 수작업으로 스크립트를 작성해야 한다. 하둡으로 데이터를 적재할 수 있다. 1
    17 분산 데이터 자장 기술이 아닌 것은? 하둡의 HDFS 아파치 Stinger 데이터베이스 클러스터 Key-Value 저장소 2
    18 CDC에 대한 설명으로 적절하지 않은 것은? 데이터베이스 내 데이터에 대한 변경요인을 미리 식별하여 변경에 대하여 후속처리를 자동화하기 위한 기술이다. CDC는 데이터의 손실을 막기 위해 실시간 처리 보다는 배치처리에 적합하다. CDC는 애플리케이션 계층과 스토리지 하드웨어 계층에서 모두 구현이 가능하다. CDC는 데이터 원천에서 변경을 식별하고, 대상 시스템에 변경 데이터를 적재해 주는 '푸시 방식'과 대상 시스템에서 필요시 데이터를 다운로드 하는 '풀 방식'으로 구분된다. 2
    19 하둡 에코시스템과 관련된 설명으로 가장 적절한 것은? Flume-NG는 데이터가 발생하는 애플리케이션 단계, 발생한 데이터를 수집하는 단계, 수집한 데이터를 저장하는 단계, 데이터 저장소 보관 단계의 아키텍처로 구성한다. 스쿱은 Hadoop과 RDBMS간의 데이터 연동을 지원하여, Import를 통해 RDBMS에 대이터를 적재하고 Expert를 통해 HDFS에 데이터를 적재한다. Hive는 HDFS상의 데이터에 대하여 SQL을 통한 질의를 가능하게 하였고, 실제 업무에서 데이터를 실시간으로 조회하거나 처리하는 일에 널리 사용된다. 임팔라, 아파치 드릴은 대표적인 SQL on Hadoop 분석 기술로서, 하둡 전문 회사인 MapR을 추축으로 진행되고 있는 프로젝트이다. 1
    20 다음 그림은 맵리듀스의 과정을 순서대로 연결하시오.  Splitting - Mapping - Shuffling - Reducing         
    21 분석 성숙도 모델에 조직역량 부분의 활용단계 함목으로 가장 부적절한 것은? 분석 CoE 조직 운영 전문 담당부서에서 분석 수행 관리자가 분석 수행 분석기법 도입 1
    22 CRISP-DM 방법론에서 단계 간 순환이 발생하는 것으로 적절하게 연결된 단계는 무엇인가? 데이터 이해<->데이터 준비 모델링<->평가 데이터 준비<->모델링 평가<->전개 3
    23 분석 마스터 플랜 수립에서 우선순위 평가 기준 설명으로 가장 부적절한 것은? 우선순위 선정 매트릭스에서 난이도와 시급성으로 구분한다. 우선순위 선정 매트릭스에서 시급성과 난이도가 높은 과제가 우선순위가 높다. 시급성과 전략적 중요도는 Value인
    비즈니스 효과에 대한 구분이다.
    난이도는 Volume, Variety, Velocity의
    투자비용 요소에 대한 구분이다.
    2
    24 분석 수준 지속적인 분석 내재화를 위한 장기 마스터 플랜 방식에 비해 "과제 중심적인 접근 방식"의 특징으로 부적절한 것은? 준비도와 성숙도를 진단을 통하여 준비형, 정착형, 도입형, 확장형으로 구분한다. 준비형은 낮은 성숙도와 준비도에 해당되어 분석을 위한 데이터 준비 등이 필요하다. 정착형은 성숙도는 낮지만 준비도가 높아 전사차원의데이터 분석 확대가 가능하다. 성숙도 측정은 CMM에 기반한 모델로서 도입, 활용, 확산, 최적화 단계로 되어 있다. 3
    25 분석 거버넌스 체계 수립의 데이터 분석 수준진단 내용 중 부적절한 것은? Quick-Win  Accuracy & Deploy Problem Solving Speed & Test 2
    26 수행하고 있는 분석 수행 프로세스와 노하우 등의 암묵지가 형식지화 되는 과정을 거쳐 분석 방법론으로 발전하게 된다. 이러한 과정을 설명하시오. 형식화 -> 체계화 -> 내재화        
    27 상향식 접근 방법의 분석 과제 도출 과정과 디자인 사고 프로세스의 단계는? 상향식 접근 방법 분석 과제 도출 과정 ( 발견 - 통찰)
    디자인 사고 프로세스 상향식 접근 방법 단계(발산)
           
    28 분석 과제를 수행할 때 고려해야할 주요 5가지 속성이 아닌 것은? 속도 분석 복잡도 데이터 양 데이터 분석 방법 4
    29 다양한 데이터 유형 중 정형 데이터-반정형데이터-비정형데이터 순서로 가장 적절한 것은? 물류 창고 재고 데이터 -XML -이메일 전송 데이터 인스타그램 게시물 - 기상청 날씨 데이터 - 웹 로그 데이터 RFID - IoT 센서 데이터 - 동영상 데이터 CRM 데이터 - 카카오톡 대화 데이터 - Twitter 상태 메시지 1
    30 프로토타이핑 접근법에 대한 설명으로 가장 적절한 것은? 문제가 정형화되어 있고 문제 해결을 위한 데이터가 완벽하게 조직에 존재하는 경우 효과적이다. 신속하게 해결책이나 모형을 제시함으로써 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방법이다. 문제 정의가 불명확하거나 이전에 접해보지 못한 새로운 문제일 경우 적용하기 어렵다. 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식이다. 2
    31 다음 중 회귀 모형의 변수 선택 방법으로 사용할 수 있는 것으로 부적절한 것은? 모든 조합의 회귀 분석 Lasso 회귀 분석 단계적 변수 선택 방법 주성분 분석 4
    32 다음 중 군집 분석에서의 유사도 측도에 대한 설명으로 부적절한 것은 표준화 거리는 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리이다. 맨하튼 거리는 각 방향 직각의 이동 거리 합으로 계산된다. 유클리드 거리는 두 점을 잇는 가장 짧은 직선거리이다. 마할라노비스 거리느 변수의 표준편차를 고려한 거리 측도이나 변수 간에 상관성이 있는 경우에는 표준화 거리 사용을 검토해야 한다. 4
    33 상관 분석에 대한 설명으로 가장 부적절한 것은? 상관분석은 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속변수값을 예측하는 선형모형을 산출하는 방법이다. 상관분석은 변수들 간의 연관성을 파악하기 위해 사용하는 분석기법 중 하나로 변수간의 선형 관계 정도를 분석하는 통계기법이다. 서열 척도로 측정된 변수들 간의 상관계수는 스피어만 상관계수로 측정한다. 등간 척도 및 비율 척도로 측정된 변수들 간의 상관계수는 피어슨 상관계수로 측정한다. 1
    34 데이터마이닝 단계 중 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계는? 데이터 가공 데이터 준비 분석 기법의 적용 목적 설정 1
    35 다음 주 연관 규칙의 측정 지표인 향상도에 대한 설명으로 가장 적절한 것은? 품목 A와 B의 구매가 서로 관련이 없는 경우 향상도는 0이다. 품목 B에 대한 품목 A의 조건부 확률로 나타낸다. 전체 거래 중에서 품목 A,B가 동시에 포함된 거래의 비율 향상도가 1보다 크면 해당 규칙은 결과를 예측하는데 있어 우수하다. 4
    36 R의 데이터 구조 중 2차원 목록 데이터 구조이면서 각 열이 서로 다른 데이터 타입을 가질 수 있는 데이터 구조로 적절한 것은? 행렬 배열 벡터 데이터프레임 4
    37 통계적 추론에서 모집단의 모수를 검증하기 위해 사용하는 모수적 방법과 비교하여 비모수적 방법의 특징으로 가장 부적절한 것은 비모수적 검정은 모집단의 분포에 대해 아무런 제약을 가하지 않는다. 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용된다. 분포의 모수에 대한 가설을 설정하지 않고
    분포의 형태에 대해 가설을 설정한다.
    비모수 검정에서는 관측값의 절대적 크기에 의존하여 평균, 분산 등을 이용해 검정을 실시한다. 4
    38 다음 중 자가 조직화 지도(SOM) 방법에 대한 설명으로 부적절한 것은 SOM은 입력 변수의 위치 관계를 그대로 보존하여 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타난다. SOM을 이용한 군집분석은 역전파 알고리즘을 사용함으로써 군집의 성능이 우수하고 수행 속도가 빠르다. SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와
    얼마나 가까운가를 계산하여 연결 강도를 반복적으로
    재조정하여 학습한다 .이와 같은 과정을 거치면서 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다.
    SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현된다. 2
    39 Chickwts 데이터셋에 대해 첨가물 그룹 간 평균 무게에 차이가 있는지 검정하기 위해 분산분석을 한 결과이다. 부적절한 것은 귀무가설은 '첨가물 그룹 간의 평균이 모두 동일하다'이다. 첨가물의 개수는 5개다. 위의 가설 검정은 F통계량을 기반으로 한다. 유의수준 0.05하에서 "첨가물 그룹 간의 무게 평균이 동일하지 않다."고 결론을 내릴 수 있다. 2
    40 한 보험회사에서는 자사 고객의 보험 갱신 여부를 고객의 보험가입 채널 등으이 정보를 사용하여 예측하려고 한다. 다음 중 가장 적절한 분석 기법은 시계열 분석 랜덤포레스트 k-means 주성분 분석 2
    41 다중 회귀분석에서 가장 적합한 회귀 모형을 찾기 위한 과정을 설명으로 가장 부적절한 것은 독립 변수의 수가 많아지면 독립 변수들 간에 서로 영향을 미치는
    다중공선성의 문제가 발생하므로 상대적인 조정이 필요한다.
    회귀식에 대한 검정은 독립변수의 기울기(회귀계수)가 0이 아니라는 가정을 귀무가설, 기울기가 0인 것을 대립가설로 놓는다. 회귀문석의 가설검정에서 p값이 0.05보다 작은 값이
    나와야 통계적으로 유의한 결과로 받아 들일 수 있다.
    잔차의 독립성, 등분산성, 그리고 정규성을 만족하는지 확인해야 한다. 2
    42 R에서 제공하는 데이터 가공, 처리를 위한 패키지의 설명으로 가장 부적절한 것은 data.table 패키지는 데이터 프레임 처리 함수인 ddply 함수를 제공한다. sqldf 패키지는 R에서 표준 SQL 명령을 실행하고 결과를 가져올 수 있다. plyr 패키지는 데이터의 분리, 결합, 등 필수적인 데이터 처리 기능을 제공한다. reshape 패키지는 melt와  cast를 이용하여 데이터를 재구성할 수 있다. 1
    43 R에서 y=c(3,4,5,NA)일 때 3*y의 실행 결과는? 9 12 15 NA        
    44 다음 중 기법의 활용분야가 나머지와 다른 하나를 고르시오 랜덤포레스트 인공신경망 SVM SOM 4
    45 다음 중 데이터의 정규성을 확인하기 위한 방법으로 부적절한 것은? Shapiro-Wilks test 히스토그램 Q-Q plot Durbin Watson test 4
    46 모수에 대한 새로운 가설이 옳다고 판단할 수 있는지를 표본 통계량을 이용해서 평가하고 판단하는 과정을 설명하는 용어는? 점추정 가설검정 구간추정 연구가설 2
    47 한 시행에서 변량 x가 취할 수 있는 값과 이에 대응하는 확률의 관계를 확률분포라고 한다. 다음 중 확률변수와 확률분포에 대한 설명으로 부적절한 것은? 확률분포는 이산형 확률분포와 연속형 확률분포가 있다. 도수분포에서의 변량을 확률분포에서는
     확률변수라 한다.
    어떤 사항에서 사건 A가 일어날 확률이 p이고, 이 시행을 독립적으로 n회 되풀이 할 때,
     A가 일어나는 횟수를 x라 하면, n이 클 때, 상대도수 x/n는 p에 가까워진다. 이것을 큰 수의 법칙이라고 한다.
    확률변수 x가 구간 또는 구간들의 모임인 숫자값을 가지는 확률분포함수를 이산형 확률밀도 함수라 한다. 4
    48 모집단의 확률분포가 정규분포이고 분산이 알려져 있다고 할 때, 모평균에 대한 95%신뢰수준 하에서의 신뢰구간이 0.5 +- 1.56 X 1/ sqrt(100) = (0.344, 0.656)로 도출되었다고 하자, 다음 중 이에 대한 해석이 부적절한 것은? 모집단의 표준편차는 1이다. 표본의 개수는 100개이고, 그 표본평균은 0.5이다. 신뢰구간 추정값 (0.344. 0.656)의 구간 내에 실제 모평균이 포함되어 있지 않을 수도 있다. 동일 모집단에서 동일한 방법으로 동일한 표본 개수만큼 다시 표본을 추출하게 되면, 새로운 표본으로 계산한 신뢰구간 추정값도 (0.344, 0.656)으로 변함없을 것이다. 4
    49 Credit 데이터는 신용카드 대금과 소득, 학생여부를 포함한다. Balance를 종속변수로 하는 보기의 명령어 중 아래의 그림과 같은 회귀식을 나타내는 것은?  lm( Balance ~ Income + Studenet , data=Credit)        
    50 회귀분석에서 다중 공선성은 모형의 일부 설명변수가 다른 설명변수와 상관되어 있을 때 발생하는 조건이다. 다른 설명변수들의 선형결합으로 표현할 수 있는 설명변수는 추가적인 정보를 제공하지 못하여 제 역할을 못한다. 다음 중 다중공선성에 대한 설명으로 부적절한 것은? 다중공선성은 회귀 계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 된다. 높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 따라 달라질 수 있다. 높은 상관관계가 있는 설명변수는 변환을 한 다음 모형에서 사용해야 한다. 분산확대인자(VIF)가 큰 경우 해당하는 회귀계수의 추정이 다중공선성으로 인해 피해를 입었다고 본다. 모든 VIF가 1이면 다중공선성이 없지만 일부 VIF가 4보다 크면 설명변수들간에 완만한 상관관계가 있을 수 있다. 높은 상관관계가 있는 오차항을 제거하면 높은 상관관계가 있는 다른 하의 추정계수에 영향을 미친다. 높은 상관관계가 계수 부호가 잘못 되었을 수도 있다. 4
    51 아래의 R의 내장 데이터인 cars에서 dist를 종속변수로, speed를 독립변수로 두고 단순선형회귀 분석을 수행한 결과이다. 이 결과를 토대로 해석한 설명으로 부적절한 것은 speed 변수가 1 증가시 dist 변수는 3.932 정도 증가한다고 해석할 수 있다. 위의 결과에서 회귀식을 도출하면 dist=-2.601 + 9.464*speed이다. 유의수준 5%하에서 추정된 회귀모형이 통계적으로 매우 유의한다. speed와 dist 간의 상관계수를 구해보면 0보다 큰 값이 나올 것이다. 2
    52 데이터는 메이저리그에서 활용하는 263명의 선수에 대한 타자기록으로 연봉을 비롯하여 17개 변수를 포함하고 있다. 아래는 17개 변수들을 사용하여 분석한 결과이다. 다음 설명 중 가장 부적절한 것은? 주성분분석의 결과이다. 17개 변수 차원을 저차원으로 축소하는 것이 목적이다. 상관계수 행렬을 분해하여 분석한 결과이다. 제1주성분은 총 분산의 2.77%를 설명한다. 4
    53 아래는 kyphosis라는 자료를 이용하여 의사결정나무 분석을 수행한 결과이다. 결과에 대한 해석으로 부적절한 것은? 뿌리마다에서 아래로 내려갈수록 각 마디에서의 불순도는 점차 증가한다. 이 자료에서 Start 변수의 값이 14.5이상인
    관찰치는 Kyphosis 변수의 값이 모두 absent였을 것이다.
    위 결과의 단계에서 멈추지 않고 추가로
    가지를 생성한다면, 새로운 자료에 대한 예측력은 떨어질 수도 있다.
    뿌리마디의 자료는 Start 변수를 이용하여
     분리했을 때 present와 absent를 가장 잘 분리시킬 수 있다.
    1
    54 다음 중 추정과 가설 검정에 대한 설명으로 가장 부적절한 것은 점추정은 모수가 특정한 값일 것이라고 추정하는 것이다. 구간 추정이란 일정한 크기의 신뢰구간으로 모수가
    특정한 구간에 있을 것이라고 선언하는 것으로 구해진 구간을 신뢰구간이라고 한다.
    귀무가설이 사실일 때, 관측된 검정통계량의 값보다
    귀무가설을 지지하는 방향으로 검정통계량이 나올 확률을 p값이라고 한다.
    기각역이란 대립가설이 맞을 때
    그것을 받아들이는 확률을 의미한다.
    3
    55 회귀분석에서 결정계수에 대한 설명으로 부적절한 것은 총 변동 중에서 설명이 되지 않는
    오차에 의한 변동이 차지하는 비율이다.
    회귀모형에서 입력 변수가 증가하면
    결정계수도 증가한다.
    다중 회귀분석에서는 최적 모형의 선정기준으로
    결정계수 값보다는 수정된 결정계수 값을 사용하는 것이 적절하다.
    수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소한다.  
    56 R의 데이터 구조와 저장형식에 관한 설명으로 부적절한 것은 데이터프레임은 열별로 서로 다른 데이터 타입을 가질 수 있다. 숫자형 행렬에서 원소 중 하나를 문자형으로 변경하게 되면 해당 행렬의 모든 원소가 문자형으로 변경된다. as.numeric 함수에 논리형 벡터를 입력하면 TRUE에 1, FALSE에 0으로 대응되고 숫자형 벡터로 변형된다. 행렬을 as.vector 함수에 입력하면 행 방향으로 1행부터 차례로 원소를 나열하는 벡터가 생성된다. 4
    57 다음 중 같은 모집단 내의 다른 데이터에 적용하는 경우에도 안정적인 결과를 제공하는지를 나타내는 모형 평가의 기준은 무엇인가? 효율성 일반화 가능성 예측과 분류의 정확성 다양성 2
    58 제1종 오류에서 '우리가 내린 판정이 잘못되었을 실제 확률'은 무엇으로 나타낼 수 있는가? 기각역 검정통계량 p-value 1-α 3
    59 아래는 특정 제품의 sales와 TV, Radio,Newspaper 광고 예산 간의 피어슨 상관계수 행렬이다. 설명이 가장 부적절한 것은? Newspaper 광고 예산이 증가할 때 Radio
    광고 예산이 증가하는 경향이 있다.
    3가지 매체의 광고 예산은 Sales와 양의
    상관관계를 가지고 있다.
    Sales와 가장 상관관계가 높은 변수는 TV이다. TV 광고 예산을 늘릴 경우 Sales가
     증가하는 인과관계를 가진다.
    4
    60 분류 모형의 평가는 예측 및 분류를 위한 구축된 모형이 임의의 모형보다
    더 우수한 성과를 보이는지와 고려된 서로 다른 모형 중 어는 것이 가장 우수한 예측 및 분류 성과를 보유하고 있는지를 비교 분석하는 과정이다. 다음 중 모형 평가에 대한 설명으로 부적절한 것은?
    모형 평가의 기준은 크게 일반화의 가능성,
    효율성, 예측과 분류의 정확성으로 구분된다.
    분류 모형의 평가를 위해서는 전체 자료에서 모형 구축을
    위한 훈련용 자료와 검증을 위한 검증용 자료를 추출한다.
    분류 모형의 평가에는 오분류표가 일반적으로 사용된다 .
     오분류표는 실제 범주와 예측된 분류범주 사이의 관계를 나타내는 표이다.
    오분류표를 이용하여 모형을 평가하는 지표 중 정분류율을 전체 관측치 중
    실제값과 예측 값이 일치하는 정도를 나타낸다. 정분류율은 범주의 분포가 불균형을 이루고 있을 때 효과적인 평가지표이다.
    4
    61 연관규칙이란 항목들 간의 "조건-결과"식으로 표현되는 유용한 패턴을 말한다.
    이러한 패턴, 규칙을 발견해내는 것을 연관분석이라 한다. 다음 주 연관분석에 대한 설명으로 부적절한 것은?
    최소지지도를 갖는 연관규칙을 찾는 대표적인 방법은 Apriori 알고리즘이다.
    최소지지도보다 큰 집합만을 대상으로 높은 지지도를 갖는 품목을 찾는 방법이다.
    연관성 분석을 통해 도출된 연과규칙은 사소하고 일반적으로 잘 알려진 사실이면서 분명하고 유용한 사실이여야만 한다. 도출된 연관 규칙이 얼마나 유용한지 평가하기 위한 몇 가지 측정 자료로는 지지도, 신뢰도, 향상도이다. 사건들이 어떤 순서로 일어나고 이 사건들 사이에 연관성이 있는지 알아내기 위해서는 판매시점에서 기록된 고객의 성별, 나이 등의 정보가 필요한다. 2
    62 군집분석은 체계적인 통계적 추론에 의해 개발되지 않았고 절차도 상대적으로 단순하여 분석 결과가 검증되지 못한다.
    다음 중 군집 결과의 평가에 대한 설명으로 부적절한 것은?
    군집의 실행가능성이란 군집 분석 결과에 대한 해석이 논리적으로 맞는지 판단하는 것이다.
    각 군집의 요약 통계량을 구하는 방법을 이용한다.
    군집의 안정성을 확인하기 위해서 데이터를 집합 A와 B로 나누고
    한 부분에서의 군집을 다른 부분에 적용하여 얼마나 일관성이 있는지 조사하는 방법을 이용한다.
    군집 분석에 대한 분리가 합당한지 판단하기 위해서는
     군집 집단 간의 차이를 통계적으로 검증하는 방법을 이용한다.
    유사성 측도인 거리 측정 방법이 달라진다고 해서 군집 분석의 결과가 달라지지는 않는다.
     따라서 군집분석의 결과에 대한 평가는 군집 분석에서 중요한 변수가 누락되었는지 등을 파악하는 것이 필요하다
    4
    63 아래의 문장의 빈 칸에 알맞은 말을 넣으시오
    일반적으로 학습모형의 유연성이 클수로 분산은 (    ) 편향은   (    )
     높고, 낮다        
    64 아래의 결과 중 틀린 것은 두 집단의 평균 비교를 위한 two-sample t-test한 결과이다.  casine 그룹의 평균이 meatmeal 그룹의 평균보다 크다 유의수준 0.05%하에서 casine 그룹의 평균이 meatmeal 그룹의 평균보다 크다는 통계적인 증거가 없다. 위의 가설검정의 귀무가설은 "두 집단의 평균이 다르다"이다. 4
    65 다음 중 k-fold cross-validation에 대한 설명으로 부적절한 것은 모형이 데이터에 과적합 되는 문제를 방지하기 위한 방법이다. 데이터 셋을 k개의 그룹으로 분할한다. 하나의 그룹을 validation set으로 k-1개 그룹을 train set으로 취급하여 모형적합을 하고,
    이를 validataion set을 바꿔가면 k번 반복한다.
    k=2인 경우, leave-one-out cross validataion이라고 부른다 4
    66 다음 중 배깅에 대한 설명으로 가장 적절한 것은 배깅은 데이터 간의 거리를 측정하여 군집하한다. 배깅은 트랜잭션 사이에 빈번하게 발행하는 규칙을 찾아낸다. 배깅은 반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 여러 번 추출될 수 있고, 어떤 데이터는 추출되지 않을 수도 있다. 배깅은 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 3
    67 어떤 문서에서 아래와 간은 워드 클라우드를 작성하였다, 중앙의 가장 큰 단어가 1차적으로 의미하는 바는? 문서 내 단어 중 분석기가 가장 중요하다고 표시한 단어이다. 다른 문서와 연결성이 가장 높은 단어이다. 문서의 주제이다. 문서 내에서 가장 빈번하게 출현하는 단어이다. 4
    68 아래에서 실행하는 데이터마이닝 분석기법으로 가장 적절한 것은
    개인과 집단들 간의 관계를 노드의 링크로서 모델링하여 그것의 위상구조와 확산 및 진화과정을 계량적으로 분석하는 방법론
    사회연결망 분석 워드클라우드 연관규칙 분석 군집 분석 1
    69 소매점에서 물건을 배열하거나 카탈로그 및 교차 판매 등에 적용하기 적합한 데이터마이닝 기법은 무엇인가? 분류 예측 연관분석 군집 3
    70 다음 중 연관규칙 분석 관련 측도 중 향상도에 관한 설며이다. 가장 부적절한 것은 A 항목을 구매하지 않고 B항목을 구매하는 확률에 비해 A항목을 구매하고 B항목을 구매하는 확률의 비율이다. 향상도 = P(A ∩ B) / P(A) P(B)이다. 전체 거래 중 A 항목과 B항목이
     얼마나 빈번하게 구매하고 있는지를 평가하는 측도이다.
    향사아도가 1이면 A항목과 B항목의 구매가 서로 관련성이 없다. 3
    71 다음 중 정보 표현을 위한 자크 베르탱의 그래픽 7요소에 해당하지 않는 것은 위치 명암 기울기 3
    72 아래 그래프는 마켓프로핏에서 제공하는 감정 히트맵이다. 어떤 정보 시각화 방법인지 고르시오 분포 시각화 관계시각화 비교 시각화 시간 시각화 3
    73 시각화 및 빅데이터 시각화에 대한 설명으로 가장 부적절한 것은? 디자인을 위해서는 데이터의 범주 안에서 정보를 보고 ,
    사용자를 위한 시각화 목적을 설정하고 이를 끝까지 구해야 한다.
    정보성이 줄어 들더라고 효율성과 참신성을 살리는 그래픽으로 충분한 시각화를 이루어 낼 수 있다. 정보형 메시지를 전달하는데 적합한 데이터의 수집과 가공,
    그래프 처리 과정이 연결 진행되어야 하고, 이에 대한 전문성이 결여되어서는 안 된다.
    중요한 것은 해당 데이터를 다루는 능력 말고도 궁극적으로는
    정보 디자인의 의도와 방향이 목적과 어긋나지 않도록 하는 것이다.
    2
    74 다음은 데이터 구성 원리에 대한 설명이다. "객체지향 관점에서의 접근"에 대한 설명으로 부적절한 것은? 데이터의 구조 자체를 설계 및 생성하여 이를 토대로 통찰을 얻는다. 특정 이벤트가 발생했을 때 생성되는 데이터의 생성과정을 논리적으로 분석한다. 데이터의 구성과 생성 배경에 대해 고찰 한다. 모든 객체들은 행위와 고유 속성값을 갖는다. 2
    75 ( )에 적합한 단어는 (  )는 글의 형태를 총징하는 말로 사람으로 치면 얼굴에 해당한다. 타이포 그래피에서 가장 어려운 일 중 하나는   (    )를 선택하는 것이다.   (   )는 돌기가 있는 세리프 (   )와 돌기가 없는 신세리프 (   )로 구분한다.       서체
    76 시각화 인사이트 프로세스의 연결고리 확인에 대한 설명으로 부적절한 것은? 공통 요소 찾기는 연결고리 확인의 한 과정이다. 데이터 형이 달라도 공통요소로 변환할 수 있는 경우가 있다. 탐색 범위를 설정할 때 차원과 측정값을 바꿔도 같은 통찰이 나타난다. 탐색의 순서로 처음에는 한 개의 차워만 연결해 탐색하고 단계적으로 늘리는 과정을 활용한다. 3
    77 인사이트의 발전과 확장에 대한 설명으로 부적절한 것은 아무 것도 모르는 것을 살펴볼 때는 상향식 방식을 택하는 것이 좋다. 인사이트를 적용할 때 중요한 것은 데이터의 현실성 및 분석에서 활용한 모델의 적정성이다. 데이터의 변화의 영향을 살펴보기 위해서 실시간으로 시스템을 구축하는 것이 중요하다. 시각화의 오류로 발생하는 전달 메시지의 부적절한 전달을 신중하게 고려해야 한다. 3
    78 정보시각화 방법 중 하나로 아래에서 실행하는 시각화 그래프는
    면적을 표시할 필요가 없을 때 사용하며, 한 점에서 다음 점으로 변하는 점의 집중 정도와 배치에 따라 흐름을 파악하는데 용이하다. 일반적으로 두 변수의 연관관계를 보여줄 때 많이 쓰인다.
    누적막대그래프 점그래프 연속시계열그래프 도넛 차트 2

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

     문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com
    반응형
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기