정보

    • 업무명     : R을 이용한 통계 분석 및 데이터 시각화 : 데이터 프레임

    • 작성자     : 박진만

    • 작성일     : 2020-03-25

    • 설   명      :

    • 수정이력 :

     

     내용

    [개요]

    • R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통계 분석 환경입니다. 

    • 통계 분석 기능으로 통계 검정, 선형 회귀 분석, 시계열 데이터 분석, 클러스터링 등을 지원하고 있습니다.

    • 또한 최신 논문에서 발표된 같은 새로운 기술도 R로 구현되는 경우가 많습니다.

    • 특히 시각화 기능으로 히스토그램, 막대 그래프, 선 그래프, 산포도, 나무 모양 그림이나 히트맵 등 기본적인 그래프가 기본으로 지원하고 있습니다.

    • 또한 ggplot2 등의 패키지를 사용하여 더 높은 수준의 그림을 가시화할 수 있습니다.

     

     

    [특징]

    • 데이터를 이해하기 위해서 통계 분석 및 데이터 시각화가 요구되며 이 프로그램은 이러한 목적을 달성하기 위한 소프트웨어

       

    [기능]

    • 데이터형 소개

     

    [활용 자료]

    • 없음

     

    [자료 처리 방안 및 활용 분석 기법]

    • 없음

     

    [사용법]

    • 소스 코드 예시 참조

     

    [사용 OS]

    • Windows 10

     

    [사용 언어]

    • R v3.6.2

    • R Studio v1.2.5033

     

     소스 코드

    • 데이터프레임은 매트릭스 와 같은 2 차원 배열의 데이터이다.

    • 그러나 행렬과는 달리, 데이터 프레임은 열마다 요소의 단위가 다를 수있다.

    • 즉 아래의 데이터프레임을 예시로 든다면, 각 열마다 모두 다른 단위를 가지고 있는 것을 확인할 수 있다.

    • 데이터프레임은 위 그림처럼 열마다 단위가 다르다.

    • 각각의 열은 모두 다른 특성의 데이터를 나타내므로 데이터 프레임을 사용할 때, 열을 기준으로 해석하게 된다.

    • 또한 데이터프레임은 기본적으로 열의 이름이 붙여진다. 따라서 데이터를 조작 할 때 이 열 이름을 사용하여 작업하는 것이 일반적이다.

     

    [데이터프레임 생성]

    • 데이터 프레임을 만들 때는 data.frame함수를 사용한다.

    df <- data.frame(
      A = c(1, 2, 3, 4),
      B = c(T, T, F, T)
    )
    
    df
    ##      A     B
    ## 1    1  TRUE
    ## 2    2  TRUE
    ## 3    3 FALSE
    ## 4    4  TRUE
    
    
    df[, 1]
    ## [1] 1 2 3 4
    
    
    df$A
    ## [1] 1 2 3 4
    

     

     

    • 이 때 subset과 na.omit등을 이용하여 조건을 지정하여 데이터 프레임의 일부를 추출 또는 변경할 수 있다.

    df <- data.frame(
      A = c(1, 2, 3, 4),
      B = c(T, F, T, T),
      C = c(1, 2, NA, 4)
    )
    
    
    na.omit(df)
    ##      A     B    C
    ## 1    1  TRUE    1
    ## 2    2 FALSE    2
    ## 4    4  TRUE    4
    
    
    subset(df, colB == T)
    ##      A    B    C
    ## 1    1 TRUE    1
    ## 3    3 TRUE   NA
    ## 4    4 TRUE    4

     

    [데이터프레임 정렬]

    • 데이터 프레임을 정렬하려면 order를 사용할 수 있다.

    df <- data.frame(
      A = c(11, 53, 13, 11, 24, 50),
      B = c(33, 22, 86, 34, 66, 34),
      C = c(50, 42, 42, 19, 43, 91)
    )
    
    
    df[order(df$A), ]
    ##    A  B  C
    ## 1 11 33 50
    ## 4 11 34 19
    ## 3 13 86 42
    ## 5 24 66 43
    ## 6 50 34 91
    ## 2 53 22 42
    
    
    df[order(df$A, decreasing = TRUE), ]
    ##   A  B  C
    ## 2 53 22 42
    ## 6 50 34 91
    ## 5 24 66 43
    ## 3 13 86 42
    ## 1 11 33 50
    ## 4 11 34 19
     
    
    df[order(df$A, df$B), ]
    ##    A  B  C
    ## 1 11 33 50
    ## 4 11 34 19
    ## 3 13 86 42
    ## 5 24 66 43
    ## 6 50 34 91
    ## 2 53 22 42

     

    [다음글]

     

    [R] R을 이용한 통계 분석 및 데이터 시각화 : 배열

    정보 업무명 : R을 이용한 통계 분석 및 데이터 시각화 : 배열 작성자 : 박진만 작성일 : 2020-03-25 설 명 : 수정이력 : 내용 [개요] R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통계 분석..

    shlee1990.tistory.com

     

    [이전글]

     

    [R] R을 이용한 통계 분석 및 데이터 시각화 : 행렬

    정보 업무명 : R을 이용한 통계 분석 및 데이터 시각화 : 행렬 작성자 : 박진만 작성일 : 2020-03-24 설 명 : 수정이력 : 내용 [개요] R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통계 분석..

    shlee1990.tistory.com

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

     문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기