정보

    • 업무명     : R을 이용한 통계 분석 및 데이터 시각화 : 패키지

    • 작성자     : 박진만

    • 작성일     : 2020-03-27

    • 설   명      :

    • 수정이력 :

     

     내용

    [개요]

    • R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통계 분석 환경입니다. 

    • 통계 분석 기능으로 통계 검정, 선형 회귀 분석, 시계열 데이터 분석, 클러스터링 등을 지원하고 있습니다.

    • 또한 최신 논문에서 발표된 같은 새로운 기술도 R로 구현되는 경우가 많습니다.

    • 특히 시각화 기능으로 히스토그램, 막대 그래프, 선 그래프, 산포도, 나무 모양 그림이나 히트맵 등 기본적인 그래프가 기본으로 지원하고 있습니다.

    • 또한 ggplot2 등의 패키지를 사용하여 더 높은 수준의 그림을 가시화할 수 있습니다.

     

     

    [특징]

    • 데이터를 이해하기 위해서 통계 분석 및 데이터 시각화가 요구되며 이 프로그램은 이러한 목적을 달성하기 위한 소프트웨어

       

    [기능]

    • 데이터형 소개

     

    [활용 자료]

    • 없음

     

    [자료 처리 방안 및 활용 분석 기법]

    • 없음

     

    [사용법]

    • 소스 코드 예시 참조

     

    [사용 OS]

    • Windows 10

     

    [사용 언어]

    • R v3.6.2

    • R Studio v1.2.5033

     

     소스 코드

    • R은 삼각 함수 ( sin cos) 와 평균과 분산을 구하는 함수 ( mean var) 등이 표준 문법으로 구현되어 있다. 

    • 하지만 더 많은 고급 기능을 가진 함수와 논문 발표한지 얼마 안된 통계 기법 등의 경우 R 표준 구현되어 있지 않은 경우가 많다. 

    • 이러한 기술은 대부분 "패키지"로 정리해 공개된다.

    • 따라서 패키지를 설치하려면 해당 패키지를 다운로드하여 R에서 추가적으로 설치할 필요가있다.

     

    [패키지 설치]

    • 패키지는 대부분 CRAN 과 Bioconductor 라는 곳에서 공개되어있다. 

    • 여기서 경제 통계, 기계 학습, 이미지 처리 등 관련 패키지는 대부분 CRAN에서 공개되고 있다.

    • 또한 생물 · 의료 통계 용 패키지는 대체로 Bioconductor에서 공개되고있다. 이 외에 개인 사이트에서 공개하고있는 소규모 패키지도 존재한다.

    • 자신이 사용하고 싶은 패키지가 어디에 있는지 모르는 경우 우선 CRAN, Bioconductor의 순으로 설치를 시도한다.

    • 모든 패키지를 일괄 설치하는 것은 불가능하지는 않지만 권장하지 않는다. 필요한 패키지가 있으면 그때마다 설치하는 것을 권장한다.

     

    [CRAN 패키지 설치]

    • CRAN에서 공개 된 패키지를 설치할 때 install.packages 함수를 사용하여 내부에 패키지의 이름을 지정한다. 예를 들어 som 패키지를 설치하려면 아래와 같이 한다.

    install.packages("som", dependencies = TRUE)

     

    • 실행하면 미러의 위치를 ​​묻는 경우도 있는데, 자신에게 가장 가까운 장소를 선택하면 다운로드 시간이 단축된다.

      • ※ 시스템에 뭔가 라이브러리가 부족하면 오류가 발생하고 설치할 수 없다는. 오류 문장이 출력된다면, 어떤 라이브러리가 필요한지를 확인하고 그 라이브러리를 먼저 설치하고 다시 패키지를 설치한다.

      • ※ 지금까지 설치할 수 있었는데, R 버전을 새롭게하면 설치가 안되는 경우도 있다. 이 때 오류 문장을 확인하고 어떤 라이브러리에서 오류가 있었는지 확인하고 해당 패키지를 별도로 설치한다. 

      • 그래도 잘되지 않는 경우는 하나 이전 버전을 찾아 설치하다 보면 해결 될 수있다. 오래된 패키지는 CRAN의 각 패키지의 페이지를 방문하여 "Old sources : '라고 쓰여있는 위치에 저장되어 있다.

     

    [다운로드 한 압축 파일에서 설치]

    • 개인 사이트에 게시되어있는 패키지를 설치하려면 우선 해당 패키지를 다운로드한다. 다음 install.packages을 이용하여 설치한다.

    • 패키지는 일반적으로 .tar.gz 압축되어 있지만, 이것을 해제할 필요는 없고 R로 다음과 같이 설치한다.

    install.packages("TCC.tar.gz", repos = NULL, type = "source")

     

    [패키지 호출]

    • 패키지를 설치 한 후 사용할 수 있도록 하기 위해서는 해당 패키지를 호출 할 필요가 있다.

    library(som)         # som 패키지를 호출
    library(Biostrings)  # Biostrings 패키지를 호출

     

    • 호출 한 후 som과 Biostrings 패키지의 기능을 자유롭게 사용할 수 있게 된다.

     

    [설치된 패키지 확인]

    • 아래와 같이 설치된 패키지를 확인 할 수 있다.

    library () 설치되어 있는 라이브러리 목록보기
    library (X) X라는 라이브러리를 로드하고 그 기능을 사용할 수 있게 준비
    search () 현재 호출된 라이브러리 검색
    help (package = "X") X는 패키지 버전과 저자 등을 확인할 수 있음

     

    • 아래는 설치되어 있는 패키지를 표시하는 예시이다.

    library()
    ## base          The R Base Package
    ## boot          Bootstrap R (S-Plus) Functions (Canty)
    ## class         Functions for Classification
    ## cluster       Cluster Analysis Extended Rousseeuw et al.
    ## codetools     Code Analysis Tools for R
    ## datasets      The R Datasets Package
    ## foreign       Read Data Stored by Minitab, S, SAS, SPSS,
    ##               Stata, Systat, dBase, ...
    ## graphics      The R Graphics Package
    ## grDevices     The R Graphics Devices and Support for
    ##               Colours and Fonts

     

    • library(X)에 의해 호출 된 패키지를 확인하는 경우는 search를 이용한다.

    search()
    ## [1] ".GlobalEnv"        "package:stats"     "package:graphics" 
    ## [4] "package:grDevices" "package:utils"     "package:datasets" 
    ## [7] "package:methods"   "Autoloads"         "package:base"

     

    • 패키지 버전과 저자 등을 확인하고 싶은 경우 help에 관련 정보를 호출한다.

    library(TCC)
    help(package = "TCC")
    ##                 Information on package ‘TCC’
    ## 
    ## Description:
    ## 
    ## Package:            TCC
    ## Type:               Package
    ## Title:              TCC: Differential expression analysis for tag count
    ##                     data with robust normalization strategies
    ## Version:            1.0.0
    ## Date:               2018-01-10
    ## Author:             Jianqiang Sun, Tomoaki Nishiyama, Kentaro Shimizu,
    ##                     and Koji Kadota

     

    [패키지 함수 사용방법]

    • 패키지에 포함 된 함수의 사용법을 알아야 하는 경우 help등을 이용한다. 이외에도 args, example 등의 편리한 기능 역시 존재한다.

    library(MASS)
    
    # truehist 함수의 사용법을 표시
    help(truehist)
    
    # truehist 함수의 인수를 표시
    args(truehist)
    
    # truehist 함수의 예제 코드를 실행
    example(truehist)
    
    # 패키지에 대한 설명
    help(package = "MASS")
    
    # 전체 패키지 사용 (생성되지 않은 경우는 아무것도 일어나지 않는다)
    vignette(package = "MASS")

     

    [패키지의 해제]

    • library함수에서 호출 한 패키지를 해제하려면 detach을 이용한다.

    library(MASS)
    truehist(rnorm(100))
    
    
    detach(package:MASS)
    truehist(rnorm(100))
    ## Error: could not find function "truehist"

     

    [다음글]

     

    [R] R을 이용한 통계 분석 및 데이터 시각화 : apply 시리즈

    정보 업무명 : R을 이용한 통계 분석 및 데이터 시각화 : apply 시리즈 작성자 : 박진만 작성일 : 2020-03-28 설 명 : 수정이력 : 내용 [개요] R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통..

    shlee1990.tistory.com

     

    [이전글]

     

    [R] R을 이용한 통계 분석 및 데이터 시각화 : 재귀

    정보 업무명 : R을 이용한 통계 분석 및 데이터 시각화 : 재귀 작성자 : 박진만 작성일 : 2020-03-27 설 명 : 수정이력 : 내용 [개요] R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통계 분석..

    shlee1990.tistory.com

     

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

     문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기