[R] R을 이용한 통계 분석 및 데이터 시각화 : 패키지

 정보

  • 업무명     : R을 이용한 통계 분석 및 데이터 시각화 : 패키지

  • 작성자     : 박진만

  • 작성일     : 2020-03-27

  • 설   명      :

  • 수정이력 :

 

 내용

[개요]

  • R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통계 분석 환경입니다. 

  • 통계 분석 기능으로 통계 검정, 선형 회귀 분석, 시계열 데이터 분석, 클러스터링 등을 지원하고 있습니다.

  • 또한 최신 논문에서 발표된 같은 새로운 기술도 R로 구현되는 경우가 많습니다.

  • 특히 시각화 기능으로 히스토그램, 막대 그래프, 선 그래프, 산포도, 나무 모양 그림이나 히트맵 등 기본적인 그래프가 기본으로 지원하고 있습니다.

  • 또한 ggplot2 등의 패키지를 사용하여 더 높은 수준의 그림을 가시화할 수 있습니다.

 

 

[특징]

  • 데이터를 이해하기 위해서 통계 분석 및 데이터 시각화가 요구되며 이 프로그램은 이러한 목적을 달성하기 위한 소프트웨어

     

[기능]

  • 데이터형 소개

 

[활용 자료]

  • 없음

 

[자료 처리 방안 및 활용 분석 기법]

  • 없음

 

[사용법]

  • 소스 코드 예시 참조

 

[사용 OS]

  • Windows 10

 

[사용 언어]

  • R v3.6.2

  • R Studio v1.2.5033

 

 소스 코드

  • R은 삼각 함수 ( sin cos) 와 평균과 분산을 구하는 함수 ( mean var) 등이 표준 문법으로 구현되어 있다. 

  • 하지만 더 많은 고급 기능을 가진 함수와 논문 발표한지 얼마 안된 통계 기법 등의 경우 R 표준 구현되어 있지 않은 경우가 많다. 

  • 이러한 기술은 대부분 "패키지"로 정리해 공개된다.

  • 따라서 패키지를 설치하려면 해당 패키지를 다운로드하여 R에서 추가적으로 설치할 필요가있다.

 

[패키지 설치]

  • 패키지는 대부분 CRAN 과 Bioconductor 라는 곳에서 공개되어있다. 

  • 여기서 경제 통계, 기계 학습, 이미지 처리 등 관련 패키지는 대부분 CRAN에서 공개되고 있다.

  • 또한 생물 · 의료 통계 용 패키지는 대체로 Bioconductor에서 공개되고있다. 이 외에 개인 사이트에서 공개하고있는 소규모 패키지도 존재한다.

  • 자신이 사용하고 싶은 패키지가 어디에 있는지 모르는 경우 우선 CRAN, Bioconductor의 순으로 설치를 시도한다.

  • 모든 패키지를 일괄 설치하는 것은 불가능하지는 않지만 권장하지 않는다. 필요한 패키지가 있으면 그때마다 설치하는 것을 권장한다.

 

[CRAN 패키지 설치]

  • CRAN에서 공개 된 패키지를 설치할 때 install.packages 함수를 사용하여 내부에 패키지의 이름을 지정한다. 예를 들어 som 패키지를 설치하려면 아래와 같이 한다.

install.packages("som", dependencies = TRUE)

 

  • 실행하면 미러의 위치를 ​​묻는 경우도 있는데, 자신에게 가장 가까운 장소를 선택하면 다운로드 시간이 단축된다.

    • ※ 시스템에 뭔가 라이브러리가 부족하면 오류가 발생하고 설치할 수 없다는. 오류 문장이 출력된다면, 어떤 라이브러리가 필요한지를 확인하고 그 라이브러리를 먼저 설치하고 다시 패키지를 설치한다.

    • ※ 지금까지 설치할 수 있었는데, R 버전을 새롭게하면 설치가 안되는 경우도 있다. 이 때 오류 문장을 확인하고 어떤 라이브러리에서 오류가 있었는지 확인하고 해당 패키지를 별도로 설치한다. 

    • 그래도 잘되지 않는 경우는 하나 이전 버전을 찾아 설치하다 보면 해결 될 수있다. 오래된 패키지는 CRAN의 각 패키지의 페이지를 방문하여 "Old sources : '라고 쓰여있는 위치에 저장되어 있다.

 

[다운로드 한 압축 파일에서 설치]

  • 개인 사이트에 게시되어있는 패키지를 설치하려면 우선 해당 패키지를 다운로드한다. 다음 install.packages을 이용하여 설치한다.

  • 패키지는 일반적으로 .tar.gz 압축되어 있지만, 이것을 해제할 필요는 없고 R로 다음과 같이 설치한다.

install.packages("TCC.tar.gz", repos = NULL, type = "source")

 

[패키지 호출]

  • 패키지를 설치 한 후 사용할 수 있도록 하기 위해서는 해당 패키지를 호출 할 필요가 있다.

library(som)         # som 패키지를 호출
library(Biostrings)  # Biostrings 패키지를 호출

 

  • 호출 한 후 som과 Biostrings 패키지의 기능을 자유롭게 사용할 수 있게 된다.

 

[설치된 패키지 확인]

  • 아래와 같이 설치된 패키지를 확인 할 수 있다.

library () 설치되어 있는 라이브러리 목록보기
library (X) X라는 라이브러리를 로드하고 그 기능을 사용할 수 있게 준비
search () 현재 호출된 라이브러리 검색
help (package = "X") X는 패키지 버전과 저자 등을 확인할 수 있음

 

  • 아래는 설치되어 있는 패키지를 표시하는 예시이다.

library()
## base          The R Base Package
## boot          Bootstrap R (S-Plus) Functions (Canty)
## class         Functions for Classification
## cluster       Cluster Analysis Extended Rousseeuw et al.
## codetools     Code Analysis Tools for R
## datasets      The R Datasets Package
## foreign       Read Data Stored by Minitab, S, SAS, SPSS,
##               Stata, Systat, dBase, ...
## graphics      The R Graphics Package
## grDevices     The R Graphics Devices and Support for
##               Colours and Fonts

 

  • library(X)에 의해 호출 된 패키지를 확인하는 경우는 search를 이용한다.

search()
## [1] ".GlobalEnv"        "package:stats"     "package:graphics" 
## [4] "package:grDevices" "package:utils"     "package:datasets" 
## [7] "package:methods"   "Autoloads"         "package:base"

 

  • 패키지 버전과 저자 등을 확인하고 싶은 경우 help에 관련 정보를 호출한다.

library(TCC)
help(package = "TCC")
##                 Information on package ‘TCC’
## 
## Description:
## 
## Package:            TCC
## Type:               Package
## Title:              TCC: Differential expression analysis for tag count
##                     data with robust normalization strategies
## Version:            1.0.0
## Date:               2018-01-10
## Author:             Jianqiang Sun, Tomoaki Nishiyama, Kentaro Shimizu,
##                     and Koji Kadota

 

[패키지 함수 사용방법]

  • 패키지에 포함 된 함수의 사용법을 알아야 하는 경우 help등을 이용한다. 이외에도 args, example 등의 편리한 기능 역시 존재한다.

library(MASS)

# truehist 함수의 사용법을 표시
help(truehist)

# truehist 함수의 인수를 표시
args(truehist)

# truehist 함수의 예제 코드를 실행
example(truehist)

# 패키지에 대한 설명
help(package = "MASS")

# 전체 패키지 사용 (생성되지 않은 경우는 아무것도 일어나지 않는다)
vignette(package = "MASS")

 

[패키지의 해제]

  • library함수에서 호출 한 패키지를 해제하려면 detach을 이용한다.

library(MASS)
truehist(rnorm(100))


detach(package:MASS)
truehist(rnorm(100))
## Error: could not find function "truehist"

 

[다음글]

 

[R] R을 이용한 통계 분석 및 데이터 시각화 : apply 시리즈

정보 업무명 : R을 이용한 통계 분석 및 데이터 시각화 : apply 시리즈 작성자 : 박진만 작성일 : 2020-03-28 설 명 : 수정이력 : 내용 [개요] R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통..

shlee1990.tistory.com

 

[이전글]

 

[R] R을 이용한 통계 분석 및 데이터 시각화 : 재귀

정보 업무명 : R을 이용한 통계 분석 및 데이터 시각화 : 재귀 작성자 : 박진만 작성일 : 2020-03-27 설 명 : 수정이력 : 내용 [개요] R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통계 분석..

shlee1990.tistory.com

 

 

 참고 문헌

[논문]

  • 없음

[보고서]

  • 없음

[URL]

  • 없음

 

 문의사항

[기상학/프로그래밍 언어]

  • sangho.lee.1990@gmail.com

[해양학/천문학/빅데이터]

  • saimang0804@gmail.com

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음