정보
-
업무명 : R을 이용한 통계 분석 및 데이터 시각화 : 데이터 프레임
-
작성자 : 박진만
-
작성일 : 2020-03-25
-
설 명 :
-
수정이력 :
내용
[개요]
-
R은 통계 분석 및 시각화 등의 기능을 갖춘 프로그래밍 언어 내지 통계 분석 환경입니다.
-
통계 분석 기능으로 통계 검정, 선형 회귀 분석, 시계열 데이터 분석, 클러스터링 등을 지원하고 있습니다.
-
또한 최신 논문에서 발표된 같은 새로운 기술도 R로 구현되는 경우가 많습니다.
-
특히 시각화 기능으로 히스토그램, 막대 그래프, 선 그래프, 산포도, 나무 모양 그림이나 히트맵 등 기본적인 그래프가 기본으로 지원하고 있습니다.
-
또한 ggplot2 등의 패키지를 사용하여 더 높은 수준의 그림을 가시화할 수 있습니다.
[특징]
-
데이터를 이해하기 위해서 통계 분석 및 데이터 시각화가 요구되며 이 프로그램은 이러한 목적을 달성하기 위한 소프트웨어
[기능]
-
데이터형 소개
[활용 자료]
-
없음
[자료 처리 방안 및 활용 분석 기법]
-
없음
[사용법]
-
소스 코드 예시 참조
[사용 OS]
-
Windows 10
[사용 언어]
-
R v3.6.2
-
R Studio v1.2.5033
소스 코드
-
데이터프레임은 매트릭스 와 같은 2 차원 배열의 데이터이다.
-
그러나 행렬과는 달리, 데이터 프레임은 열마다 요소의 단위가 다를 수있다.
-
즉 아래의 데이터프레임을 예시로 든다면, 각 열마다 모두 다른 단위를 가지고 있는 것을 확인할 수 있다.
-
데이터프레임은 위 그림처럼 열마다 단위가 다르다.
-
각각의 열은 모두 다른 특성의 데이터를 나타내므로 데이터 프레임을 사용할 때, 열을 기준으로 해석하게 된다.
-
또한 데이터프레임은 기본적으로 열의 이름이 붙여진다. 따라서 데이터를 조작 할 때 이 열 이름을 사용하여 작업하는 것이 일반적이다.
[데이터프레임 생성]
-
데이터 프레임을 만들 때는 data.frame함수를 사용한다.
df <- data.frame(
A = c(1, 2, 3, 4),
B = c(T, T, F, T)
)
df
## A B
## 1 1 TRUE
## 2 2 TRUE
## 3 3 FALSE
## 4 4 TRUE
df[, 1]
## [1] 1 2 3 4
df$A
## [1] 1 2 3 4
-
이 때 subset과 na.omit등을 이용하여 조건을 지정하여 데이터 프레임의 일부를 추출 또는 변경할 수 있다.
df <- data.frame(
A = c(1, 2, 3, 4),
B = c(T, F, T, T),
C = c(1, 2, NA, 4)
)
na.omit(df)
## A B C
## 1 1 TRUE 1
## 2 2 FALSE 2
## 4 4 TRUE 4
subset(df, colB == T)
## A B C
## 1 1 TRUE 1
## 3 3 TRUE NA
## 4 4 TRUE 4
[데이터프레임 정렬]
-
데이터 프레임을 정렬하려면 order를 사용할 수 있다.
df <- data.frame(
A = c(11, 53, 13, 11, 24, 50),
B = c(33, 22, 86, 34, 66, 34),
C = c(50, 42, 42, 19, 43, 91)
)
df[order(df$A), ]
## A B C
## 1 11 33 50
## 4 11 34 19
## 3 13 86 42
## 5 24 66 43
## 6 50 34 91
## 2 53 22 42
df[order(df$A, decreasing = TRUE), ]
## A B C
## 2 53 22 42
## 6 50 34 91
## 5 24 66 43
## 3 13 86 42
## 1 11 33 50
## 4 11 34 19
df[order(df$A, df$B), ]
## A B C
## 1 11 33 50
## 4 11 34 19
## 3 13 86 42
## 5 24 66 43
## 6 50 34 91
## 2 53 22 42
[다음글]
[이전글]
참고 문헌
[논문]
- 없음
[보고서]
- 없음
[URL]
- 없음
문의사항
[기상학/프로그래밍 언어]
- sangho.lee.1990@gmail.com
[해양학/천문학/빅데이터]
- saimang0804@gmail.com
본 블로그는 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있음
'프로그래밍 언어 > R' 카테고리의 다른 글
[R] R을 이용한 통계 분석 및 데이터 시각화 : 리스트 (0) | 2020.03.25 |
---|---|
[R] R을 이용한 통계 분석 및 데이터 시각화 : 배열 (0) | 2020.03.25 |
[R] R을 이용한 통계 분석 및 데이터 시각화 : 행렬 (0) | 2020.03.24 |
[R] R을 이용한 통계 분석 및 데이터 시각화 : 벡터 (0) | 2020.03.24 |
[R] R을 이용한 통계 분석 및 데이터 시각화 : 데이터형 (0) | 2020.03.23 |
최근댓글