정보

    • 업무명     : R을 이용한 자동차 제조업체별 도시 연비 및 산점도

    • 작성자     : 이상호

    • 작성일     : 2020-11-10

    • 설   명      :

    • 수정이력 :

     

     내용

    [개요]

    • 안녕하세요? 웹 개발 및 연구 개발을 담당하고 있는 해솔입니다.

    • 다년간 축적된 경험 (기상학 학술 보고서 및 국/영문 학술 논문 게재, 블로그 운영, IT 회사 웹 개발 담당) 및 노하우를 바탕으로 개개인에게 맞춤형 솔루션을 수행할 수 있습니다.

    • 특히 재능 플랫폼 (크몽, 오투잡, 해피캠퍼스, 레포트 월드)에서 누구보다도 경쟁력 있는 가격으로 양질의 서비스를 제공하고 있습니다.

      • 아스키 형식의 텍스트 (text) 파일부터 과학자료 형식 (HDF, H5, NetCDF, Grib, Grb) 및 Data Base (DB) 자료까지 다양한 형태의 자료를 이용하여 수집, 전처리, 분석, 시각화해 드립니다.

      • 또한 웹 사이트에 대한 정보를 이용한 웹 크롤링 및 그에 따른 엑셀 및 DB 구축도 가능합니다.

      • 아울러 기초 통계 (빈도분포, Prired t-test, Wilcoxn 등)에서 지도/비지도 학습을 통한 회귀모형 구축에 이르기 까지 효율적인 통계 정보를 제공합니다.

      • 최근 대한민국의 후속위성인 천리안위성 2A호 웹 서비스 서브시스템 및 환경위성 2B호 통합 자료처리 서브시스템에 대한 웹 개발을 수행하였습니다.

    • 그리고 해솔 블로그에서는 다양한 기상학/천문학 정보와 더불어 사무 자동화/프로그래밍 언어를 소개하오니 방문 부탁드립니다.

    • 좋은 하루 보내세요.

     

    [재능플랫폼] 오투잡

     

    [IT개발 - 응용프로그래밍] 통계 분석, 데이터 분석, 시각화를 성실하게 해 드립니다. - 재능마켓 �

    판매가격:10,000원, [소개] - 데이터산업진흥원 데이터 가공 공급기업 선정 - 정보통신산업 진흥원 데이터 가공 공급기업 선정 - 다년간 축적된 경험 노하우를 바탕으로 개개인에게 맞춤형 솔루션�

    www.otwojob.com

     

    [재능플랫폼] 크몽

     

    데이터수집, 파싱, 크롤링 해 드립니다. | 50,000원부터 시작 가능한 총 평점 0점의 IT·프로그래밍,

    0개 총 작업 개수 완료한 총 평점 0점인 shlee1990의 IT·프로그래밍, 데이터분석·리포트, 데이터 마이닝·크롤링 서비스를 0개의 리뷰와 함께 확인해 보세요. IT·프로그래밍, 데이터분석·리포트, 데

    kmong.com

     

     요청

    [세부 사항]

    • 자동차 제조업체별 도시 연비를 막대 그래프로 나타내시오.

    • 제조업체별 도시 연비를 설명하라.

    • 제조업체별 도시 연비와 고속도로 연비는 차이가 있는지 설명하라.

    • 개별적으로 추가적인 분석을 수행하고 그래프와 이를 설명하는 글을 입력하시오.

     

     완료

    [사용 OS]

    • Windows 10

     

    [사용 언어]

    • R v4.0.2

     

    [소스 코드]

    #===============================================================================================
    # Routine : Main R program
    #
    # Purpose : 재능상품 (크몽, 오투잡)
    #
    # Author : 해솔
    #
    # Revisions: V1.0 May 28, 2020 First release (MS. 해솔)
    #===============================================================================================
    
    library(ggplot2)
    library(forcats)
    library(tidyverse)
    library(ggpubr)
    library(Metrics)
    
    data = mpg
    # manufacturer : 제조업체
    # model : 차량 모델
    # displ : 배기량
    # cyl :실린더 개수
    # trans : 자동기어 여부
    # cty : 도시 연비
    # hwy : 고속도로 연비
    # fl : 연료 형태
    # class : 차량 타입
    
    # mpg 데이터는 ggplot2 패키지에 포함되어 있는 예제 데이터이다. 아래의 질문에 답하라.(워드 프로그램으로  제출할 것)
    # 질문) 자동차 제조업체별 도시 연비를 막대 그래프로 나타내시오.
    # 1)막대 그래프를 멋지게 작성하라.
    
    ggData = data %>%
      dplyr::select(cty, manufacturer) %>%
      dplyr::group_by(manufacturer) %>%
      dplyr::summarise(meanCty = mean(cty, na.rm = TRUE)) %>%
      dplyr::arrange(meanCty)
    
    ggData$manufacturer = forcats::fct_relevel(ggData$manufacturer, ggData$manufacturer)
    
    ggplot(ggData, aes(x = manufacturer, y = meanCty, fill = manufacturer)) +
      geom_bar(position = "dodge", stat="identity") +
      geom_text(aes(label = round(meanCty, 2)), vjust = 1.6, color = "white", size = 4) +
      labs(x = "제조업체", y = "도시 연비", fill="", subtitle = "자동차 제조업체에 따른 도시 연비 그래프") + 
      theme(text = element_text(size=18)) + 
      theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
      ggsave(filename = paste(globalVar$figConfig, "Img_035.png", sep="/"), width = 12, height = 8, dpi = 600)
    
    summary(ggData)
    
    # 2)제조업체별 도시 연비를 설명하라.
    # 15종 제조업체에 따라 도시 연비를 막대그래프로 시각화하여 통계 분석하였다.
    # 즉 평균 및 최소/최대값은 각각 16.4 및 11.3-24.4로 나타났으며
    # 특히 높은 연비 TOP5의 경우 honda, volkswagen, subaru, hyundai, toyota인 반면
    # jeep, mercury, dodge, land rover, lincoln 순으로 낮았다.
    
    # 3) 제조업체별 도시 연비와 고속도로 연비는 차이가 있는지 설명하라.
    # 전체 제조업체에 대한 평균 (도시 연비: 16.4, 고속도로 연비: 23.0) 및 최대/최소값 (도시 연비: 11.3-24.4, 고속도로 연비: 16.5-32.6)은 큰 차이를 보였다. 
    # 특히 큰 차이 TOP5의 경우 pontiac, audi, volkswagen, hyundai, honda인 반면
    # ford, land rover, dodge, mercury, jeep 순으로 낮았다.
    
    dataL3 = data %>%
      dplyr::select(cty, manufacturer, hwy) %>%
      dplyr::group_by(manufacturer) %>%
      dplyr::summarise(
        meanCty = mean(cty, na.rm = TRUE)
        , meanHwy = mean(hwy, na.rm = TRUE)
        , diff = meanCty - meanHwy
      ) %>%
      dplyr::arrange(diff)
    
    # 보너스 점수: 개별적으로 추가적인 분석을 수행하고 그래프와 이를 설명하는 글을 입력하시오.
    # 도시 연비 및 고속도로 연비를 이용하여 산점도로 시각화하였다.
    # 두 자료의 편이 (Bias) 및 평균제곱근오차 (RMSE)는 각각 -6.58 및 6.77로서 다소 오차를 보였음에도  불구하고 상관성은 0.97로서 0.000 이하의 유의성을 나타내었다.
    
    corTest = cor.test(dataL3$meanCty, dataL3$meanHwy)
    corVal = round(corTest$estimate, 2)
    pVal = round(corTest$p.value, 2)
    biasVal = round(Metrics::bias(dataL3$meanCty, dataL3$meanHwy), 2)
    rmseVal = round(Metrics::rmse(dataL3$meanCty, dataL3$meanHwy), 2)
    
    ggscatter(dataL3, x = "meanCty", y = "meanHwy", color = "black", add = "reg.line", conf.int = TRUE, add.params = list(color = "blue", fill = "lightblue")) +
      stat_regline_equation(label.x = 10, label.y = 35, size = 5) +
      annotate("text", x = 10, y = 33, size = 5, label = sprintf("R = %s (P < %.3f)", corVal, pVal), hjust = 0) +
      annotate("text", x = 10, y = 31, size = 5, label = sprintf("Bias = %s", biasVal), hjust = 0) +
      annotate("text", x = 10, y = 29, size = 5, label = sprintf("RMSE = %s", rmseVal), hjust = 0) +
      xlim(10, 35) + 
      ylim(10, 35) +
      theme_bw() +
      labs(title = "", x = "도시 연비", y = "고속도로 연비", subtitle = "도시 연비와 고속도로 연비의 산점도") +
      coord_equal() +
      theme(text = element_text(size=18)) + 
      ggsave(filename = paste(globalVar$figConfig, "Img_036.png", sep="/"), width = 6, height = 6, dpi = 600)
    

     

    [결과물]

    • 자동차 제조업체별 도시 연비를 막대 그래프

     

    • 제조업체별 도시 연비 설명

      • 15종 제조업체에 따라 도시 연비를 막대그래프로 시각화하여 통계 분석하였다.

      • 즉 평균 및 최소/최대값은 각각 16.4 및 11.3-24.4로 나타났으며 

      • 특히 높은 연비 TOP5의 경우 honda, volkswagen, subaru, hyundai, toyota인 반면 jeep, mercury, dodge, land rover, lincoln 순으로 낮았다.

     

    • 제조업체별 도시 연비와 고속도로 연비의 차이 설명

      • 전체 제조업체에 대한 평균 (도시 연비: 16.4, 고속도로 연비: 23.0) 및 최대/최소값 (도시 연비: 11.3-24.4, 고속도로 연비: 16.5-32.6)은 큰 차이를 보였다. 

      • 특히 큰 차이 TOP5의 경우 pontiac, audi, volkswagen, hyundai, honda인 반면 ford, land rover, dodge, mercury, jeep 순으로 낮았다.

     

    • 추가 분석

      • 도시 연비 및 고속도로 연비를 이용하여 산점도로 시각화하였다.

      • 두 자료의 편이 (Bias) 및 평균제곱근오차 (RMSE)는 각각 -6.58 및 6.77로서 다소 오차를 보였음에도  불구하고 상관성은 0.97로서 0.000 이하의 유의성을 나타내었다.

     

     참고 문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

     문의사항

    [기상학/프로그래밍 언어]

    • sangho.lee.1990@gmail.com

    [해양학/천문학/빅데이터]

    • saimang0804@gmail.com
    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기