해솔 | 해처럼 밝고 소나무처럼 바르게

프로그래밍 언어/R · 2019. 9. 7. fullscreen 넓게보기

[R] 요리 사이트 (만개의 레시피) 크롤링 및 정보수집 소스코드

정보

업무명 : 소프트웨어 개발
작성자 : 박진만
작성일 : 2019-09-07
설 명 : 요리 사이트의 유용한 정보 (ex : 요리이름, 재료, 조리방법, 이미지 주소)를 파싱하여 수집 프로그램
수정이력 :

내용

[특징]

R 프로그램의 httr package를 이용하여, 타겟이 되는 사이트에 접근하여 웹 페이지의 html을 가져온 후 이를 가공 및 변환하여, 자료를 수집하는 프로그램

그림. 크롤링 대상 사이트 메인 홈페이지

[기능]

타겟이 되는 주소 접근 및 html 불러오기
필요한 자료 가공 및 추출
추출된 정보를 저장 (해당 코드에서는 보안을 위해 생략)

[활용 자료]

대상 홈페이지의 주소 (초기 입력자료)

[자료 처리 방안 및 활용 분석 기법]

없음

[사용법]

대상 홈페이지의 주소 및 i 값 (레시피 번호)를 입력 또는 원하는 범위에서의 loop 문을 통해 레시피 정보를 가져올 수 있다.
중간에 404 에러가 뜨는 경우 루프문을 통과해 다음 레시피 번호로 가게 설정되어 있다.

[사용 OS]

Windows 10

[사용 언어]

R 3.5.3

소스 코드

결과

요리 제목 및 난이도

그림. 요리 제목 및 난이도에 대한 화면.

그림. 요리 제목 및 난이도에 대한 수집 결과.

요리 재료 목록

그림. 요리 재료에 대한 샘플 화면.

그림. 요리 재료에 대한 수집 결과.

조리법 및 이미지

그림. 조리법 및 이미지에 대한 샘플.

그림. 조리법 및 이미지 주소에 대한 수집결과.

참고문헌

[논문]

없음

[보고서]

없음

[URL]

없음

블로그에 대한 궁금하신 점을 문의하시면 자세히 답변드리겠습니다.

E. sangho.lee.1990@gmail.com & saimang0804@gmail.com

저작자표시 비영리 변경금지 (새창열림)

'프로그래밍 언어 > R' 카테고리의 다른 글

[R] NetCDF 형식인 NPP/CERES SSF 기상위성 자료를 이용하여 아스키 (ASCII) 형식으로 처리 (0)	2019.12.28
[R] 다수의 날짜정보를 컬럼으로 가진 DataFrame 에서의 컬럼 제어 방법 (0)	2019.12.21
[R] 동아시아 대기질 이미지 영상을 통해 크롤링 및 애니메이션 구현 (0)	2019.12.08
[R] ggplot2를 이용한 Log 스케일로 산점도 가시화 (0)	2019.12.06
[R] 한반도 연 평균기온 계산 및 Plotting (0)	2019.11.03

프로그래밍 언어/R 관련 글

더 보기

티스토리툴바