[R] 요리 사이트 (만개의 레시피) 크롤링 및 정보수집 소스코드

 정보

  • 업무명    : 소프트웨어 개발
  • 작성자    : 박진만
  • 작성일    : 2019-09-07
  • 설   명    : 요리 사이트의 유용한 정보 (ex : 요리이름, 재료, 조리방법, 이미지 주소)를 파싱하여 수집 프로그램
  • 수정이력 :

 

 내용

[특징]

  • R 프로그램의 httr package를 이용하여, 타겟이 되는 사이트에 접근하여 웹 페이지의 html을 가져온 후 이를 가공 및 변환하여, 자료를 수집하는 프로그램 

그림. 크롤링 대상 사이트 메인 홈페이지

[기능]

  • 타겟이 되는 주소 접근 및 html 불러오기
  • 필요한 자료 가공 및 추출
  • 추출된 정보를 저장 (해당 코드에서는 보안을 위해 생략)

[활용 자료]

  • 대상 홈페이지의 주소 (초기 입력자료)

[자료 처리 방안 및 활용 분석 기법]

  • 없음

[사용법]

  • 대상 홈페이지의 주소 및 i 값 (레시피 번호)를 입력 또는 원하는 범위에서의 loop 문을 통해 레시피 정보를 가져올 수 있다.
  • 중간에 404 에러가 뜨는 경우 루프문을 통과해 다음 레시피 번호로 가게 설정되어 있다.

[사용 OS]

  • Windows 10

[사용 언어]

  • R 3.5.3
 

 소스 코드

 

 결과

  • 요리 제목 및 난이도

그림. 요리 제목 및 난이도에 대한 화면.

 

그림. 요리 제목 및 난이도에 대한 수집 결과.

 

  • 요리 재료 목록

그림. 요리 재료에 대한 샘플 화면.

 

그림. 요리 재료에 대한 수집 결과.

 

  • 조리법 및 이미지

그림. 조리법 및 이미지에 대한 샘플.

 

그림. 조리법 및 이미지 주소에 대한 수집결과.

 

 참고문헌

[논문]

  • 없음

[보고서]

  • 없음

[URL]

  • 없음

 

블로그에 대한 궁금하신 점을 문의하시면 자세히 답변드리겠습니다.

E. ​sangho.lee.1990@gmail.com & ​saimang0804@gmail.com