정보

    • 업무명    : 소프트웨어 개발
    • 작성자    : 박진만
    • 작성일    : 2019-09-07
    • 설   명    : 요리 사이트의 유용한 정보 (ex : 요리이름, 재료, 조리방법, 이미지 주소)를 파싱하여 수집 프로그램
    • 수정이력 :

     

     내용

    [특징]

    • R 프로그램의 httr package를 이용하여, 타겟이 되는 사이트에 접근하여 웹 페이지의 html을 가져온 후 이를 가공 및 변환하여, 자료를 수집하는 프로그램 

    그림. 크롤링 대상 사이트 메인 홈페이지

    [기능]

    • 타겟이 되는 주소 접근 및 html 불러오기
    • 필요한 자료 가공 및 추출
    • 추출된 정보를 저장 (해당 코드에서는 보안을 위해 생략)

    [활용 자료]

    • 대상 홈페이지의 주소 (초기 입력자료)

    [자료 처리 방안 및 활용 분석 기법]

    • 없음

    [사용법]

    • 대상 홈페이지의 주소 및 i 값 (레시피 번호)를 입력 또는 원하는 범위에서의 loop 문을 통해 레시피 정보를 가져올 수 있다.
    • 중간에 404 에러가 뜨는 경우 루프문을 통과해 다음 레시피 번호로 가게 설정되어 있다.

    [사용 OS]

    • Windows 10

    [사용 언어]

    • R 3.5.3
     

     소스 코드

     

     결과

    • 요리 제목 및 난이도

    그림. 요리 제목 및 난이도에 대한 화면.

     

    그림. 요리 제목 및 난이도에 대한 수집 결과.

     

    • 요리 재료 목록

    그림. 요리 재료에 대한 샘플 화면.

     

    그림. 요리 재료에 대한 수집 결과.

     

    • 조리법 및 이미지

    그림. 조리법 및 이미지에 대한 샘플.

     

    그림. 조리법 및 이미지 주소에 대한 수집결과.

     

     참고문헌

    [논문]

    • 없음

    [보고서]

    • 없음

    [URL]

    • 없음

     

    블로그에 대한 궁금하신 점을 문의하시면 자세히 답변드리겠습니다.

    E. ​sangho.lee.1990@gmail.com & ​saimang0804@gmail.com

    • 네이버 블러그 공유하기
    • 네이버 밴드에 공유하기
    • 페이스북 공유하기
    • 카카오스토리 공유하기