이것저것 해보기🌼

크롤링 모듈 선택 - axios+cheerio / Selenium / beautifulsoup / scrapy / puppeteer 본문

프로젝트/참나무농원

크롤링 모듈 선택 - axios+cheerio / Selenium / beautifulsoup / scrapy / puppeteer

realtree 2024. 8. 28. 09:28

 

웹 크롤링은 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 것을 말한다.

내가 개발하는 것은 크롤링보다는 필요한 데이터만 특정 사이트에서 가져오는 것이므로, 웹 스크래핑이 더 적절한 표현이다.

 

아무튼 모듈에는 다양한 선택지가 있다.

 

- axios + cheerio- selenium- beautifulsoup- scrapy- puppeteer

 

이중에 파이썬에 최적화된 selenium, beautifulsoup, scrapy는 제외하고node.js로 개발하고 있기 때문에 puppeteer를 사용하기로 했다.puppeteer도 파이썬 크롤링 모듈처럼 다양한 기능을 제공하기 때문에 좋은 선택지가 될 수 있다.

크롬 브라우저 DevTools 팀에서 만들었기 때문에 개발자도구를 사용하여 편리한 개발이 가능하다.

 

https://pptr.dev/

 

Puppeteer | Puppeteer

build

pptr.dev