일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- DP
- 서브셋폰트
- GOF
- bfs
- 추상화
- process.env
- mock
- git
- azure
- dfs
- 객체지향
- Java
- 메모이제이션
- AOP
- netlify
- CSS
- dotenv
- PostgreSQL
- github
- 동적계획법
- npm
- 상속
- Secret
- MariaDB
- 다형성
- Solid
- 디자인 패턴
- 캡슐화
- package
- 클라우드
Archives
- Today
- Total
이것저것 해보기🌼
크롤링 모듈 선택 - axios+cheerio / Selenium / beautifulsoup / scrapy / puppeteer 본문
프로젝트/참나무농원
크롤링 모듈 선택 - axios+cheerio / Selenium / beautifulsoup / scrapy / puppeteer
realtree 2024. 8. 28. 09:28
웹 크롤링은 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 것을 말한다.
내가 개발하는 것은 크롤링보다는 필요한 데이터만 특정 사이트에서 가져오는 것이므로, 웹 스크래핑이 더 적절한 표현이다.
아무튼 모듈에는 다양한 선택지가 있다.
- axios + cheerio- selenium- beautifulsoup- scrapy- puppeteer
이중에 파이썬에 최적화된 selenium, beautifulsoup, scrapy는 제외하고node.js로 개발하고 있기 때문에 puppeteer를 사용하기로 했다.puppeteer도 파이썬 크롤링 모듈처럼 다양한 기능을 제공하기 때문에 좋은 선택지가 될 수 있다.
크롬 브라우저 DevTools 팀에서 만들었기 때문에 개발자도구를 사용하여 편리한 개발이 가능하다.
Puppeteer | Puppeteer
build
pptr.dev
'프로젝트 > 참나무농원' 카테고리의 다른 글
puppeteer : Could not find Chrome 에러 해결 (0) | 2024.10.04 |
---|---|
Firebase Functions 시작 및 배포 (0) | 2024.09.20 |
dotenv로 .env 설정 및 Github Actions에 secret 추가하기 (MariaDB 접속정보) (1) | 2024.09.12 |
[React] firebase 회원가입/로그인 구현하기 (이메일, 비밀번호 사용) (0) | 2024.06.23 |
firebase로 웹 어플리케이션 배포하기 (0) | 2024.06.23 |