끄적끄적

크롤링이 가능한지 확인하는 방법

integerJI 2020. 9. 22. 22:59

integer-ji.tistory.com/316

 

python으로 크롤링(crawling) 하기

python으로 크롤링(crawling) 하기 크롤링이란 HTML에서 원하는 정보를 원하는 형식으로 가공하여 가져오는 것을 말합니다. python으로 크롤링을 하는 이유는 python의 라이브러리를 통하여 쉽고 간단하�

integer-ji.tistory.com

 

해당 글을 작성하며 크롤링에 대해 연습해 보았다.

 

하지만 큰 문제는 크롤링은 불법이란 사실이었다.

 

아무리 학습 목적으로 크롤링을 하여도 불법이란 사실은 찝찝하다.

 

 

확인하기

 

크롤링을 하려는 사이트 뒤에 /robots.txt를 붙여줍니다.

 

 

여기서 봐야 할 부분은 Disallow이며

 

네이버 같은 경우에는 / 가 있으므로 모든 접근을 막고 있다는 뜻입니다.

(반대로 모든 접속을 허용할 경우 Disallow: 입니다.)

 

 

github 같은 경우 이렇게 되어있습니다. 

 

크롤링을 하여 상업적으로 이용하면 처벌을 받을 수 있으니 주의하시기 바랍니다.

'끄적끄적' 카테고리의 다른 글

그림쟁이  (0) 2020.11.12
github의 크롤링  (0) 2020.09.30
git commit comment 정리  (0) 2020.09.19
1일 1커밋 241일의 기록  (0) 2020.09.19
heroku fatal: unable to access '*.git/': The requested URL returned error: 403  (0) 2020.08.08