해당 글을 작성하며 크롤링에 대해 연습해 보았다.
하지만 큰 문제는 크롤링은 불법이란 사실이었다.
아무리 학습 목적으로 크롤링을 하여도 불법이란 사실은 찝찝하다.
확인하기
크롤링을 하려는 사이트 뒤에 /robots.txt를 붙여줍니다.
여기서 봐야 할 부분은 Disallow이며
네이버 같은 경우에는 / 가 있으므로 모든 접근을 막고 있다는 뜻입니다.
(반대로 모든 접속을 허용할 경우 Disallow: 입니다.)
github 같은 경우 이렇게 되어있습니다.
크롤링을 하여 상업적으로 이용하면 처벌을 받을 수 있으니 주의하시기 바랍니다.
'끄적끄적' 카테고리의 다른 글
그림쟁이 (0) | 2020.11.12 |
---|---|
github의 크롤링 (0) | 2020.09.30 |
git commit comment 정리 (0) | 2020.09.19 |
1일 1커밋 241일의 기록 (0) | 2020.09.19 |
heroku fatal: unable to access '*.git/': The requested URL returned error: 403 (0) | 2020.08.08 |