robots.txt 정확히 알고 사용하기 / 무단 크롤링 불법? 합법?

1. robots.txt 란?

구글

robots.txt 파일을 사용하면 크롤러가 사이트에 요청할 수 있는 페이지/파일과 요청할 수 없는 페이지/파일을 검색엔진 크롤러에 알려 줄 수 있습니다. 이 파일은 주로 요청으로 인해 사이트가 오버로드되는 것을 방지하기 위해 사용하며,Google로부터 웹페이지를 숨기기 위한 메커니즘이 아닙니다.웹페이지가 Google에 표시되지 않도록 하려면noindex명령어를 사용하거나 비밀번호로 페이지를 보호해야 합니다.

출처:developers.google.com/search/docs/advanced/robots/intro?hl=ko

위키백과

로봇 배제 표준(robots exclusion standard),로봇 배제 프로토콜(robots exclusion protocol)은웹 사이트에 로봇이 접근하는 것을 방지하기 위한규약으로, 일반적으로 접근 제한에 대한 설명을robots.txt에 기술한다.

이 규약은1994년6월에 처음 만들어졌고, 아직 이 규약에 대한RFC는 없다.

이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다. robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다.

출처 :ko.wikipedia.org/wiki/로봇_배제_표준

나무위키

robots.txt는 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약이다. 아직 권고안이라 꼭 지킬 의무는 없다.

크롤러들은 주로 검색엔진들의 인덱싱 목적으로 사용되는데, 웹사이트들 입장에서도 더 많은 검색 노출을 원하는게 일반적이므로 딱히 막을 이유는 없다. 다만 서버의 트레픽이 한정돼있거나 검색엔진에의 노출을 원하지 않는 경우, 이 robots.txt에 “안내문” 형식으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고하는 것이다.지킬 의무가 없다고 하나 지켜주는게 상식이며, 마찬가지로 서버 주인 입장에서는 원치않는 크롤링이 들어오는데도 계속해서 서비스를 제공할 의무 또한 없으므로 크롤러의 아이피를 차단하면 그만이다.

출처 :namu.wiki/w/robots.txt

정리 :

위 더보기 버튼을 눌리면 다양한 사이트에서 제공하는 robots.txt에 대한 설명을 볼 수 있습니다.

간단하게 요약하자면 웹크롤러와 같은 bot에게 웹사이트에 기제된 정보들을 가져가도 되는지, 안되는지 표기하는 부분입니다.

웹사이트의 루트 디렉토리에 위치시키면 된다.
예시 ) www.naver.com/robots.txt www.google.com/robots.txt

2. 사용 예시 :

누구나 알법한 웹사이트는 robots.txt를 어떻게 설정하고 있는지 살펴봅시다.

Daum

User-agent: *
Disallow: /

다음은 모든 유저, 모든 페이지에 대해 접근을 거부하고 있습니다.

NAVER

User-agent: *
Disallow: /
Allow : /$

네이버에서는 첫페이지를 제외한 모든 문서에 대한 접근을 거부하고 있습니다.

Gmarket

User-agent: *
Allow: /

지마켓은 모든 웹사이트에 대해서 접근을 허용하고 있습니다.

GOOGLE

User-agent: *
Disallow: /search
Allow: /search/about
Allow: /search/static
Allow: /search/howsearchworks
Disallow: /sdch
Disallow: /groups
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=*&
Allow: /?hl=*&gws_rd=ssl$
Disallow: /?hl=*&*&gws_rd=ssl
Allow: /?gws_rd=ssl$

...(생략)

Sitemap: https://www.google.com/sitemap.xml

구글의 경우에 허용되는 페이지와 허용되지 않는 페이지가 구분되어 있네요.

또한 sitemap의 위치를 기제해놓았습니다.

Github

# If you would like to crawl GitHub contact us via https://support.github.com/contact/
# We also provide an extensive API: https://developer.github.com/
User-agent: baidu
crawl-delay: 1


User-agent: *

Disallow: /*/pulse
Disallow: /*/tree/
Disallow: /*/wiki*
Disallow: /gist/

...(이하 생략)

깃헙의 경우에 크롤링을 하고 싶다면 연락을 하라, api를 제공하고 있다. 라는 문구를 기제해놓았네요.

또한 baidu 라는 이름의 bot에게 1초마다 크롤링 할 수 있도록 제한을 하고 있네요.

정리 :

1. User-agent 를 통하여 특정 봇을 지정하여 접근을 제한하거나 허용 할 수 있다. ( *는 모든 봇을 의미함 )

2. Disallow 를 통해 접근을 제한할 페이지를 지정할 수 있다.

3. Allow를 통해 접근을 허용할 페이지를 지정 할 수 있다.

4. crawl-delay 를 통해 딜레이를 지정할 수 있다. ( 초 단위 )

5. Sitemap 을 통하여 sitemap 위치를 알려줄 수 있다.

3. robots.txt 에 기제된 내용을 꼭 지켜야 할까?

robots.txt에 기제된 내용은 권고사항이므로 꼭 지킬필요는 없다고 나와있다. 하지만 robots.txt에 기제된 내용을 지켜 올바르게 크롤링 하는 것을 추천한다.

◆ 서울고법·대법원 "무단 크롤링, 데이터베이스권 침해" 인정

"피고인 사람인HR은 잡코리아 웹사이트의 채용 정보를 모두 폐기할 의무가 있다"며 "조정조서 위반으로 인한 간접강제금 2억원과 DB 권리 침해로 인한 손해배상금 2억5000만원을 합해 총 4억5000만원을 잡코리아에 지급하라"고 판결했다.
출처 : http://it.chosun.com/site/data/html_dir/2017/09/27/2017092785016.html

트위터, 유럽 개인정보보호법 위반으로 45만유로 벌금...GDPR 첫 적용

트위터가 유럽 일반개인정보보호법(GDPR) 위반으로 45만유로(약 6억원)에 해당하는 벌금을 부과받았다.

출처 : www.digitaltoday.co.kr/news/articleView.html?idxno=256787

스캐터랩 이루다 사건

22일 공동소송 플랫폼 ‘화난사람들’에 따르면 ‘이루다 개인정보 유출 피해 사건’ 집단 소송에 약 300명이 우선 참여한다. 이날 오전 9시 기준으로 ‘화난사람들’ 소송 모집 페이지에서는 342명이 신청을 마쳤다.

참고 : www.hankookilbo.com/News/Read/A2021011409260005779

EU(유럽연합)의 개인정보보호 법령 - KISA

참고 : gdpr.kisa.or.kr

저작자표시 (새창열림)

'컴퓨터 > Web' 카테고리의 다른 글

[해결방법] Error: A JNI error has occurred, please check your installation and try again (0)	2020.07.24
[해결방법] Could not target platform: 'Java SE 11' using tool chain: 'JDK 8 (1.8)'. (1)	2020.07.24

대외활동 + 공부 + 자격증

robots.txt 정확히 알고 사용하기 / 무단 크롤링 불법? 합법?

'컴퓨터 > Web' 카테고리의 다른 글

티스토리툴바

robots.txt 정확히 알고 사용하기 / 무단 크롤링 불법? 합법?

'컴퓨터 > Web' 카테고리의 다른 글

'컴퓨터/Web' Related Articles

티스토리툴바