본문 바로가기

컴퓨터/Web

robots.txt 정확히 알고 사용하기 / 무단 크롤링 불법? 합법?

반응형

1. robots.txt 란?

 

 

구글

robots.txt 파일을 사용하면 크롤러가 사이트에 요청할 수 있는 페이지/파일과 요청할 수 없는 페이지/파일을 검색엔진 크롤러에 알려 줄 수 있습니다. 이 파일은 주로 요청으로 인해 사이트가 오버로드되는 것을 방지하기 위해 사용하며,Google로부터 웹페이지를 숨기기 위한 메커니즘이 아닙니다.웹페이지가 Google에 표시되지 않도록 하려면noindex명령어를 사용하거나 비밀번호로 페이지를 보호해야 합니다.

출처:developers.google.com/search/docs/advanced/robots/intro?hl=ko


위키백과 

로봇 배제 표준(robots exclusion standard),로봇 배제 프로토콜(robots exclusion protocol)은웹 사이트에 로봇이 접근하는 것을 방지하기 위한규약으로, 일반적으로 접근 제한에 대한 설명을robots.txt에 기술한다.

이 규약은1994년6월에 처음 만들어졌고, 아직 이 규약에 대한RFC는 없다.

이 규약은 권고안이며, 로봇이 robots.txt 파일을 읽고 접근을 중지하는 것을 목적으로 한다. 따라서, 접근 방지 설정을 하였다고 해도, 다른 사람들이 그 파일에 접근할 수 있다. robots.txt 파일은 항상 사이트의 루트 디렉토리에 위치해야 한다.

출처 :ko.wikipedia.org/wiki/로봇_배제_표준


나무위키 

robots.txt는 웹사이트에 웹 크롤러같은 로봇들의 접근을 제어하기 위한 규약이다. 아직 권고안이라 꼭 지킬 의무는 없다.

크롤러들은 주로 검색엔진들의 인덱싱 목적으로 사용되는데, 웹사이트들 입장에서도 더 많은 검색 노출을 원하는게 일반적이므로 딱히 막을 이유는 없다. 다만 서버의 트레픽이 한정돼있거나 검색엔진에의 노출을 원하지 않는 경우, 이 robots.txt에 “안내문” 형식으로 특정 경로에 대한 크롤링을 자제해 줄 것을 권고하는 것이다.지킬 의무가 없다고 하나 지켜주는게 상식이며, 마찬가지로 서버 주인 입장에서는 원치않는 크롤링이 들어오는데도 계속해서 서비스를 제공할 의무 또한 없으므로 크롤러의 아이피를 차단하면 그만이다.

출처 :namu.wiki/w/robots.txt


정리 :

위 더보기 버튼을 눌리면 다양한 사이트에서 제공하는 robots.txt에 대한 설명을 볼 수 있습니다.

간단하게 요약하자면 웹크롤러와 같은 bot에게 웹사이트에 기제된 정보들을 가져가도 되는지, 안되는지 표기하는 부분입니다.

 

웹사이트의 루트 디렉토리에 위치시키면 된다.
예시 ) www.naver.com/robots.txt        
www.google.com/robots.txt


2. 사용 예시 :

 

누구나 알법한 웹사이트는 robots.txt를 어떻게 설정하고 있는지 살펴봅시다.

 

Daum

User-agent: *
Disallow: /

다음은 모든 유저, 모든 페이지에 대해 접근을 거부하고 있습니다.

 

NAVER 

User-agent: *
Disallow: /
Allow : /$ 

네이버에서는 첫페이지를 제외한 모든 문서에 대한 접근을 거부하고 있습니다.

 

Gmarket

User-agent: *
Allow: /

지마켓은 모든 웹사이트에 대해서 접근을 허용하고 있습니다.

 

GOOGLE

User-agent: *
Disallow: /search
Allow: /search/about
Allow: /search/static
Allow: /search/howsearchworks
Disallow: /sdch
Disallow: /groups
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=*&
Allow: /?hl=*&gws_rd=ssl$
Disallow: /?hl=*&*&gws_rd=ssl
Allow: /?gws_rd=ssl$

...(생략)

Sitemap: https://www.google.com/sitemap.xml

구글의 경우에 허용되는 페이지와 허용되지 않는 페이지가 구분되어 있네요.

또한 sitemap의 위치를 기제해놓았습니다.

 

Github

# If you would like to crawl GitHub contact us via https://support.github.com/contact/
# We also provide an extensive API: https://developer.github.com/
User-agent: baidu
crawl-delay: 1


User-agent: *

Disallow: /*/pulse
Disallow: /*/tree/
Disallow: /*/wiki*
Disallow: /gist/

...(이하 생략)

깃헙의 경우에 크롤링을 하고 싶다면 연락을 하라, api를 제공하고 있다. 라는 문구를 기제해놓았네요.

또한 baidu 라는 이름의 bot에게 1초마다 크롤링 할 수 있도록 제한을 하고 있네요.

 

 

정리 : 

1. User-agent 를 통하여 특정 봇을 지정하여 접근을 제한하거나 허용 할 수 있다. ( *는 모든 봇을 의미함 )

2. Disallow 를 통해 접근을 제한할 페이지를 지정할 수 있다.

3. Allow를 통해 접근을 허용할 페이지를 지정 할 수 있다.

4. crawl-delay 를 통해 딜레이를 지정할 수 있다. ( 초 단위 )

5. Sitemap 을 통하여 sitemap 위치를 알려줄 수 있다.

 


3. robots.txt 에 기제된 내용을 꼭 지켜야 할까?

 

robots.txt에 기제된 내용은 권고사항이므로 꼭 지킬필요는 없다고 나와있다. 하지만 robots.txt에 기제된 내용을 지켜 올바르게 크롤링 하는 것을 추천한다. 

 

크롤링을 하는 행위 자체는 위법행위가 아니다. 하지만 크롤링을 통하여 데이터베이스권(저작권)을 침해하는 경우 처벌을 받을 수 있다.

내가 힘들게 구축해놓은 정보들을 누군가가 크롤링을 통해 그대로 사용한다면 얼마나 허탈할지 생각해보자. 이와 같은 상황을 방지하고 데이터베이스 제작자의 권리를 보호해주기 위하여 저작권법 제93조 제1항에서 이를 규정하고 있다.

 

저작권관련 수업을 통해 알고 있는 바로는 연구용, 개인적인 목적으로 사용하는 경우는 괜찮지만 상업적 목적으로 사용한다면 처벌이 될 가능성이 있기에 이를 잘 숙지할 필요가 있다고 생각한다.

 

 

 

◆ 서울고법·대법원 "무단 크롤링, 데이터베이스권 침해" 인정

"피고인 사람인HR은 잡코리아 웹사이트의 채용 정보를 모두 폐기할 의무가 있다"며 "조정조서 위반으로 인한 간접강제금 2억원과 DB 권리 침해로 인한 손해배상금 2억5000만원을 합해 총 4억5000만원을 잡코리아에 지급하라"고 판결했다.
출처 : http://it.chosun.com/site/data/html_dir/2017/09/27/2017092785016.html

 

트위터, 유럽 개인정보보호법 위반으로 45만유로 벌금...GDPR 첫 적용

트위터가 유럽 일반개인정보보호법(GDPR) 위반으로 45만유로(약 6억원)에 해당하는 벌금을 부과받았다.

출처 : www.digitaltoday.co.kr/news/articleView.html?idxno=256787

 

스캐터랩 이루다 사건

22일 공동소송 플랫폼 ‘화난사람들’에 따르면 ‘이루다 개인정보 유출 피해 사건’ 집단 소송에 약 300명이 우선 참여한다. 이날 오전 9시 기준으로 ‘화난사람들’ 소송 모집 페이지에서는 342명이 신청을 마쳤다.

참고 : www.hankookilbo.com/News/Read/A2021011409260005779

 

EU(유럽연합)의 개인정보보호 법령 - KISA

참고 : gdpr.kisa.or.kr

 

 

 

 

반응형