robots.txt 를 통해 검색엔진 접근을 제한하는 방법

카테고리 없음 2011. 5. 31. 22:07

robots.txt 를 통해 검색엔진 접근을 제한하는 방법

* 이 글은 http://empire.achor.net/blog/4 에서 발췌된 글로 일부 이미지, 동영상, 코드 등이 누락되어 보일 수 있습니다.

robots.txt는 검색의 한계를 설정하는 파일입니다.

최근 한국 구글에서는 자체적으로 주민등록번호를 필터링 하여 검색되지 않도록 조치를 하기도 했지만
admin 페이지 등 원치 않는 정보까지도 검색되어 문제가 되는 일은 종종 있어 왔습니다.

또한 과거 한국의 네이버나 중국의 바이두가 일본 웹검색 시장에 진출하며 과도한 크롤링으로 문제를 야기한 적도 있듯이
검색엔진의 잦은 크롤링은 서버의 성능 저하를 가져올 뿐더러 게시물의 과도한 조회수, 추천수 등과 같은 컨텐츠의 변형을 일으킬 수도 있습니다.

robots.txt를 통하여 이러한 부분을 보완할 수 있는 것이지요.

robots.txt는 반드시 도메인의 root에 존재해야 합니다.
하위 디렉토리에 있다면 검색엔진이 인식하지 못합니다.
즉 http://empire.achor.net/robots.txt 처럼 도메인 바로 뒤에서 연결이 가능해야 합니다.

robots.txt의 기본적인 문법은,

User-agent: 로 검색엔진을 지정하고, Disallow: 와 Allow: 로 한계를 설정합니다.

* 는 길이 제한 없는 와이드카드이며,
$는 URL의 종결을 의미합니다.

예를 들자면,

User-agent: *
Disallow: /

위와 같이 표현된 robots.txt는 모든 검색엔진에 대하여 / 이하를 Disallow 하라란 의미입니다.
즉 해당 도메인에 대하여 모든 검색이 차단되겠지요.

반대의 경우는

User-agent: *
Allow: /

라고 표현할 수 있겠네요.

조금 더 옵션을 넣어보자면,

User-agent: Googlebot
Disallow: /*.jpg$
User-agent: *
Allow: /

위의 예는 Googlebot에 대하여 jpg 파일들은 검색하지 말고, 그 외 다른 검색엔진들은 모든 검색을 허용한다는 의미가 되겠습니다.

User-agent: *
Allow: /_*/
...

더 보기 : http://empire.achor.net/blog/4

posted by achor

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

achor Empire

My Link

Recent Comment

Archive

robots.txt 를 통해 검색엔진 접근을 제한하는 방법

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역