[블로그 관리] 티스토리 블로그 노출을 위한 Robots.txt의 진실

Robots.txt는 무엇인가?

네이버나 구글, 다음 등 검색포탈사이트는 각자 운영중인 검색엔진이 있다.

검색엔진이 웹사이트를 모두 찾아다니면서 사이트 정보를 가져오는데 이것을 크롤링이라고 한다.

 

검색엔진은 모든 웹사이트의 정보를 다 긁어오는데, 이러면 무슨 문제가 생길까?

사이트의 관리자만 볼 수 있는 페이지나 비밀글, 물론 로그인이 필요하겠지만

이런 페이지들이 인터넷에 노출이 될 수도 있다는 것이다.

나쁘게 보면 공격 대상이 될 수도 있지 않을까?

 

Robots.txt는 검색엔진이 무분별하게 모든 페이지를 크롤링하는 행위를 막기 위한

크롤링 정책이 작성된 문서라고 보면 된다.

 

내 블로그의 robots.txt를 예시로 가져왔다.

User-agent는 검색엔진의 이름으로, 네이버는 Yeti, 구글은 Googlebot, 다음은 Daumoa라는 이름을 갖고 있다.

*로 표시해주면 모든 검색엔진이라는 뜻으로, 아래에 별도로 분리해놓지 않은 검색엔진은 *의 정책을 따른다.

 

Disallow 정책은 오른쪽에 작성된 페이지는 크롤링을 허용하지 않겠다는 뜻으로,

위에서 작성한 관리자 페이지와 같이 공개하면 안되는 페이지를 작성해주면 된다.

Allow는 허용하겠다는 뜻으로, /의 하위 문서를 모두 가져가도 좋다는 뜻이다.

 

/owner나 /manage 등의 경로도 /의 하위 문서는 맞지만 Disallow 정책에 포함되어 있기 때문에

검색엔진은 크롤링을 하지 않는다.


티스토리 블로그를 만들면 티스토리에서 자동으로 해당 블로그에 Robots.txt를 제공한다.

이 Robots.txt는 수정할 수 없다. 티스토리 블로그 사용자라면 모두 똑같은 Robots.txt를 사용하는 것이다.

 

내 블로그의 방문자 수가 늘어나지 않아 여러가지 방법을 찾아보다가 다음 방법을 찾게 되었다.

"Robots.txt를 네이버나 구글 콘솔에서 생성하여 내 블로그에 파일을 업로드 시키는 방법"

다른 여러 블로그에서 저 내용을 가지고 언급을 하고 있다.

블로그 초보인 나도 당연히 따라해보았는데, 업로드한 Robots.txt가 적용되지 않았다.

 

그 이유는 Robots.txt는 티스토리의 모든 블로그가 공통적으로 사용하고 있는 정책이기 때문에

개별 사용자가 수정할 수 없기 때문이다.

 

그래서 결론은?

네이버 서치어드바이저와 구글 서치콘솔에 등록시켜주고 모니터링 하는 방법이 유일하다고 본다.

컨텐츠가 쌓이다보면 언젠가는 방문자가 많아지겠지...

댓글

Designed by JB FACTORY