[블로그 관리] 티스토리 블로그 노출을 위한 Robots.txt의 진실
- IT/블로그
- 2020. 5. 9. 00:41
Robots.txt는 무엇인가?
네이버나 구글, 다음 등 검색포탈사이트는 각자 운영중인 검색엔진이 있다.
검색엔진이 웹사이트를 모두 찾아다니면서 사이트 정보를 가져오는데 이것을 크롤링이라고 한다.
검색엔진은 모든 웹사이트의 정보를 다 긁어오는데, 이러면 무슨 문제가 생길까?
사이트의 관리자만 볼 수 있는 페이지나 비밀글, 물론 로그인이 필요하겠지만
이런 페이지들이 인터넷에 노출이 될 수도 있다는 것이다.
나쁘게 보면 공격 대상이 될 수도 있지 않을까?
Robots.txt는 검색엔진이 무분별하게 모든 페이지를 크롤링하는 행위를 막기 위한
크롤링 정책이 작성된 문서라고 보면 된다.
내 블로그의 robots.txt를 예시로 가져왔다.
User-agent는 검색엔진의 이름으로, 네이버는 Yeti, 구글은 Googlebot, 다음은 Daumoa라는 이름을 갖고 있다.
*로 표시해주면 모든 검색엔진이라는 뜻으로, 아래에 별도로 분리해놓지 않은 검색엔진은 *의 정책을 따른다.
Disallow 정책은 오른쪽에 작성된 페이지는 크롤링을 허용하지 않겠다는 뜻으로,
위에서 작성한 관리자 페이지와 같이 공개하면 안되는 페이지를 작성해주면 된다.
Allow는 허용하겠다는 뜻으로, /의 하위 문서를 모두 가져가도 좋다는 뜻이다.
/owner나 /manage 등의 경로도 /의 하위 문서는 맞지만 Disallow 정책에 포함되어 있기 때문에
검색엔진은 크롤링을 하지 않는다.
티스토리 블로그를 만들면 티스토리에서 자동으로 해당 블로그에 Robots.txt를 제공한다.
이 Robots.txt는 수정할 수 없다. 티스토리 블로그 사용자라면 모두 똑같은 Robots.txt를 사용하는 것이다.
내 블로그의 방문자 수가 늘어나지 않아 여러가지 방법을 찾아보다가 다음 방법을 찾게 되었다.
"Robots.txt를 네이버나 구글 콘솔에서 생성하여 내 블로그에 파일을 업로드 시키는 방법"
다른 여러 블로그에서 저 내용을 가지고 언급을 하고 있다.
블로그 초보인 나도 당연히 따라해보았는데, 업로드한 Robots.txt가 적용되지 않았다.
그 이유는 Robots.txt는 티스토리의 모든 블로그가 공통적으로 사용하고 있는 정책이기 때문에
개별 사용자가 수정할 수 없기 때문이다.
그래서 결론은?
네이버 서치어드바이저와 구글 서치콘솔에 등록시켜주고 모니터링 하는 방법이 유일하다고 본다.
컨텐츠가 쌓이다보면 언젠가는 방문자가 많아지겠지...
'IT > 블로그' 카테고리의 다른 글
[블로그 관리] 티스토리 블로그 네이버와 구글에 노출시키기 #2(구글 노출) (0) | 2020.05.06 |
---|---|
[블로그 관리] 티스토리 블로그 네이버와 구글에 노출시키기 #1(네이버 노출) (0) | 2020.05.05 |
이 글을 공유하기