Daum 웹문서 검색이란, 인터넷에 존재하는 다양한 출처의 웹문서를 웹문서 수집 로봇이 수집해
검색 결과로 제공하는 서비스입니다.
Daum 검색은 뉴스, 카페, 블로그 검색 등 특화된 검색을 제공하고 있습니다. 그러나 인터넷상에서는 다양한 출처의 많은 웹문서가 존재합니다.
따라서 카카오는 이러한 웹문서를 효율적으로 수집하고 만족스러운 검색 결과 제공을 위해 아래와 같은 과정을 거칩니다.
1) 카카오는 Daum이라 불리는 웹문서 수집 로봇을 Daum 웹문서 검색에 사용합니다.
2) 카카오 웹문서 수집 로봇은 문서에 포함된 ‘링크’를 따라다니면서 새로운 웹문서를 지속해서 수집합니다.
3) 카카오 웹문서 수집 로봇은 수집 과정에서 “http://www.robotstxt.org/”에 명시된, 방문하는 사이트에서 요구하는
로봇 규칙을 준수합니다. 또한, 방문했던 사이트의 로봇 규칙이 변경될 경우, 이를 빠르게 반영합니다.
카카오와 업무 협약을 맺은 일부 사이트는 카카오 웹문서 수집 로봇에 특화된 로봇 규칙을 제공하며,
카카오는 해당 규칙을 준수합니다.
4) 카카오는 Daum 검색 서비스 정책에 따라 수집된 웹문서의 사용 가능 여부를 검토합니다
5) 사용 가능한 웹문서는 Daum 검색 서비스에서 활용하기 위해 웹문서의 요소를 추출 및 분석하는 ‘색인’ 과정을 거칩니다.
6) 색인이 완료된 웹문서는 이용자가 입력한 키워드에 따라 최적의 순서로 노출되며, 노출 순서는 Daum 검색 결과 정책에 따릅니다.
7) 수집된 웹문서는 웹문서 검색 이외의 다른 목적으로 사용되지 않습니다.
참고: Daum봇
Mozilla/5.0 (compatible; Daum/4.1; +http://cs.daum.net/faq/15/4118.html?faqId=28966)
웹문서 검색결과에서 제외하고 싶은 문서가 있다면 아래의 내용을 참고하세요.
[1 단계] 해당 문서의 작성자 또는 해당 문서가 올라온 사이트 관리자에게 삭제를 요청해주세요.
[2 단계] 해당 문서의 작성자나 사이트 관리자를 통해 삭제가 어려운 상황이라면, 아래와 같은 사유에 해당할 경우
문의하기를 통해 웹문서 검색결과 제외를 요청할 수 있습니다.
1. 개인정보 유출(주민등록번호, 특정 사이트 ID/PW, 핸드폰 번호, 주소 등)
2. 성인 사이트로 연결
3. 링크가 깨지거나 안 열리는 페이지
4. 기타 Daum 검색 규정에 어긋난 검색결과
[robots.txt 파일을 이용하여 제외하기]
메모장에 아래와 같은 내용을 작성하신 후, robots.txt 파일로 저장하셔서 루트 디렉토리에 올리시기 바랍니다.
User-agent : DAUM
Disallow : /
DAUM 대신 * 를 쓰면 Daum 뿐만 아니라 모든 검색서비스에서 웹수집 로봇이 문서를 수집해가는 것을 막을 수 있습니다.
[Meta tag를 이용하여 제외하기]
사이트의 HTML/CSS편집에서 아래와 같은 내용을 Meta tag로 등록하시기 바랍니다.
Meta tag는 HTML의 <head>와 </head> 사이에 들어가야 합니다.
<META name=”robots” content=”noindex, nofollow”>
[1 단계] 해당 사이트가 검색 로봇 (크롤러) 차단 설정이 되어 있는 것은 아닌지 확인해주세요
웹문서 수집을 허용하도록 로봇룰 설정하기
[2 단계] 해당 사이트의 응답 상태를 확인해 주세요.
1. 연결 실패 : 수집 요청한 사이트에 검색 로봇 접근이 어려운 경우 및 응답 지연인 경우
2. 서버 오류 : 수집 요청한 사이트에서 응답 결과 상태가 오류 코드를 반환하는 경우 (HTTP Status 4XX, 5XX)
[3 단계] 문서 내용이 아래의 규제 또는 제한 대상에 포함되는 것은 아닌지 확인해주세요.
1. 청소년 유해
2. 과도한 광고
3. 저작권 위배
4. 개인정보 노출
5. 다른 웹문서와 중복
6. 문서 등록 후 문서 내용이 변질 또는 삭제되는 경우
- 정보성 문서가 등록 후 1,2,3,4번 경우처럼 변질되는 경우
- 쇼핑몰처럼 가격 정보, 판매 기간 등 관련 정보가 변경 및 삭제될 수 있는 경우
- 구인 공고처럼 특정 기간이 지나면 문서가 삭제될 수 있는 경우
7. 문서의 분석이 어려운 경우
- 비표준 HTML 사용
- 과도한 javascript 사용
8. 여러 개의 호스트로 동일한 내용의 문서가 등록되는 경우
9. 정보를 임의로 숨기는 경우
- 폰트 크기를 작게(0)으로 하거나, 바탕화면과 유사한 색으로 보이지 않는 텍스트를 숨겨 놓은 경우
- hidden 태그로 날짜 정보를 임의로 숨기거나 수집 시간으로 맞추어 변경하는 경우
10. 기계적으로 생성한 문서
- 검색 결과처럼 방문마다 결과가 다르게 나오는 경우
- 다른 문서를 무작위로 스크랩하여 생성된 문서
- 번역기를 사용하여 문서를 생성한 경우
- 제목이나 본문에 의도적으로 키워드를 반복하여 생성하는 경우
- 기타 기계적 방법으로 생성된 문서
11. 문서 내용이 빈약한 경우
- 전반적으로 정보가 부족한 문서
- 다른 홈페이지의 내용을 그대로 복사해서 붙여 넣은 글로 채워진 문서
- 개발 중인 문서
12. 기타 검색 등록 기준에 어긋나거나 Daum 검색 규정에 어긋난 검색 결과
[4 단계] 위의 사항들을 확인하신 후 해당 사이트가 웹문서 검색결과에 맞는 조건을 갖추고 있다면,
문의하기를 통해 웹문서 등록을 요청해주세요. Daum 검색 수집 로봇의 수집 주기에 따라서 수집까지 수개월 소요될 수 있습니다.
검색결과에 표시되는 문서 제목과 본문 내용은 검색 로봇이 해당 문서를 등록한 당시의 상태로 보입니다.
정확한 결과 제공을 위해 지속적으로 업데이트를 하고 있지만, 실시간으로 수정 사항을 반영하기가 어려워
검색결과에 표시되는 내용과 실제 글의 내용이 다른 경우가 있습니다.
이와 같은 경우 시간이 지나면 자동으로 최신 내용으로 업데이트가 됩니다.
급하게 수정이 필요한 경우 혹은 3주 이상 웹문서의 검색결과 내용이 업데이트가 안되고 있는 경우,
문의하기를 통해 수정을 요청해주세요.
문의하기 바로가기
로봇 배제 표준(Robots Exclusion Standard)은 사이트의 루트에 위치하는 robots.txt를 통해 설정되며,
웹문서 수집 로봇이 사이트 내 정보를 수집하는 것을 허용 또는 제한하는 일종의 로봇 규칙입니다.
사용자는 robots.txt에 명시한 로봇규칙 이외로, 웹페이지의 meta tag 안에 로봇룰을 명시하여 특정 웹페이지의 수집을
제한할 수 있으며, 카카오는 다양한 출처의 웹문서 수집 시에 이 로봇 배제 표준을 명확하게 준수하고 있습니다.
"위 사이트의 robots.txt를 준수하여, 관련 정보를 보여드리지 못하였습니다"와 같은 메시지가 노출되는 것은,
로봇 배제 표준에 따라 다음 웹문서 결과에 해당 사이트의 정보를 보여주지 못하는 경우이며,
이는 사이트를 소유한 사용자가 의도를 가지고 robots.txt에 카카오의 웹문서 수집 로봇을 제한한 경우입니다.
카카오는 사용자의 만족스러운 검색 결과 제공을 위해 로봇을 이용해 웹문서 수집을 하고 있지만,
그보다 앞서 웹페이지 소유자의 로봇 설정 의도를 가장 존중하며, 이에 로봇 배제 표준을 준수합니다.
웹문서 수집이 제한된 페이지임에도 불구하고 다음 웹문서 결과에 해당 페이지의 제목 정보가 노출되는 것은,
다른 웹페이지에서 해당 수집 제한 페이지의 링크를 걸 때 사용되는 Anchor Text의 분석 이후 선택된 정보가
사용되기 때문입니다.
웹문서 수집을 허용하도록 로봇룰 설정하기
1. 사용자가 소유한 사이트 내의 문서를 다음 웹문서 검색결과에 나오게 하고 싶다면,
사이트의 robots.txt를 아래와 같이 설정해 주세요.
(설정한 내역은 웹검색에 반영되기까지 약간의 시간이 걸릴 수 있습니다.)
user-agent:Daum
allow: /
2. 만약 로봇룰 설정을 변경하였는데도 다음 웹검색에 노출이 되지 않는다면,
웹페이지의 meta tag안에 noindex,none,nosnippet 로봇룰이 설정되어 있는지 확인해 주세요.
Daum봇
Mozilla/5.0 (compatible; Daum/4.1; +http://cs.daum.net/faq/15/4118.html?faqId=28966)
도메인을 소유한 웹 사이트 관리자만 이용이 가능 합니다.
- 개인 블로그, 개인 SNS 계정 이용자는 이용할 수 없습니다.
수집 Seed URL 등록
- Daum 검색 수집 로봇(크롤러)에게 사이트 내에 수집대상 페이지들을 알려 주기 위한 방법으로,
검색 수집 로봇이 사이트 콘텐츠를 더 잘 수집할 수 있도록 도울 수 있습니다.
- Seed URL은 RSS 피드, Atom 피드, 리스트 페이지 또는 사이트맵 형식의 URL을 지원합니다.
- Seed URL 등록 여부와는 무관하게 Daum 검색 기준에 따라 검색 노출 됩니다.
- Daum 검색 수집 로봇의 상태 및 사이트 문서량에 따라서 수집까지 수개월 소요 될 수 있습니다.
- 수집한 문서의 재방문 정책은 Daum 검색 수집 로봇의 수집 주기에 따라서 수집까지 수개월 소요 될 수 있습니다.
- Seed URL 등록 후 검색이 안된다면 도움말을 참조하세요.
RSS 피드, Atom 피드, 리스트형 페이지 URL 제출
1. RSS 피드
- RSS 피드는 뉴스나 블로그 사이트에서 주로 사용하는 XML기반의 콘텐츠 표현 방식입니다.
2. Atom 피드
- Atom 피드는 웹로그나 최신 소식, 블로거, 라이브저널 같은 웹 콘텐츠를 표현하는 XML 기반의 콘텐츠 표현 방식입니다.
3. 리스트 페이지
- 리스트로 작성된 웹페이지로 리스트로 연결된 URL을 1단계까지 수집 합니다.제출된 주기에 맞추어 수집을 진행하며,
리스트에 신규글이 등록되면 신규 글 URL을 Daum 검색 수집 로봇이 수집하는 유형입니다. 리스트 페이지의 첫 번째 페이지만 등록 가능합니다.
RSS 피드 형식 예시
<rss version="2.0">
<channel>
<title>example</title>
<link>https://www.example.com</link>
<description>This is rss feed example</description>
<item>
<title>RSS Example1</title>
<link>https://www.example.com/rss/feed/1</link>
<description>RSS Feed example</description>
</item>
<item>
<title>RSS Example2</title>
<link>https://www.example.com/rss/feed/2</link>
<description>RSS Feed example</description>
</item>
</channel>
</rss>
Atom 피드 형식 예시
<feed xmlns="http://www.w3.org/2005/Atom">
<title>Example Feed</title>
<link href="http://example.org/"/>
<updated>2003-12-13T18:30:02Z</updated>
<author>
<name>John Doe</name>
</author>
<id>urn:uuid:60a76c80-d399-11d9-b93C-0003939e0af6</id>
<entry>
<title>Atom-Powered Robots Run Amok</title>
<link href="http://example.org/2003/12/13/atom03"/>
<id>urn:uuid:1225c695-cfb8-4ebb-aaaa-80da344efa6a</id>
<updated>2003-12-13T18:30:02Z</updated>
<summary>Some text.</summary>
</entry>
</feed>
사이트맵 URL 제출
- 사이트맵
- 사이트맵은 Daum 검색 수집 로봇에게 사이트 내 수집대상 페이지들을 알려 주기 위하여 마련된 표준 규약으로 사이트맵은 수집대상 URL을 나열하여 제공하는 XML 파일입니다.사이트맵을 활용하면 Daum 검색 수집 로봇이 해당 파일을 읽고 콘텐츠를 좀더 효율적으로 수집할 수 있도록 도울 수 있습니다.
- 사이트맵 제출시 제약사항
- 제출하는 사이트맵 파일내 모든 URL의 호스트는 최초 수집 요청한 URL의 호스트와 동일한 호스트여야 합니다.
- 파일마다 URL을 50,000개 까지만 포함할 수 있습니다.
(50,000개 이상의 URL일 경우, sitemapindex 형식의 파일을 제출하세요.)
- 파일 크기는 50MB를 초과 할 수 없습니다.
(파일의 압축을 풀었을 때에도 50MB를 초과할 수 없습니다.)
- 사이트맵 형식은 sitemaps.org에서 자세히 확인 할 수 있습니다.
- 사이트맵 작성 예시
- 수집 대상 URL을 포함하는 사이트맵
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/1</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
- 또 다른 사이트맵 인덱스를 포함하는 사이트맵 인덱스
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap_index.xml</loc>
<lastmod>2021-01-01</lastmod>
</sitemap>
</sitemapindex>
- 또 다른 사이트맵을 포함하는 사이트맵 인덱스(압축유형)
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap.xml.gz</loc>
<lastmod>2021-01-01</lastmod>
</sitemap>
</sitemapindex>
원하시는 답변을 찾지 못하셨다면, 고객센터에 문의하여주세요