Web Crawling
검색 엔진은 Web crawling, Indexing, Ranking 의 세단계의 순서로 작동한다. Web crawling 은 웹의 정보를 수집해서 DB화 하는 것을 말한다. 이와 비슷한 의미로 Web Scraping도 있다. Scraping 은 웹페이지의 내용 중 필요한 Data 만 추출하는 것을 말한다. 정리해 보면 Crawling 은 페이지를 검색하고 Scraping 은 추출하는 기능으로 보면 되겠다.
Indexing
다음으로는 Indexing(색인) 과정을 거친다. 이 과정에는 추출된 페이지의 특정 내용만을 가지고 있다가 빠르게 목록에서 찾을 수 있도록 하는 것을 말한다. 도서관 등에서 책 제목을 찾아 그 책이 어느 위치에 있는지 찾는 과정과 유사하다고 이해하면 좋겠다.
1. google 에 indexing 요청을 하는 곳은 goolge search console 이다. search console 을 가보면 아래와 같은 화면이 보일 것이다. 화면에서 URL 검사를 선택한다.
2. 다음 아래의 화면에서 밑줄 부분에 indexing 요청을 하고자 하는 URL 주소를 복사하여 입력을 한다.
3.google 검색엔진에 indexing 이 되어진 게시물인지 먼저 확인을 한다.
4. 정상적으로 Indexing 이 완료 된 경우에는 아래와 같은 화면을 볼 수가 있을 것이다.
상단의 화면에서 중요한 부분이 모바일 사용 편의성이란 부분이다. 만약 게시물을 작성후 이미지가 지나치게 크거나 광고설정이 PC 화면에 맞추어져 있을 경우 모바일 사용 편의성 부족으로 Indexing이 되지 않는 경우가 있으니 유의하여야 한다. 특히 티스토리 광고와 애드센스 광고를 함께 넣는 경우 티스토리 본문 광고가 PC로 설정되는 경우로 있어 모바일편의성 부족으로 나타는 경우가 있다. 이점도 확인하며 게시물을 등록하는 것이 도움이 될 것이다.
5. 만약 부족한 부분이 없으나 Indexing 이 완료 되지 않은 경우에는 아래와 같은 화면이 나타 날 것이다.
6. 화면 상단 오른쪽 "색인 생성 요청" 을 선택하여 직접 등록 할 수 있다.
7. 요청 후 에는 indexing 가능 여부 테스트 하게 된다.
8.indexing 생성이 가능하다면 아래와 같이 indexing 을 정상적으로 요청하게 된다.
( 생성 요청 뒤 게시물이 조건에 부합 되지 않는 다면 결과를 화면으로 볼 수 있을 것이며 수정 후 다시 요청을 진행하면 된다. )
Rangking
최종적으로는 Rangking 과정이며 검색어를 구성한 제목, 주제등을 중식으로 검색 과정에 맞추어 색인 된 게시물의 순위를 부여한 후 결과로 나타내는 것이다.
추가로 Robots.txt 파일에 대하여 간단히 알아보자.
Robots.txt
검색 로봇은 웹상에서 Data를 수집하기 전에 수집해야 할 것과 하지 말아야 할 것을 해당 사이트의 루트 디렉토리에 위치한 robots.txt 파을을 통해서 확인을 하게 된다. 이 파일은 로봇이 접근을 해야 할 곳과 하지 말아야 할 곳을 선언해 두는 곳이다. 해당 파일을 확인 해보기 위해서는 "웹페이주소/robots.txt" 를 브라우져 주소 입력창을 통해 서 확인 할 수 있다.
정상적으로 주소를 입력했다면 위와 같은 결과를 볼 수 있을 것이다.
티스토리에서는 사용자가 임의로 루트디렉토리에 접근하는 것을 허용하지 않는다. 그리고 robots.txt 파일에 특별히 수정할 경우가 있지 않지만 굳이 crawling 을 허용하고 싶지 않다면 <head> 섹션에 다음 메타태그를 입력하면 해결이 된다.
<meta name = "googlebot" content = "noindex">
그리고 사이트에 포함된 페이지에 indexing을 허용하고 싶지 않다면 아래와 같은 메타태그를 넣어 주면 된다.
<meta name = "robots" content = "noindex">
참고 : noindex 명령을 다르게 이해하는 엔진도 있을 수 있다는 것을 염두해 두자.
'오늘 나는' 카테고리의 다른 글
마이크 타이슨 vs 제이크 폴: 전설과 젊은 피의 충돌 (5) | 2024.11.16 |
---|---|
Auto GPT 설치 아무것도 몰라도 따라하기 3단계 (0) | 2023.05.20 |
Auto GPT 설치 아무것도 몰라도 따라하기 2단계 (0) | 2023.05.20 |
Auto GPT 설치 아무것도 몰라도 따라하기 1단계 (0) | 2023.05.20 |
헬스케어 앱 캐시워크 - Cash Walk / 돈버는퀴즈 / 건강 (0) | 2023.05.04 |