구글 검색 엔진 작동 방식(초보자용)

마케팅

구글 검색 엔진 작동 방식(초보자용)

dang_dang 2021. 10. 19. 17:12

728x90

Google 검색의 콘텐츠 크롤링, 색인 생성, 게재 방식을 이해하는 것은 문제를 디버깅하고 사이트에서 Google 검색 동작을 예측하는 데 있어 중요합니다.

크롤링

크롤링은 Googlebot이 새로운 페이지 및 업데이트된 페이지를 방문하여 페이지가 Google 색인에 추가되는 과정입니다.

Google은 막대한 수의 컴퓨터를 사용하여 수십억 개의 웹페이지를 가져옵니다. 이 작업을 '크롤링'이라고 합니다. 웹페이지를 가지고 오는 프로그램을 Googlebot(또는 로봇, 크롤러, 스파이더)이라고 합니다. Googlebot은 알고리즘 프로세스를 사용하여 크롤링할 사이트, 각 사이트에서 가져올 페이지 수, 크롤링 빈도를 결정합니다.

Google의 크롤링은 이전 크롤링 과정에서 생성되어 웹사이트 소유자가 제공한 사이트맵 데이터가 추가된 웹페이지 URL 목록에서 시작합니다. Googlebot이 페이지를 방문하면 페이지의 링크를 찾아 크롤링할 페이지 목록에 추가합니다. 이렇게 새 사이트, 기존 사이트의 변경사항, 비활성 링크를 파악해 Google 색인을 업데이트하는 데 사용합니다.

크롤링하는 동안 Google은 최신 버전의 Chrome을 사용하여 페이지를 렌더링합니다. Google은 렌더링 과정의 일환으로 찾은 페이지 스크립트를 실행합니다. 사이트에서 동적으로 생성된 콘텐츠를 사용하는 경우 자바스크립트 검색엔진 최적화 기본사항을 따르세요.

기본 크롤링/보조 크롤링

Google은 모바일 크롤러와 데스크톱 크롤러라는 두 가지 크롤러를 사용하여 웹사이트를 크롤링합니다. 각 크롤러 유형은 해당 유형의 기기로 페이지를 방문하는 사용자를 시뮬레이션합니다.

Google은 사이트에서 한 가지 크롤러 유형(모바일 또는 데스크톱)을 기본 크롤러로 사용합니다. Google에서 크롤링하는 사이트의 모든 페이지는 기본 크롤러로 크롤링됩니다. 모든 새 웹사이트의 기본 크롤러는 모바일 크롤러입니다.

또한 Google은 다른 크롤러 유형(모바일 또는 데스크톱)으로 사이트의 몇몇 페이지를 다시 크롤링합니다. 이를 보조 크롤링이라고 하며, 이를 통해 다른 기기 유형에서 사이트가 얼마나 잘 작동하는지 확인합니다.

Google은 크롤링하지 않을 페이지를 어떻게 파악하나요?

robots.txt에서 차단된 페이지는 크롤링되지 않지만, 다른 페이지에 의해 연결된 경우에는 그래도 색인이 생성될 수 있습니다. Google은 페이지를 가리키는 링크로 페이지의 콘텐츠를 추론한 후 콘텐츠를 파싱하지 않고 페이지의 색인을 생성할 수 있습니다.
익명의 사용자가 액세스할 수 없는 페이지는 Google에서 크롤링할 수 없습니다. 따라서 로그인 또는 기타 승인 보호가 설정된 경우 페이지가 크롤링되지 않습니다.
이미 크롤링되었고 다른 페이지의 중복으로 간주되는 페이지의 크롤링 빈도는 더 낮습니다.

크롤링 개선하기

다음과 같은 기술을 사용하면 Google이 내 사이트에서 올바른 페이지를 발견하게 하는 데 도움이 됩니다.

사이트맵을 제출합니다.
개별 페이지에 대한 크롤링 요청을 제출합니다.
간결하고 사람이 읽을 수 있는 논리적인 페이지 URL 경로를 사용하고 사이트 내에서 명확하고 직접적인 내부 링크를 제공합니다.
탐색을 위해 사이트에서 URL 매개변수를 사용하는 경우, 예를 들어 글로벌 쇼핑 사이트에서 사용자의 국가를 명시하는 경우, URL 매개변수 도구를 사용하여 Google에 중요한 매개변수를 알립니다.
robots.txt를 현명하게 사용합니다. robots.txt를 사용하여 Google이 파악하기를 바라거나 먼저 크롤링하기를 바라는 페이지를 명시합니다. 이는 Google 색인에 자료가 표시되지 못하도록 차단하기 위한 것이 아니라 서버 로드를 보호하기 위한 것입니다.
hreflang을 사용하여 다른 언어로 된 페이지의 대체 버전을 가리킵니다.
표준 페이지와 대체 페이지를 명확히 파악합니다.
색인 생성 범위 보고서를 사용하여 크롤링과 색인 생성 범위를 확인합니다.
Google에서 주요 페이지와 페이지를 제대로 렌더링하는 데 필요한 중요한 리소스(이미지, CSS 파일, 스크립트)에 액세스할 수 있어야 합니다.
실제 페이지에서 URL 검사 도구를 실행하여 Google이 페이지를 제대로 액세스하고 렌더링할 수 있는지 확인합니다.

색인 생성

Googlebot은 크롤링하는 각 페이지를 처리하여 페이지의 콘텐츠를 이해합니다. 여기에는 텍스트 콘텐츠, 주요 콘텐츠 태그, 속성(예: <title> 태그나 Alt 속성, 이미지, 동영상 등) 처리가 포함됩니다. Googlebot은 많은 콘텐츠 유형을 처리할 수 있지만, 일부 처리가 불가능한 유형도 있습니다. 예를 들어 일부 리치 미디어 파일의 콘텐츠는 처리할 수 없습니다.

Google에서는 크롤링과 색인 생성을 하는 중에 페이지가 다른 페이지의 중복인지 표준 페이지인지 판단합니다. 페이지가 중복으로 간주되면 크롤링 빈도가 훨씬 낮아집니다. 유사한 페이지는 문서로 그룹화됩니다. 문서는 표준 페이지(그룹의 가장 대표적인 페이지) 및 발견한 중복 항목(같은 페이지로 연결되는 대체 URL 또는 같은 페이지의 대체 모바일/데스크톱 버전)을 포함하는 1개 이상의 페이지 그룹입니다.

Google에서는 noindex 지시어(헤더 또는 태그)가 포함된 페이지의 색인을 생성하지 않습니다. 하지만 Google에서는 지시어를 확인할 수 있어야 합니다. 페이지가 robots.txt 파일이나 로그인 페이지 또는 다른 기기에 의해 차단된 경우 Google에서 페이지를 방문하지 않더라도 페이지의 색인이 생성될 수 있습니다.

색인 생성 개선하기

다양한 기술을 사용해 Google의 페이지 콘텐츠 파악 성능을 개선할 수 있습니다.

noindex 태그를 사용하여 숨기고 싶은 페이지를 Google이 크롤링하거나 찾지 못하게 합니다. robots.txt에 의해 차단된 페이지는 'NOINDEX'로 처리하지 마세요. 그렇게 처리하면 noindex 태그가 표시되지 않고 계속 페이지의 색인이 생성될 수 있습니다.
구조화된 데이터를 사용합니다.
Google 웹마스터 가이드라인을 따릅니다.
더 자세한 도움말은 SEO 기본 가이드 및 고급 사용자 가이드를 참고하세요.

'문서'란 무엇인가요?

Google 내부적으로 웹은 문서의 방대한 집합에 해당하며, 각 문서는 하나 이상의 웹페이지에 해당합니다. 이러한 페이지는 서로 동일하거나 매우 유사하지만 본질적으로 다른 URL로 연결 가능한 동일한 콘텐츠입니다. 문서의 서로 다른 URL이 완전히 동일한 페이지로 접속될 수도 있습니다(예를 들어, example.com/dresses/summer/1234 및 example.com?product=1234가 같은 페이지를 표시하는 경우). 또는 서로 다른 기기를 사용하는 사용자를 위해 같은 페이지의 약간씩 다른 변형을 표시하는 경우도 있습니다(예를 들어, 데스크톱 사용자에게는 example.com/mypage를, 모바일 사용자에게는 m.example.com/mypage 표시).

Google은 문서의 URL 중 하나를 선택하여 문서의 표준 URL로 정의합니다. 문서의 표준 URL은 Google이 가장 자주 크롤링하고 색인을 생성하는 URL입니다. 나머지 URL은 중복 URL이나 대체 URL로 간주되며 사용자 요청에 따라 때때로 크롤링되거나 게재될 수 있습니다. 예를 들어 문서의 표준 URL이 모바일 URL이면 Google은 데스크톱에서 검색하는 사용자를 위해 여전히 데스크톱 (대체) URL을 게재할 수 있습니다.

대부분의 Search Console 보고서의 경우 문서의 표준 URL을 기반으로 데이터를 표시합니다. URL 검사 도구와 같은 일부 도구는 대체 URL 테스트를 지원하지만, 표준 URL 검사는 대체 URL에 관한 정보도 제공합니다.

표준 URL로 하고자 하는 URL을 Google에 알릴 수도 있지만, Google은 다양한 이유로 다른 표준 URL을 선택할 수 있습니다.

다음은 용어 요약과 Search Console에서의 용례입니다.

문서: 유사한 페이지의 모음입니다. 사이트에 중복 페이지가 있는 경우 표준 URL이 있고 대체 URL도 있을 수도 있습니다. 문서의 URL은 같은 조직일수도 또는 다른 조직에 속할 수 있습니다(예: www.google.com의 'google'과 같은 루트 도메인). Google은 플랫폼(모바일/데스크톱), 사용자의 언어, 위치 및 여러 다양한 변수에 따라 Google 검색결과에 표시할 최선의 URL을 선택하며, 자연 크롤링 또는 사이트에서 구현한 기능(예: 리디렉션 또는 <link rel=alternate/canonical> 태그)으로 사이트의 관련 페이지를 발견합니다. 다른 조직의 관련 페이지는 내 사이트에서 (리디렉션이나 링크 태그를 통해) 명시적으로 코딩한 경우에만 대체 페이지로 표시될 수 있습니다.콘텐츠가 같고 언어가 다른 페이지는 hreflang 태그를 사용하여 서로를 참조하는 다른 문서에 저장되므로, 번역된 콘텐츠에 hreflang 태그를 사용하는 것이 중요합니다.
URL: 사이트의 특정 콘텐츠에 접속하는 데 사용하는 URL입니다.
페이지: 하나 이상의 URL로 접속될 수 있는 특정 웹페이지입니다. 사용자의 플랫폼(모바일, 데스크톱, 태블릿 등)에 따라 다른 버전의 페이지가 있을 수 있습니다.
버전: 페이지의 한 가지 변형으로, 일반적으로 '모바일', '데스크톱', 'AMP'로 분류됩니다(단, AMP 자체에 모바일/데스크톱 버전이 있을 수 있음). 각 버전은 사이트 구성에 따라 URL이 다르거나(example.com 및 m.example.com) 같을 수 있습니다(사이트에서 동적 게재나 반응형 웹 디자인을 사용하는 경우 같은 URL에서 같은 페이지의 다른 버전을 표시할 수 있음). 다른 언어 버전은 다른 버전으로 간주되지 않지만 다른 문서로 취급됩니다.
표준 페이지 또는 URL: Google이 문서의 가장 대표라고 간주하는 URL입니다. Google은 항상 이 URL을 크롤링하지만 문서의 중복 URL을 크롤링할 때도 있습니다.
대체/중복 페이지 또는 URL: Google이 때때로 크롤링할 수 있는 문서 URL입니다. Google은 사용자 및 요청에 맞는 경우 이 URL을 게재하기도 합니다. 예를 들면, 데스크톱 요청에 대해 표준 모바일 URL 대신 데스크톱 사용자를 위한 대체 URL이 게재됩니다.
사이트: 보통 웹사이트의 동의어로 사용되지만(개념적으로 관련된 웹페이지 모음), 때때로 Search Console 속성의 동의어로 사용되기도 합니다. 단, 속성은 사이트의 일부분으로만 정의될 수 있습니다. 사이트는 하위 도메인과 올바로 연결된 AMP 페이지의 도메인까지도 포함할 수 있습니다.

결과 게재하기

사용자가 검색어를 입력하면 Google 컴퓨터는 색인에서 일치하는 페이지를 검색하고 사용자와 가장 관련성이 높다고 판단되는 결과를 반환합니다. 관련성은 수백 가지 요인으로 결정되며, Google은 항상 알고리즘 개선을 위해 노력합니다. Google이 결과를 선택하고 순위를 지정할 때는 사용자 환경을 고려하므로 페이지가 빠르게 로드되고 모바일 친화적이어야 합니다.

게재 개선하기

다양한 방법으로 Google이 페이지의 콘텐츠를 게재하는 방식을 개선할 수 있습니다.

결과가 특정 위치 또는 특정 언어의 사용자를 대상으로 하는 경우 Google에 내가 선호하는 사항을 알릴 수 있습니다.
페이지는 빠르게 로드되며 모바일 친화적이어야 합니다.
일반적인 실수를 피하고 사이트의 순위를 올릴 수 있도록 웹마스터 가이드라인을 따릅니다.
사이트에 레시피 카드나 기사 카드 같은 검색결과 기능을 구현하는 것이 좋습니다.
휴대기기에서 페이지가 빠르게 로드될 수 있도록 AMP를 구현합니다. 일부 AMP 페이지에서는 주요 뉴스 캐러셀 같은 추가 검색 기능도 사용할 수 있습니다.
Google의 알고리즘은 끊임없이 개선되고 있습니다. 따라서 알고리즘을 추측해 페이지를 디자인하려고 하기보다는 Google 가이드라인에 따라 사용자가 원하는 양질의 새로운 콘텐츠를 만들기 위해 노력하세요.

728x90