검색 기록을 학습하는 것부터 엔터티와 키워드를 구별하는 것까지 엔터티가 무엇인지 진정으로 이해하여 보다 타겟화된 검색 트래픽을 달성할 수 있습니다.
SEO 전문가가 SEO의 “엔티티”를 이해하고 더 중요하게 활용하는 방법에 대해 많은 혼란이 있습니다.
특히 단어와 구문을 중심으로 하는 SEO 에 대한 전통적인 접근 방식에서 이것이 어디서 왔는지 이해합니다 .
실제로, (나와 같은) 첫 번째 SEO 전문가들이 성장하면서 사용했던 대부분의 알고리즘에는 검색에 “엔티티”라는 개념이 없었습니다. 콘텐츠 작성부터 SERP 추적 링크의 앵커 텍스트에 이르기까지 SEO 원칙은 키워드 중심이었으며(대체로 여전히 그렇습니다), 많은 사람들은 여전히 무엇이 변경되었는지 이해하기 어렵습니다.
그러나 지난 10년 동안 모든 검색은 세상을 일련의 단어와 일련의 상호 연결된 개체로 이해하는 방향으로 이동해 왔습니다.
SEO에서 엔터티와 작업하는 것은 미래 지향적인 검색 전략 의 기초입니다 .
또한 생성 AI 및 ChatGPT를 사용하는 미래에도 중요합니다 .
이 기사에서는 그 이유에 대해 설명합니다. 그것은 다음을 다룬다:
- 엔터티란 무엇입니까?
- 지식 그래프란 무엇입니까?
- 검색 대상 엔터티에 대한 간략한 기록: Freebase, Wikidata 및 엔터티.
- 엔터티의 작동 방식과 순위 지정에 사용되는 방식입니다.
- Google 엔터티의 예.
- 엔터티를 최적화하는 방법.
- 스키마를 사용하여 엔터티를 정의하는 데 도움이 됩니다.
엔터티란 무엇입니까?
SEO는 종종 엔터티와 키워드를 혼동합니다 .
엔터티(검색어)는 데이터베이스의 레코드입니다. 엔터티에는 일반적으로 특정 레코드 식별이 있습니다.
Google에서는 다음과 같을 수 있습니다.
“MREID=/m/23456” 또는 “KGMID=/g/121y50m4.”
그것은 확실히 “단어”나 “문구”가 아닙니다. 나는 키워드와의 혼동이 두 가지 근본 원인에서 비롯된다고 생각합니다.
- 첫 번째는 SEO 전문가가 2010년 이전에 키워드와 문구 측면에서 기술을 배웠다는 것입니다. 많은 사람들이 아직도 그렇습니다.
- 두 번째는 모든 엔터티에 레이블(일반적으로 키워드 또는 설명자)이 함께 제공된다는 것입니다.
따라서 “에펠탑”은 인간인 우리에게 완벽하게 식별 가능한 “엔티티”처럼 보일 수 있지만 Google은 이를 “KGMID=/m/02j81” 로 보고 “Eiffel Tower” 또는 “Torre”라고 불러도 상관하지 않습니다. 에펠’ 또는 ‘ایبل بورجو'(‘에펠탑’을 뜻하는 아제르바이잔어). 지식 정보에서 해당 기본 항목을 참조하고 있을 가능성이 높다는 것을 알고 있습니다.
이것은 다음 요점으로 이어집니다:
“지식 그래프”란 무엇입니까?
‘지식 그래프’, ‘지식 그래프’, ‘지식 패널’ 사이에는 미묘하지만 중요한 차이점이 있습니다.
- 지식 그래프는 엔터티를 포함하는 반구조화된 데이터베이스입니다.
- 지식 그래프는 일반적으로 Google의 지식 그래프에 부여되는 이름이지만 수천 개가 존재합니다. Wikidata(그 자체가 지식 그래프)는 평판이 좋은 다양한 데이터 소스의 식별자를 상호 참조하려고 시도합니다.
- 지식 패널은 Google 지식 그래프의 결과를 구체적으로 표현한 것입니다. 데스크톱 검색에서 결과(SERP) 오른쪽에 자주 표시되는 창으로, 사람, 장소, 이벤트 또는 기타 항목에 대한 자세한 정보를 제공합니다.
검색된 항목의 간략한 역사
메타웹
2005년에 Metaweb은 “세계 지식의 개방형 공유 데이터베이스”라고 설명하는 Freebase 라고 불리는 데이터베이스를 구축하기 시작했습니다 .
나는 그것을 반구조화된 백과사전이라고 표현하고 싶습니다.
이는 모든 “엔티티”(또는 비유를 확장하면 기사)에 고유한 ID 번호를 부여했으며, 여기서부터 전통적인 기사 대신 시스템은 시스템의 다른 ID 번호와의 관계를 통해 기사를 연결하려고 시도했습니다.
약 5천만 달러의 자본 자금이 투입되었고 5년 후 이 프로젝트는 Google에 매각되었습니다.
상용 제품은 만들어지지 않았지만 Google의 경우 키워드 기반 검색 엔진에서 엔터티 기반 검색 엔진으로 10년 간의 전환을 위한 기반이 마련되었습니다.
위키데이터
구매 후 약 6년이 지난 2016년에 Google은 Freebase를 공식적으로 폐쇄했습니다. 왜냐하면 아이디어를 이러한 데이터베이스의 현대 용어인 자체 “지식 그래프”로 마이그레이션하고 개발했기 때문입니다.
그 당시 Google은 많은 엔터티 데이터를 Wikidata 와 동기화했으며 앞으로는 Wikidata(Wikipedia에서 사용되는 데이터를 뒷받침하는)가 Google의 지식 그래프가 인터페이스할 수 있는 한 가지 방법이었다고 공개적으로 밝혔습니다. 외부 세계와.
엔터티의 작동 방식 및 순위 지정에 사용되는 방식
핵심 알고리즘의 엔터티
엔터티는 주로 동일한 아이디어가 있는 페이지의 순위를 매기는 것이 아니라 아이디어를 명확하게 하는 데 사용됩니다.
반드시 가장 가치있는 것은 아닙니다.
따라서 Google은 텍스트 구절을 기본 엔터티로 변환하는 데 상당한 시간을 소비합니다. 이는 사이트를 색인화할 때와 사용자 쿼리를 분석할 때 모두 발생합니다.
예를 들어, “에펠탑 아래 레스토랑 이름”을 입력하면 Google은 검색자가 “이름”이나 “에펠탑”을 찾고 있는 것이 아니라는 것을 알고 있습니다.
그들은 레스토랑을 찾고 있습니다. 어떤 레스토랑이 아니라 특정 위치에 있는 레스토랑입니다. 이 검색에서 두 관련 엔터티는 “Champ de Mars, 5 Av. Anatole France, Paris”(에펠탑 주소).
가장 중요한 것은 SEO 전문가의 경우 Jules Verne 레스토랑의 사이트가 해당 페이지가 이 검색어와 관련이 있다는 것을 Google이 인식하도록 하려면 에펠탑의 멋진 전망에 대해 이야기하는 것이 매우 중요하다는 것입니다.
Jules Verne 레스토랑이 에펠탑 내부에 있기 때문에 이것은 까다로울 수 있습니다.
언어에 구애받지 않음
엔터티는 언어에 구애받지 않기 때문에 검색 엔진 에 적합합니다 . 더욱이, 그 아이디어는 하나의 실체가 다양한 매체를 통해 설명될 수 있다는 것을 의미합니다.
에펠탑은 너무나 상징적이기 때문에 이미지는 에펠탑을 설명하는 확실한 방법이 될 것입니다. 음성 파일일 수도 있고 타워의 공식 페이지일 수도 있습니다.
이는 모두 엔터티에 대한 유효한 레이블을 나타내며 경우에 따라 다른 지식 그래프의 유효한 식별자를 나타냅니다.
엔터티 간 연결
엔터티 간의 상호 작용을 통해 SEO 전문가는 관련 유기적 트래픽을 개발하기 위한 일관된 전략을 개발할 수 있습니다 .
당연히 에펠탑에 대한 가장 ‘ 권위 있는 ‘ 페이지는 공식 페이지나 Wikipedia일 가능성이 높습니다. 당신이 문자 그대로 에펠탑의 SEO 전문가가 아닌 이상, 이 사실에 이의를 제기하기 위해 할 수 있는 일은 거의 없습니다.
그러나 엔터티 간의 상호 작용을 통해 순위를 매길 콘텐츠를 작성할 수 있습니다. 우리는 이미 “레스토랑”과 “에펠탑”을 언급했습니다. 하지만 “메트로”와 “에펠탑” 또는 “할인”과 “에펠탑”은 어떻습니까?
두 엔터티가 작동하자마자 관련 검색 결과의 수가 급격하게 떨어집니다. “지하철로 여행할 때 에펠탑 티켓 할인”에 도달하면 지하철 티켓, 에펠탑 티켓 및 할인 간의 병치에 초점을 맞춘 아주 작은 페이지 중 하나가 됩니다.
이 문구를 입력하는 사람은 훨씬 적지만 전환율은 훨씬 높아집니다.
이는 또한 귀하에게 더 많은 수익을 창출할 수 있는 개념임을 증명할 수도 있습니다! (이 예는 원리를 설명하기 위한 것입니다. 그런 할인이 있는지는 모르겠습니다. 하지만 있어야 합니다.)
이 개념은 먼저 검색 문구에 대해 경쟁하는 모든 페이지를 기본 엔터티와 기본 쿼리에 대한 상대적 중요성을 보여주는 테이블로 나누어 매우 강력한 페이지를 생성하도록 확장될 수 있습니다.
그러면 이는 작가가 다른 경쟁 작품보다 더 권위 있는 새로운 콘텐츠를 구축하기 위한 콘텐츠 계획의 역할을 할 수 있습니다.
따라서 검색 엔진에서는 엔터티가 순위 요소가 아니라고 주장할 수도 있지만, 이 전략은 “좋은 콘텐츠를 쓰면 엔터티가 올 것이다”라는 철학의 핵심입니다.
Google의 엔터티 예
이미지 검색의 엔터티
엔터티는 이미지 최적화 에도 매우 유용할 수 있습니다 .
Google은 머신러닝을 활용하여 이미지를 분석하기 위해 많은 노력을 기울였습니다. 따라서 일반적으로 Google은 대부분의 사진에 포함된 주요 이미지를 알고 있습니다.
따라서 [ 스케이트보드를 탄 개 ]를 검색어로 선택하세요. 콘텐츠가 이미지를 완벽하게 지원하는지 확인하면 사용자가 검색할 때 콘텐츠가 더 눈에 띄게 될 수 있습니다.
Google Discover의 항목
SEO 전문가에게 가장 과소평가된 트래픽 소스 중 하나는 Google Discover 입니다 .
Google은 사용자가 적극적으로 무언가를 찾고 있지 않을 때에도 흥미로운 페이지 피드를 제공합니다.
이는 Android 휴대폰과 iPhone의 Google 앱에서도 발생합니다. 뉴스가 이 피드에 큰 영향을 미치는 반면, 뉴스가 아닌 사이트는 ‘Discover’에서 트래픽을 얻을 수 있습니다.
Google Search Console에 ‘검색’ 탭이 표시되지 않더라도 실망하지 마세요. 그러나 그렇게 하면 웹 페이지 중 하나 이상이 개체와 일치하여 최소한 한 사람의 관심 사항이 사용자를 특별히 타겟팅하는 피드의 페이지를 포함할 만큼 콘텐츠와 겹치게 된다는 것은 환영할 만한 신호일 수 있습니다.
Google은 엔터티를 매핑하여 많은 사용자의 관심과 습관을 인터넷 콘텐츠에 맞출 수 있기 때문입니다.
강한 상관관계가 발생하는 경우 Google은 사용자에게 페이지를 제공할 수 있습니다.
엔터티를 최적화하는 방법
Google 직원의 연구
2014년에 Google(또는 적어도 Google의 연구원)이 주제를 이해하기 위해 키워드를 사용하는 아이디어와 엔터티를 사용하는 아이디어를 분리하기를 원했음을 입증하는 데 매우 도움이 되는 논문이 나왔습니다 .
이 문서에서 Dunietz와 Gillick은 NLP 시스템이 어떻게 엔터티 기반 처리로 전환했는지 기록합니다. 그들은 문서(웹페이지)의 엔터티를 정의하기 위해 대규모 데이터 세트에서 이진 “돌출” 시스템을 어떻게 사용할 수 있는지 강조합니다.
나중에 단서에 따르면 이제 Google은 ‘돌출성’을 0에서 1까지의 차등 척도(예: NLP API에 제공된 점수)로 측정합니다.
그럼에도 불구하고 나는 이 문서가 Google 연구에서 페이지에서 “엔티티”가 두드러진 것으로 “계산”되어야 한다고 생각하는 부분을 확인하는 데 정말 도움이 된다고 생각합니다.
나는 진지한 연구를 위해 이 논문을 읽어볼 것을 권장하지만, 그들은 “‘뉴욕타임스’ 기사에 대한 연구로서의 두드러짐”을 어떻게 분류했는지 나열합니다.
구체적으로 그들은 다음과 같이 언급했습니다.
첫 번째 위치
이것은 엔터티에 대한 언급이 처음 나타나는 첫 번째 문장이었습니다.
인원수
이는 기본적으로 엔터티의 첫 번째 언급에서 “머리” 단어가 나타나는 횟수입니다.
“제목 단어”는 기사에서 구체적으로 정의되지 않았지만 가장 간단한 형태로 연결된 단어를 의미하는 것으로 간주됩니다.
언급
이는 엔터티의 단어/라벨뿐만 아니라 엔터티(그/그녀/그것)의 추천과 같은 다른 요소도 의미합니다.
표제
엔터티가 헤드라인에 나타나는 위치입니다.
헤드렉스
“첫 번째 언급의 소문자 표제 단어”로 설명됩니다.
엔터티 중심성
이 문서에서는 또한 PageRank 의 변형을 사용하는 방법에 대해 설명합니다 . 즉, Freebase 기사에 대한 웹페이지를 전환한 것입니다!
그들이 공유한 예는 FEMA, 공화당, 오바마(대통령), 공화당 상원의원이 참여한 상원 토론이었습니다.
PageRank와 같은 반복 알고리즘을 지식 그래프에서 이러한 개체와 서로의 근접성에 적용한 후 문서에서 해당 개체의 중요성에 대한 가중치를 변경할 수 있었습니다.
SEO에 이러한 엔터티 신호를 함께 넣기
Google에 국한되지 않고 여기서 알고리즘은 NLP 또는 명명된 엔터티 추출 프로그램(NEEP)이 텍스트 페이지에서 찾은 모든 엔터티(또는 해당 문제에서 인식된 모든 엔터티)에 대해 위 의 모든 변수에 대한 값을 생성합니다. 이미지).
그런 다음 각 변수에 가중치를 적용하여 점수를 부여합니다. 논의된 논문에서 이 점수는 1 또는 0(뚜렷하거나 두드러지지 않음)으로 바뀌지만 0~1 사이의 값이 더 가능성이 높습니다.
Google은 이러한 가중치에 대한 세부 정보를 결코 공유하지 않지만, 논문에서 보여주는 바에 따르면 가중치는 수억 페이지를 ‘읽은’ 후에만 결정된다는 것입니다.
이것이 대규모 언어 학습 모델의 특성입니다.
하지만 두 개 이상의 엔터티를 기준으로 콘텐츠 순위를 지정하려는 SEO 전문가를 위한 몇 가지 주요 팁은 다음과 같습니다. “에펠탑 근처 레스토랑” 예제로 돌아가면 다음과 같습니다.
- 각 엔터티에 대해 “죽은” 용어를 결정합니다. ‘레스토랑’, ‘에펠탑’, ‘거리’를 선택할 수도 있습니다. 거리는 유효한 의미와 Wikipedia의 항목을 갖고 있기 때문입니다 . 카페는 복수형의 “레스토랑”과 마찬가지로 레스토랑의 적절한 동의어일 수 있습니다.
- 헤더와 첫 번째 문장에 세 가지 항목을 모두 포함하는 것을 목표로 하세요. 예: ‘에펠탑에서 조금 떨어진 곳에 레스토랑이 있습니다.’
- 텍스트에서 이러한 개체 간의 상호 관계에 대해 이야기하는 것을 목표로 합니다. 예: “Jules-Verne 레스토랑은 말 그대로 그 안에 있습니다.” “it”이 글의 맥락에서 명확하게 에펠탑을 지칭한다고 가정하면, 매번 표기할 필요는 없습니다. 언어를 자연스럽게 유지하세요.
이것은 엔터티 SEO에 충분합니까?
아니요. 아마도 그렇지 않을 것입니다. (내 책을 읽으셔도 좋습니다!) 그러나 모든 요소가 작가나 웹사이트 소유자로서 통제할 수 있는 것은 아닙니다.
하지만 영향을 미치는 것으로 보이는 두 가지 아이디어는 다른 페이지의 콘텐츠를 컨텍스트에 맞게 연결하고 정의에 도움이 되는 스키마를 추가하는 것입니다.
스키마를 사용하여 엔터티 정의에 도움
검색 엔진이 콘텐츠를 명확하게 하는 데 도움이 되는 “정보” 및 “멘션” 스키마를 사용하면 검색 엔진에 더욱 명확성을 부여할 수 있습니다.
이 두 가지 스키마 유형은 페이지에서 말하는 내용을 설명하는 데 도움이 됩니다.
하나 또는 두 개의 엔터티에 대한 페이지를 만들고 몇 가지 추가 항목에 대한 “멘션”을 작성함으로써 SEO 전문가는 지식 그래프가 사용할 수 있도록 준비된 방식으로 긴 콘텐츠를 주요 영역으로 신속하게 요약할 수 있습니다.
하지만 Google은 핵심 알고리즘에서 이 스키마를 사용하는지 여부를 어떤 식으로든 명시적으로 밝히지 않았습니다.