Giải mã việc rò rỉ tài liệu tìm kiếm lớn của Google

by HEBER IT SERVICES
13 views
A+A-
Reset

Vụ rò rỉ tài liệu nội bộ của Google Search gần đây đã hé lộ hơn 14.000 yếu tố tiềm năng ảnh hưởng đến thứ hạng tìm kiếm, tạo nên một cơn địa chấn trong giới SEO. Bài viết này sẽ phân tích sâu hơn về những thông tin rò rỉ, giúp bạn hiểu rõ hơn về cách Google vận hành và tối ưu hóa website hiệu quả cho thị trường Việt Nam.

MỤC LỤC

Vụ Rò Rỉ Tài Liệu Google Search: Chấn Động Làng SEO

Tháng 5/2024, cộng đồng SEO xôn xao trước thông tin rò rỉ lượng lớn tài liệu API nội bộ của Google. Erfan Azimi đã chia sẻ thông tin này với Rand Fishkin (SparkToro), sau đó Michael King (iPullRank) được mời để phân tích. Vụ rò rỉ được cho là xuất phát từ một lỗi trong quá trình quản lý tài liệu nội bộ của Google (“yoshi-code-bot/elixer-google-api”).

Sự kiện này đã chia rẽ cộng đồng SEO thành ba nhóm:

  • Nhóm “Cổ Vũ Google”: Tin tưởng tuyệt đối vào Google và tuân thủ mọi chỉ dẫn như kim chỉ nam.
  • Nhóm “Google Nói Dối”: Không tin tưởng Google, thường sử dụng các chiến thuật SEO mũ đen.
  • Nhóm “Thực Tế”: Tin tưởng Google có chọn lọc, luôn kiểm chứng thông tin.

Dù bạn thuộc nhóm nào, vụ rò rỉ này chắc chắn sẽ thay đổi cách bạn nhìn nhận về SEO. Bạn có thể tìm hiểu toàn bộ tài liệu bị rò rỉ tại đây. Tuy nhiên, hãy sẵn sàng dành thời gian vì có hơn 14.000 yếu tố cần xem xét.

Những Phát Hiện Quan Trọng Từ Tài Liệu Rò Rỉ

Dưới đây là những phát hiện quan trọng nhất, ảnh hưởng trực tiếp đến chiến lược SEO của bạn:

PageRank Vẫn Tồn Tại, Nhưng Phức Tạp Hơn

  • Google sử dụng biến thể PageRank “Nearest Seed” (pageRank_NS), tập trung vào sự liên quan về chủ đề.
  • Ngoài ToolBarPageRank, Google còn sử dụng nhiều loại PageRank khác nhau, cho thấy sự phức tạp trong đánh giá uy tín trang web.

Phân Loại Website Rõ Ràng

Google phân loại website thành: tin tức, YMYL (Your Money or Your Life), blog cá nhân, thương mại điện tử và video. Việc lọc riêng blog cá nhân đặt ra nhiều câu hỏi về mục đích của Google.

NavBoost, NSR và ChardScores Là Yếu Tố Cốt Lõi

NavBoost (dựa trên click), NSR (Normalized Site Rank) và ChardScores là những thành phần quan trọng nhất, cho thấy vai trò của dữ liệu người dùng và chất lượng nội dung.

Uy Tín Toàn Trang Web Quan Trọng

Google đánh giá uy tín toàn trang web, không chỉ từng trang riêng lẻ, dựa trên nhiều yếu tố, bao gồm cả lưu lượng truy cập từ người dùng Chrome.

Nhúng Trang (Page Embeddings) và Nhúng Trang Web (Site Embeddings)

Google sử dụng nhúng trang/trang web, site focus và site radius trong hàm tính điểm, nhấn mạnh tầm quan trọng của chủ đề và sự liên quan.

Theo Dõi Lượt Click Chi Tiết

Google theo dõi nhiều loại click (click tốt, click xấu, click kéo dài cuối cùng…), cho thấy tầm quan trọng của trải nghiệm người dùng.

Tại Sao Google Lọc Riêng Blog Cá Nhân?

Việc Google lọc riêng blog cá nhân/trang web nhỏ đặt ra nhiều nghi vấn. Phải chăng Google đang muốn kiểm soát chặt chẽ hơn nội dung từ các nguồn nhỏ lẻ?

Google Có Thực Sự Đo Lường Uy Tín Tên Miền?

Google nhiều lần phủ nhận việc đo lường uy tín tên miền. Tuy nhiên, tài liệu rò rỉ cho thấy điều ngược lại. Vậy đâu là sự thật?

Google Nói Dối Về Việc Sử Dụng Dữ Liệu Click?

Google từng phủ nhận việc sử dụng dữ liệu click. Tuy nhiên, vụ rò rỉ và một vụ kiện gần đây đã buộc Google thừa nhận điều này.

Tại Sao Google Sử Dụng Nhiều Loại PageRank?

Việc sử dụng nhiều biến thể PageRank cho thấy sự phức tạp trong thuật toán xếp hạng của Google. Liệu điều này có đảm bảo tính công bằng và chính xác?

Chất Lượng Nội Dung: Yếu Tố Then Chốt

Google sử dụng mô hình ngôn ngữ lớn (LLM) để ước tính “nỗ lực” (effortScore) tạo ra nội dung chất lượng cao. Những yếu tố như công cụ, hình ảnh, video, thông tin độc đáo và sâu sắc sẽ giúp bạn đạt điểm cao.

Mô hình ước tính nỗ lực tạo nội dung chất lượngMô hình ước tính nỗ lực tạo nội dung chất lượng

Tập Trung Chủ Đề và Uy Tín Chuyên Môn

  • siteFocusScore: Cho biết mức độ tập trung vào chủ đề của trang web.
  • siteRadius: Đo lường độ lệch chủ đề giữa từng trang và toàn trang web.
  • siteEmbeddings: Biểu diễn chủ đề của trang web dưới dạng vector.

Google sử dụng các yếu tố này để đánh giá mức độ liên quan và uy tín chuyên môn của trang web trong một lĩnh vực cụ thể.

Nearest Seed (NS) và Chất Lượng Trang (PQ)

NS đánh giá uy tín dựa trên sự liên quan về chủ đề, kết hợp với PQ để chọn “seed nodes” chất lượng. Điều này giúp cải thiện độ chính xác trong xếp hạng, nhưng cũng tiềm ẩn nguy cơ “ô nhiễm” từ các “seed node” kém chất lượng.

Chất Lượng Hình Ảnh và Tín Hiệu Từ Người Dùng

Google sử dụng hành vi click của người dùng để đánh giá chất lượng hình ảnh. Các yếu tố như tính hữu ích, trình bày và mức độ hấp dẫn đều được xem xét.

Host NSR: Xếp Hạng Toàn Trang Web

NSR (Normalized Site Rank) là thứ hạng được tính cho toàn bộ trang web, bao gồm các yếu tố: nsr, site_pr và new_nsr. Hệ thống NSR chia website thành các “sitechunk” để đánh giá chất lượng.

NavBoost: Sức Mạnh Của Dữ Liệu Click

NavBoost sử dụng dữ liệu click để xếp hạng lại kết quả tìm kiếm. Google đã thừa nhận sử dụng dữ liệu duyệt web của người dùng Chrome, ảnh hưởng đến thứ hạng trên cả máy tính và thiết bị Android.

Tuổi Tên Miền (HostAge) và Sandbox

Tuổi tên miền không ảnh hưởng trực tiếp đến xếp hạng, nhưng “hostAge” (thời gian hoạt động của hosting) được sử dụng trong “Twiddler” để phát hiện website spam mới và đưa vào “sandbox” (hạn chế hiển thị).

Xóa Bộ Nhớ Google Về Phiên Bản Cũ Của Trang Web

Google lưu trữ khoảng 20 phiên bản gần nhất của một trang web. Cập nhật nội dung thường xuyên (20 lần) có thể giúp “loại bỏ” các phiên bản cũ khỏi hệ thống.

Hệ Thống Xếp Hạng Google Search và Trọng Số Từ

In đậm từ hoặc kích thước từ có thể ảnh hưởng đến điểm số. Điều này cho thấy Google có thể đang xem xét các yếu tố định dạng văn bản trong xếp hạng.

Hệ thống xếp hạng và trọng số từHệ thống xếp hạng và trọng số từ

Kiến Trúc Lưu Trữ Chỉ Mục: Alexandria, SegIndexer và TeraGoogle

  • Alexandria: Tên gọi của hệ thống lập chỉ mục chính của Google.
  • SegIndexer: Tổ chức tài liệu theo cấp bậc.
  • TeraGoogle: Bộ nhớ lưu trữ dài hạn.

Kiến trúc lưu trữ chỉ mụcKiến trúc lưu trữ chỉ mục

Xác Nhận Uy Tín Trang Web Nguồn/Toàn Trang Web

Yếu tố “isElectionAuthority” cho thấy Google có thể đang xác định các trang web nguồn uy tín, tương tự như “trang web hạt giống” hoặc các trang có PageRank cao.

Nội Dung Ngắn Vẫn Có Thể Xếp Hạng Cao

Nội dung ngắn không đồng nghĩa với chất lượng thấp. Google áp dụng hệ thống tính điểm riêng cho nội dung ngắn, cho phép chúng xếp hạng cao nếu đáp ứng nhu cầu người dùng.

Liên Kết Mới Hơn Có Thể Có Giá Trị Hơn

Theo Freshdocs, liên kết từ các trang web mới hơn có thể tốt hơn liên kết từ nội dung cũ. Tuy nhiên, lưu lượng truy cập và liên kết nội bộ vẫn là yếu tố quan trọng.

Dữ Liệu NsrNsr Chất Lượng

  • titlematchScore: Điểm khớp tiêu đề toàn trang web.
  • site2vecEmbedding: Vector biểu diễn toàn trang web.
  • pnavClicks: Có thể liên quan đến thông tin điều hướng từ dữ liệu click.
  • chromeInTotal: Có thể sử dụng dữ liệu duyệt web của người dùng Chrome.
  • chardVariance and chardScoreVariance: Có thể liên quan đến sự thống nhất của nội dung.

NSR và Qstar: Điểm Số Tổng Hợp

Qstar có thể là điểm số tổng hợp, kết hợp uy tín trang web với các yếu tố xếp hạng khác liên quan đến NSR.

Đánh Giá Khi Không Có Phép Đo

Nếu dữ liệu NSR chưa được tính cho một phần của trang web, Google sẽ sử dụng giá trị trung bình từ các phần khác. Điều này nhấn mạnh tầm quan trọng của chất lượng nhất quán trên toàn trang web.

Những Dấu Hiệu Cảnh Báo Bị Giảm Thứ Hạng

  • Trải nghiệm điều hướng kém: Cải thiện website để người dùng dễ dàng tìm thấy thông tin.
  • Nhận diện vị trí không khớp: Tối ưu hóa cho đúng vị trí địa lý.
  • Liên kết không khớp với trang đích: Đảm bảo liên kết chính xác.
  • Sự không hài lòng về nhấp chuột của người dùng: Giảm tỷ lệ thoát trang.

Những dấu hiệu cảnh báo bị giảm thứ hạngNhững dấu hiệu cảnh báo bị giảm thứ hạng

NavBoost nhóm các truy vấn dựa trên ý nghĩa, không chỉ khớp từ khóa.

NavBoost nhóm truy vấn dựa trên ý nghĩaNavBoost nhóm truy vấn dựa trên ý nghĩa

Spam: Những Yếu Tố Cần Lưu Ý

  • gibberishScores: Điểm cho nội dung vô nghĩa, sao chép, AI, không liên quan.
  • phraseAnchorSpamPenalty: Phạt anchor text spam, không ảnh hưởng toàn bộ liên kết.
  • trendSpam: Nhồi nhét từ khóa thịnh hành.
  • keywordStuffingScore: Điểm nhồi nhét từ khóa.
  • spamBrainTotalDocSpamScore: Điểm spam toàn văn bản (0-1).
  • spamRank: Đo lường liên kết đến trang web spam (0-65535).
  • spamWordScore: Điểm cho từ ngữ spam, liên quan đến anchor text.

Tầm Quan Trọng Của Anchor Text

Google dành hẳn một trang web để quan sát, đo lường, tính toán và đánh giá anchor text.

Tầm quan trọng của anchor textTầm quan trọng của anchor text

  • Tỷ lệ cụm từ spam trong anchor text.
  • Tỷ lệ phát hiện anchor text spam trung bình hàng ngày.
  • Số lượng cụm từ spam trong liên kết giữa các tên miền.
  • Số lượng liên kết đáng tin cậy có anchor text spam.

“Nguồn đáng tin cậy” có thể “lách luật” nhiều hơn về anchor text.

9 Lời Khuyên Thực Tế Cho SEO Tại Việt Nam

  1. Tối ưu hóa NavBoost: Thiết kế website với cấu trúc trực quan, dễ sử dụng.
  2. Loại bỏ trang không liên quan: Tập trung vào chủ đề chính, bắc cầu ngữ cảnh giữa các chủ đề.
  3. Tối ưu hóa tiêu đề phụ: Trả lời truy vấn tìm kiếm rõ ràng, ngắn gọn.
  4. Tăng lượt hiển thị và click: Viết thêm nội dung chất lượng, thu hút người dùng.
  5. Cập nhật nội dung thường xuyên: Thêm thông tin độc đáo, hình ảnh, video mới.
  6. Duy trì chất lượng và tần suất xuất bản: Google đánh giá chất lượng toàn trang web.
  7. Coi trọng sự gia tăng lượt hiển thị: Dấu hiệu tích cực cho thấy nội dung phù hợp.
  8. Tối ưu hóa cho “Thực thể”: Xác định thực thể quan trọng trong văn bản.
  9. Loại bỏ trang web hoạt động kém: Loại bỏ trang có chỉ số người dùng thấp, không có liên kết.

Lý Thuyết Xếp Hạng Thống Nhất (Dựa Trên Tài Liệu Rò Rỉ)

Công thức dưới đây tổng hợp các yếu tố bị rò rỉ, giúp bạn hình dung cách Google có thể xếp hạng trang web (không hoàn toàn chính xác):

Định Nghĩa Và Số Liệu

R: Điểm xếp hạng chung

UIS (Điểm tương tác của người dùng)

  • UgcScore: Điểm tương tác với nội dung do người dùng tạo.
  • TitleMatchScore: Điểm khớp tiêu đề với truy vấn.
  • ChromeInTotal: Tổng số lượt tương tác qua Chrome.
  • SiteImpressions: Tổng số lần hiển thị trang web.
  • TopicImpressions: Số lần hiển thị theo chủ đề.
  • SiteClicks: Tỷ lệ nhấp chuột trang web.
  • TopicClicks: Tỷ lệ nhấp chuột theo chủ đề.

CQS (Điểm chất lượng nội dung)

  • ImageQualityClickSignals: Tín hiệu chất lượng từ click vào hình ảnh.
  • VideoScore: Điểm chất lượng video.
  • ShopScore: Điểm nội dung mua sắm.
  • PageEmbedding: Nhúng ngữ nghĩa nội dung trang.
  • SiteEmbedding: Nhúng ngữ nghĩa nội dung trang web.
  • SiteRadius: Độ lệch nhúng trang web.
  • SiteFocus: Trọng tâm chủ đề.
  • TextConfidence: Độ tin cậy của văn bản.
  • EffortScore: Nỗ lực sáng tạo nội dung.

LS (Điểm liên kết)

  • TrustedAnchors: Chất lượng liên kết inbound.
  • SiteLinkIn: Giá trị trung bình liên kết đến.
  • PageRank: Điểm PageRank.

RB (Tăng cường mức độ liên quan)

  • TopicEmbedding: Mức độ liên quan theo thời gian.
  • QnA: Chất lượng cơ bản.
  • STS: Điểm văn bản ngữ nghĩa.

QB (Tăng cường chất lượng)

  • SAS: Điểm uy tín trang web.
  • EFTS: Nỗ lực của trang.
  • FS: Điểm mới.

CSA (Điều chỉnh cụ thể theo nội dung)

  • CDS: Điểm dựa trên dữ liệu Chrome.
  • SDS: Điểm xếp hạng Serp.
  • EQSS: Điểm Q Sao thử nghiệm.

Công Thức

R = ((w1 * UgcScore + w2 * TitleMatchScore + w3 * ChromeInTotal + w4 * SiteImpressions + w5 * TopicImpressions + w6 * SiteClicks + w7 * TopicClicks) + (v1 * ImageQualityClickSignals + v2 * VideoScore + v3 * ShoppingScore + v4 * PageEmbedding + v5 * SiteEmbedding + v6 * SiteRadius + v7 * SiteFocus + v8 * TextConfidence + v9 * EffortScore) + (x1 * TrustedAnchors + x2 * SiteLinkIn + x3 * PageRank)) * (TopicEmbedding + QnA + STS + SAS + EFTS + FS) + (y1 * CDS + y2 * SDS + y3 * EQSS)

Kết Luận

Vụ rò rỉ tài liệu Google Search đã cung cấp cái nhìn sâu sắc về thuật toán xếp hạng. Hãy tận dụng thông tin này để tối ưu hóa website, tập trung vào:

  • Trải nghiệm người dùng: Thiết kế website thân thiện, nội dung hữu ích.
  • Chất lượng nội dung: Đầu tư vào nội dung chất lượng cao, cập nhật thường xuyên.
  • Uy tín trang web: Xây dựng uy tín thông qua liên kết chất lượng và sự nhất quán về chủ đề.
  • Tối ưu hóa kỹ thuật: Chú ý đến các yếu tố kỹ thuật như anchor text, cấu trúc website.

Bằng cách áp dụng những kiến thức này, bạn có thể cải thiện thứ hạng website, thu hút lượng truy cập chất lượng và đạt được mục tiêu SEO của mình. Hãy liên hệ với HEBER – IT SERVICES để được tư vấn và hỗ trợ tối ưu hóa website hiệu quả nhất!

Cùng Chủ Đề

Để Lại Bình Luận