Vụ rò rỉ tài liệu nội bộ của Google Search gần đây đã hé lộ hơn 14.000 yếu tố tiềm năng ảnh hưởng đến thứ hạng tìm kiếm, tạo nên một cơn địa chấn trong giới SEO. Bài viết này sẽ phân tích sâu hơn về những thông tin rò rỉ, giúp bạn hiểu rõ hơn về cách Google vận hành và tối ưu hóa website hiệu quả cho thị trường Việt Nam.
MỤC LỤC
Vụ Rò Rỉ Tài Liệu Google Search: Chấn Động Làng SEO
Tháng 5/2024, cộng đồng SEO xôn xao trước thông tin rò rỉ lượng lớn tài liệu API nội bộ của Google. Erfan Azimi đã chia sẻ thông tin này với Rand Fishkin (SparkToro), sau đó Michael King (iPullRank) được mời để phân tích. Vụ rò rỉ được cho là xuất phát từ một lỗi trong quá trình quản lý tài liệu nội bộ của Google (“yoshi-code-bot/elixer-google-api”).
Sự kiện này đã chia rẽ cộng đồng SEO thành ba nhóm:
- Nhóm “Cổ Vũ Google”: Tin tưởng tuyệt đối vào Google và tuân thủ mọi chỉ dẫn như kim chỉ nam.
- Nhóm “Google Nói Dối”: Không tin tưởng Google, thường sử dụng các chiến thuật SEO mũ đen.
- Nhóm “Thực Tế”: Tin tưởng Google có chọn lọc, luôn kiểm chứng thông tin.
Dù bạn thuộc nhóm nào, vụ rò rỉ này chắc chắn sẽ thay đổi cách bạn nhìn nhận về SEO. Bạn có thể tìm hiểu toàn bộ tài liệu bị rò rỉ tại đây. Tuy nhiên, hãy sẵn sàng dành thời gian vì có hơn 14.000 yếu tố cần xem xét.
Những Phát Hiện Quan Trọng Từ Tài Liệu Rò Rỉ
Dưới đây là những phát hiện quan trọng nhất, ảnh hưởng trực tiếp đến chiến lược SEO của bạn:
PageRank Vẫn Tồn Tại, Nhưng Phức Tạp Hơn
- Google sử dụng biến thể PageRank “Nearest Seed” (pageRank_NS), tập trung vào sự liên quan về chủ đề.
- Ngoài ToolBarPageRank, Google còn sử dụng nhiều loại PageRank khác nhau, cho thấy sự phức tạp trong đánh giá uy tín trang web.
Phân Loại Website Rõ Ràng
Google phân loại website thành: tin tức, YMYL (Your Money or Your Life), blog cá nhân, thương mại điện tử và video. Việc lọc riêng blog cá nhân đặt ra nhiều câu hỏi về mục đích của Google.
NavBoost (dựa trên click), NSR (Normalized Site Rank) và ChardScores là những thành phần quan trọng nhất, cho thấy vai trò của dữ liệu người dùng và chất lượng nội dung.
Uy Tín Toàn Trang Web Quan Trọng
Google đánh giá uy tín toàn trang web, không chỉ từng trang riêng lẻ, dựa trên nhiều yếu tố, bao gồm cả lưu lượng truy cập từ người dùng Chrome.
Nhúng Trang (Page Embeddings) và Nhúng Trang Web (Site Embeddings)
Google sử dụng nhúng trang/trang web, site focus và site radius trong hàm tính điểm, nhấn mạnh tầm quan trọng của chủ đề và sự liên quan.
Theo Dõi Lượt Click Chi Tiết
Google theo dõi nhiều loại click (click tốt, click xấu, click kéo dài cuối cùng…), cho thấy tầm quan trọng của trải nghiệm người dùng.
Tại Sao Google Lọc Riêng Blog Cá Nhân?
Việc Google lọc riêng blog cá nhân/trang web nhỏ đặt ra nhiều nghi vấn. Phải chăng Google đang muốn kiểm soát chặt chẽ hơn nội dung từ các nguồn nhỏ lẻ?
Google Có Thực Sự Đo Lường Uy Tín Tên Miền?
Google nhiều lần phủ nhận việc đo lường uy tín tên miền. Tuy nhiên, tài liệu rò rỉ cho thấy điều ngược lại. Vậy đâu là sự thật?
Google Nói Dối Về Việc Sử Dụng Dữ Liệu Click?
Google từng phủ nhận việc sử dụng dữ liệu click. Tuy nhiên, vụ rò rỉ và một vụ kiện gần đây đã buộc Google thừa nhận điều này.
Tại Sao Google Sử Dụng Nhiều Loại PageRank?
Việc sử dụng nhiều biến thể PageRank cho thấy sự phức tạp trong thuật toán xếp hạng của Google. Liệu điều này có đảm bảo tính công bằng và chính xác?
Chất Lượng Nội Dung: Yếu Tố Then Chốt
Google sử dụng mô hình ngôn ngữ lớn (LLM) để ước tính “nỗ lực” (effortScore) tạo ra nội dung chất lượng cao. Những yếu tố như công cụ, hình ảnh, video, thông tin độc đáo và sâu sắc sẽ giúp bạn đạt điểm cao.
Mô hình ước tính nỗ lực tạo nội dung chất lượng
Tập Trung Chủ Đề và Uy Tín Chuyên Môn
- siteFocusScore: Cho biết mức độ tập trung vào chủ đề của trang web.
- siteRadius: Đo lường độ lệch chủ đề giữa từng trang và toàn trang web.
- siteEmbeddings: Biểu diễn chủ đề của trang web dưới dạng vector.
Google sử dụng các yếu tố này để đánh giá mức độ liên quan và uy tín chuyên môn của trang web trong một lĩnh vực cụ thể.
Nearest Seed (NS) và Chất Lượng Trang (PQ)
NS đánh giá uy tín dựa trên sự liên quan về chủ đề, kết hợp với PQ để chọn “seed nodes” chất lượng. Điều này giúp cải thiện độ chính xác trong xếp hạng, nhưng cũng tiềm ẩn nguy cơ “ô nhiễm” từ các “seed node” kém chất lượng.
Chất Lượng Hình Ảnh và Tín Hiệu Từ Người Dùng
Google sử dụng hành vi click của người dùng để đánh giá chất lượng hình ảnh. Các yếu tố như tính hữu ích, trình bày và mức độ hấp dẫn đều được xem xét.
Host NSR: Xếp Hạng Toàn Trang Web
NSR (Normalized Site Rank) là thứ hạng được tính cho toàn bộ trang web, bao gồm các yếu tố: nsr, site_pr và new_nsr. Hệ thống NSR chia website thành các “sitechunk” để đánh giá chất lượng.
NavBoost sử dụng dữ liệu click để xếp hạng lại kết quả tìm kiếm. Google đã thừa nhận sử dụng dữ liệu duyệt web của người dùng Chrome, ảnh hưởng đến thứ hạng trên cả máy tính và thiết bị Android.
Tuổi Tên Miền (HostAge) và Sandbox
Tuổi tên miền không ảnh hưởng trực tiếp đến xếp hạng, nhưng “hostAge” (thời gian hoạt động của hosting) được sử dụng trong “Twiddler” để phát hiện website spam mới và đưa vào “sandbox” (hạn chế hiển thị).
Xóa Bộ Nhớ Google Về Phiên Bản Cũ Của Trang Web
Google lưu trữ khoảng 20 phiên bản gần nhất của một trang web. Cập nhật nội dung thường xuyên (20 lần) có thể giúp “loại bỏ” các phiên bản cũ khỏi hệ thống.
Hệ Thống Xếp Hạng Google Search và Trọng Số Từ
In đậm từ hoặc kích thước từ có thể ảnh hưởng đến điểm số. Điều này cho thấy Google có thể đang xem xét các yếu tố định dạng văn bản trong xếp hạng.
Hệ thống xếp hạng và trọng số từ
Kiến Trúc Lưu Trữ Chỉ Mục: Alexandria, SegIndexer và TeraGoogle
- Alexandria: Tên gọi của hệ thống lập chỉ mục chính của Google.
- SegIndexer: Tổ chức tài liệu theo cấp bậc.
- TeraGoogle: Bộ nhớ lưu trữ dài hạn.
Kiến trúc lưu trữ chỉ mục
Xác Nhận Uy Tín Trang Web Nguồn/Toàn Trang Web
Yếu tố “isElectionAuthority” cho thấy Google có thể đang xác định các trang web nguồn uy tín, tương tự như “trang web hạt giống” hoặc các trang có PageRank cao.
Nội Dung Ngắn Vẫn Có Thể Xếp Hạng Cao
Nội dung ngắn không đồng nghĩa với chất lượng thấp. Google áp dụng hệ thống tính điểm riêng cho nội dung ngắn, cho phép chúng xếp hạng cao nếu đáp ứng nhu cầu người dùng.
Liên Kết Mới Hơn Có Thể Có Giá Trị Hơn
Theo Freshdocs, liên kết từ các trang web mới hơn có thể tốt hơn liên kết từ nội dung cũ. Tuy nhiên, lưu lượng truy cập và liên kết nội bộ vẫn là yếu tố quan trọng.
Dữ Liệu NsrNsr Chất Lượng
- titlematchScore: Điểm khớp tiêu đề toàn trang web.
- site2vecEmbedding: Vector biểu diễn toàn trang web.
- pnavClicks: Có thể liên quan đến thông tin điều hướng từ dữ liệu click.
- chromeInTotal: Có thể sử dụng dữ liệu duyệt web của người dùng Chrome.
- chardVariance and chardScoreVariance: Có thể liên quan đến sự thống nhất của nội dung.
NSR và Qstar: Điểm Số Tổng Hợp
Qstar có thể là điểm số tổng hợp, kết hợp uy tín trang web với các yếu tố xếp hạng khác liên quan đến NSR.
Đánh Giá Khi Không Có Phép Đo
Nếu dữ liệu NSR chưa được tính cho một phần của trang web, Google sẽ sử dụng giá trị trung bình từ các phần khác. Điều này nhấn mạnh tầm quan trọng của chất lượng nhất quán trên toàn trang web.
Những Dấu Hiệu Cảnh Báo Bị Giảm Thứ Hạng
- Trải nghiệm điều hướng kém: Cải thiện website để người dùng dễ dàng tìm thấy thông tin.
- Nhận diện vị trí không khớp: Tối ưu hóa cho đúng vị trí địa lý.
- Liên kết không khớp với trang đích: Đảm bảo liên kết chính xác.
- Sự không hài lòng về nhấp chuột của người dùng: Giảm tỷ lệ thoát trang.
Những dấu hiệu cảnh báo bị giảm thứ hạng
NavBoost nhóm các truy vấn dựa trên ý nghĩa, không chỉ khớp từ khóa.
NavBoost nhóm truy vấn dựa trên ý nghĩa
Spam: Những Yếu Tố Cần Lưu Ý
- gibberishScores: Điểm cho nội dung vô nghĩa, sao chép, AI, không liên quan.
- phraseAnchorSpamPenalty: Phạt anchor text spam, không ảnh hưởng toàn bộ liên kết.
- trendSpam: Nhồi nhét từ khóa thịnh hành.
- keywordStuffingScore: Điểm nhồi nhét từ khóa.
- spamBrainTotalDocSpamScore: Điểm spam toàn văn bản (0-1).
- spamRank: Đo lường liên kết đến trang web spam (0-65535).
- spamWordScore: Điểm cho từ ngữ spam, liên quan đến anchor text.
Tầm Quan Trọng Của Anchor Text
Google dành hẳn một trang web để quan sát, đo lường, tính toán và đánh giá anchor text.
Tầm quan trọng của anchor text
- Tỷ lệ cụm từ spam trong anchor text.
- Tỷ lệ phát hiện anchor text spam trung bình hàng ngày.
- Số lượng cụm từ spam trong liên kết giữa các tên miền.
- Số lượng liên kết đáng tin cậy có anchor text spam.
“Nguồn đáng tin cậy” có thể “lách luật” nhiều hơn về anchor text.
9 Lời Khuyên Thực Tế Cho SEO Tại Việt Nam
- Tối ưu hóa NavBoost: Thiết kế website với cấu trúc trực quan, dễ sử dụng.
- Loại bỏ trang không liên quan: Tập trung vào chủ đề chính, bắc cầu ngữ cảnh giữa các chủ đề.
- Tối ưu hóa tiêu đề phụ: Trả lời truy vấn tìm kiếm rõ ràng, ngắn gọn.
- Tăng lượt hiển thị và click: Viết thêm nội dung chất lượng, thu hút người dùng.
- Cập nhật nội dung thường xuyên: Thêm thông tin độc đáo, hình ảnh, video mới.
- Duy trì chất lượng và tần suất xuất bản: Google đánh giá chất lượng toàn trang web.
- Coi trọng sự gia tăng lượt hiển thị: Dấu hiệu tích cực cho thấy nội dung phù hợp.
- Tối ưu hóa cho “Thực thể”: Xác định thực thể quan trọng trong văn bản.
- Loại bỏ trang web hoạt động kém: Loại bỏ trang có chỉ số người dùng thấp, không có liên kết.
Lý Thuyết Xếp Hạng Thống Nhất (Dựa Trên Tài Liệu Rò Rỉ)
Công thức dưới đây tổng hợp các yếu tố bị rò rỉ, giúp bạn hình dung cách Google có thể xếp hạng trang web (không hoàn toàn chính xác):
Định Nghĩa Và Số Liệu
R: Điểm xếp hạng chung
UIS (Điểm tương tác của người dùng)
- UgcScore: Điểm tương tác với nội dung do người dùng tạo.
- TitleMatchScore: Điểm khớp tiêu đề với truy vấn.
- ChromeInTotal: Tổng số lượt tương tác qua Chrome.
- SiteImpressions: Tổng số lần hiển thị trang web.
- TopicImpressions: Số lần hiển thị theo chủ đề.
- SiteClicks: Tỷ lệ nhấp chuột trang web.
- TopicClicks: Tỷ lệ nhấp chuột theo chủ đề.
CQS (Điểm chất lượng nội dung)
- ImageQualityClickSignals: Tín hiệu chất lượng từ click vào hình ảnh.
- VideoScore: Điểm chất lượng video.
- ShopScore: Điểm nội dung mua sắm.
- PageEmbedding: Nhúng ngữ nghĩa nội dung trang.
- SiteEmbedding: Nhúng ngữ nghĩa nội dung trang web.
- SiteRadius: Độ lệch nhúng trang web.
- SiteFocus: Trọng tâm chủ đề.
- TextConfidence: Độ tin cậy của văn bản.
- EffortScore: Nỗ lực sáng tạo nội dung.
LS (Điểm liên kết)
- TrustedAnchors: Chất lượng liên kết inbound.
- SiteLinkIn: Giá trị trung bình liên kết đến.
- PageRank: Điểm PageRank.
RB (Tăng cường mức độ liên quan)
- TopicEmbedding: Mức độ liên quan theo thời gian.
- QnA: Chất lượng cơ bản.
- STS: Điểm văn bản ngữ nghĩa.
QB (Tăng cường chất lượng)
- SAS: Điểm uy tín trang web.
- EFTS: Nỗ lực của trang.
- FS: Điểm mới.
CSA (Điều chỉnh cụ thể theo nội dung)
- CDS: Điểm dựa trên dữ liệu Chrome.
- SDS: Điểm xếp hạng Serp.
- EQSS: Điểm Q Sao thử nghiệm.
Công Thức
R = ((w1 * UgcScore + w2 * TitleMatchScore + w3 * ChromeInTotal + w4 * SiteImpressions + w5 * TopicImpressions + w6 * SiteClicks + w7 * TopicClicks) + (v1 * ImageQualityClickSignals + v2 * VideoScore + v3 * ShoppingScore + v4 * PageEmbedding + v5 * SiteEmbedding + v6 * SiteRadius + v7 * SiteFocus + v8 * TextConfidence + v9 * EffortScore) + (x1 * TrustedAnchors + x2 * SiteLinkIn + x3 * PageRank)) * (TopicEmbedding + QnA + STS + SAS + EFTS + FS) + (y1 * CDS + y2 * SDS + y3 * EQSS)
Kết Luận
Vụ rò rỉ tài liệu Google Search đã cung cấp cái nhìn sâu sắc về thuật toán xếp hạng. Hãy tận dụng thông tin này để tối ưu hóa website, tập trung vào:
- Trải nghiệm người dùng: Thiết kế website thân thiện, nội dung hữu ích.
- Chất lượng nội dung: Đầu tư vào nội dung chất lượng cao, cập nhật thường xuyên.
- Uy tín trang web: Xây dựng uy tín thông qua liên kết chất lượng và sự nhất quán về chủ đề.
- Tối ưu hóa kỹ thuật: Chú ý đến các yếu tố kỹ thuật như anchor text, cấu trúc website.
Bằng cách áp dụng những kiến thức này, bạn có thể cải thiện thứ hạng website, thu hút lượng truy cập chất lượng và đạt được mục tiêu SEO của mình. Hãy liên hệ với HEBER – IT SERVICES để được tư vấn và hỗ trợ tối ưu hóa website hiệu quả nhất!