Google index

Google Index

Điều gì xảy ra sau khi công cụ tìm kiếm đã hoàn thành việc thu thập dữ liệu của một trang? Chúng ta hãy xem quy trình lập chỉ mục mà các công cụ tìm kiếm sử dụng để lưu trữ thông tin về các trang web, cho phép chúng nhanh chóng trả về các kết quả có liên quan cùng với chất lượng cao nhất.

Nhu cầu lập chỉ mục của các công cụ tìm kiếm là gì?

Bạn có nhớ những ngày trước khi có internet khi bạn phải tham khảo bách khoa toàn thư để tìm hiểu về thế giới và tìm kiếm trên Trang vàng để tìm thợ sửa ống nước không? Ngay cả trong những ngày đầu của web, trước các công cụ tìm kiếm, chúng tôi đã phải tìm kiếm thông qua các thư mục để lấy thông tin. Thật là một quá trình tốn thời gian. Làm thế nào mà chúng ta từng có sự kiên nhẫn đến như vậy?

Các công cụ tìm kiếm đã cách mạng hóa việc truy xuất thông tin đến mức người dùng mong đợi phản hồi gần như tức thời cho các truy vấn tìm kiếm của họ.

Lập chỉ mục công cụ tìm kiếm là gì?

Lập chỉ mục là quá trình mà các công cụ tìm kiếm sắp xếp thông tin trước khi diễn ra quá trình tìm kiếm của người nhằm mục đích phản hồi siêu nhanh các truy vấn.

Tìm kiếm thông qua các trang riêng lẻ cho các từ khóa và chủ đề sẽ là một quá trình rất chậm đối với các công cụ tìm kiếm để xác định thông tin liên quan. Thay vào đó, các công cụ tìm kiếm (bao gồm cả Google) sử dụng chỉ mục đảo ngược.

Lập chỉ mục công cụ tìm kiếm là gì
Lập chỉ mục công cụ tìm kiếm là gì

Chỉ mục đảo ngược là gì?

Chỉ mục đảo ngược là một hệ thống trong đó cơ sở dữ liệu gồm các thành phần văn bản được biên dịch cùng với các con trỏ tới tài liệu chứa các thành phần đó. Sau đó, các công cụ tìm kiếm sử dụng một quy trình gọi là mã thông báo để rút gọn các từ về ý nghĩa cốt lõi của chúng, do đó giảm lượng tài nguyên cần thiết để lưu trữ và truy xuất dữ liệu. Đây là cách tiếp cận nhanh hơn nhiều so với việc liệt kê tất cả các tài liệu đã biết dựa trên tất cả các từ khóa và ký tự có liên quan.

Phiên bản được lưu trong bộ nhớ cache của một trang

Ngoài việc chỉ mục các trang, các công cụ tìm kiếm cũng có thể lưu trữ một phiên bản văn bản của tài liệu được nén ở mức độ cao, bao gồm toàn bộ mã HTML và siêu dữ liệu.

Tài liệu lưu trữ là bản quét mới nhất của trang mà công cụ tìm kiếm đã xem qua.

Phiên bản lưu trữ của một trang có thể được truy cập (trong Google) bằng cách nhấp vào mũi tên màu xanh lá cây nhỏ bên cạnh URL kết quả tìm kiếm và chọn tùy chọn “lưu trữ”. Ngoài, bạn có thể sử dụng toán tử tìm kiếm ‘cache:’ của Google để xem phiên bản lưu trữ của trang.

Bing cung cấp cùng một cơ chế để xem phiên bản lưu trữ của một trang thông qua mũi tên màu xanh lá cây xuống bên cạnh mỗi kết quả tìm kiếm, nhưng hiện không hỗ trợ toán tử tìm kiếm ‘cache:’.

PageRank là gì?

“PageRank” là một thuật toán của Google được đặt theo tên của người đồng sáng lập Google, Larry Page (vâng, thật đấy!). Đây là một giá trị cho mỗi trang được tính bằng cách đếm số lượng liên kết trỏ đến một trang để xác định giá trị của trang đó một cách tương đối với mọi trang khác trên internet. Giá trị này được thông qua bởi mỗi liên kết riêng lẻ dựa trên số lượng và giá trị của các liên kết trỏ đến trang có liên kết.

PageRank chỉ là một trong nhiều tín hiệu được sử dụng trong thuật toán xếp hạng vĩ đại của Google.

Google ban đầu cung cấp giá trị xấp xỉ của PageRank nhưng chúng không còn hiển thị công khai nữa.

Mặc dù PageRank là một thuật ngữ của Google, nhưng tất cả các công cụ tìm kiếm thương mại đều tính toán và sử dụng số liệu về giá trị liên kết tương đương. Một số công cụ SEO cố gắng đưa ra ước tính về PageRank bằng logic và tính toán của riêng họ. Ví dụ: Sức mạnh trang trong các công cụ Moz, TrustFlow trong Majestic hoặc Xếp hạng URL trong Ahrefs. Lumar có một số liệu gọi là DeepRank để đo lường giá trị của các trang dựa trên các liên kết nội bộ trong một trang web.

Quá trình truyền Thứ hạng trang giữa các trang với nhau

Các trang truyền Thứ hạng trang (PageRank) hoặc các link juice đến các trang khác thông qua các liên kết. Khi một trang liên kết đến nội dung ở nơi khác, đây được coi là bảo chứng cho sự tín nhiệm và tin cậy. Trong đó nội dung được liên kết đến được đề xuất là có liên quan và hữu ích cho người dùng. Số lượng các liên kết này — và thước đo mức độ uy tín của trang web liên kết — xác định thứ hạng một cách tương đối của trang được liên kết đến.

Thứ hạng của một trang (PageRank) được chia đều cho tất cả các liên kết được phát hiện trên trang. Ví dụ: nếu trang của bạn có năm liên kết, thì mỗi liên kết sẽ chuyển 20% thứ hạng trang của trang này đến các trang mục tiêu. Các liên kết sử dụng thuộc tính rel=”nofollow” không thể truyền được PageRank.

Tầm quan trọng của Backlinks

Backlinks là nền tảng giúp các công cụ tìm kiếm hiểu được tầm quan trọng của một trang. Đã có nhiều nghiên cứu và thử nghiệm được thực hiện để xác định mối tương quan giữa các Backlinks và thứ hạng.

Nghiên cứu về các Backlinks của Moz cho thấy kết quả cho 50 truy vấn tìm kiếm hàng đầu của Google (~15.000 kết quả tìm kiếm), 99,2% trong số này có ít nhất 1 Backlink đến từ bên ngoài. Trên hết, trong các cuộc khảo sát các SEO luôn đánh giá Backlinks là một trong những yếu tố xếp hạng quan trọng nhất.

Scroll to Top