Search engines - Các công cụ tìm kiếm hoạt động như thế nào

Trong phần hướng dẫn này, chúng tôi sẽ giới thiệu cho bạn cách thức hoạt động của các công cụ tìm kiếm. Phần giới thiệu này sẽ bao gồm các quy trình thu thập dữ liệu và lập chỉ mục cũng như các khái niệm về ngân sách thu thập dữ liệu và Xếp hạng trang.

Các công cụ tìm kiếm hoạt động bằng cách thu thập dữ liệu từ hàng trăm tỷ trang thông qua trình thu thập dữ liệu web của riêng chúng. Các trình thu thập dữ liệu web này thường được gọi là các con nhện hoặc bọ công cụ tìm kiếm. Một công cụ tìm kiếm điều hướng trang web bằng cách tải xuống các trang web và theo các liên kết trên các trang này để khám phá những trang khả dụng khác.

Lập chỉ mục công cụ tìm kiếm

Những trang web đã được khám phá bởi công cụ tìm kiếm sẽ được thêm vào một cấu trúc dữ liệu gọi là chỉ mục.

Chỉ mục bao gồm tất cả các URL đã được khám phá cùng với một số tín hiệu chính có liên quan về nội dung của từng URL, chẳng hạn như:

Các từ khóa được phát hiện trong nội dung của trang – Trang này bao gồm những chủ đề gì?
Loại nội dung đang được thu thập thông tin (sử dụng vi dữ liệu được gọi là Lược đồ (Schema)) – Nội dung trên trang bao gồm những gì?
Độ mới của trang – Nó được cập nhật gần đây như thế nào?
Mức độ tương tác của người dùng trước đây đối với trang và/hoặc tên miền – Cách mà người dùng tương tác với page?

Mục tiêu chính

Mục tiêu của thuật toán công cụ tìm kiếm chính là chỉ trong một thời gian ngắn có thể xuất ra được một tập hợp các kết quả tìm kiếm thật chất lượng và có độ liên quan cao nhất với những câu hỏi hoặc truy vấn từ người dùng.

Sau đó, người dùng chọn một tùy chọn từ danh sách kết quả tìm kiếm. Nhờ vào hành động này, cùng với hoạt động tiếp theo, giúp tạo một nguồn cấp dữ liệu cho quá trình học của thuật toán này. Từ đó, giúp ảnh hưởng đến việc liên tục sắp xếp thứ hạng của công cụ tìm kiếm.

Điều gì xảy ra khi việc tìm kiếm được thực hiện?

Khi một truy vấn tìm kiếm được người dùng nhập vào công cụ tìm kiếm, tất cả các trang được coi là có liên quan sẽ được xác định từ chỉ mục. Đồng thời, tất cả các trang này sẽ được thể hiện dưới một danh sách kết quả và được xếp hạng theo thứ bậc bởi thuật toán đã đề cập ở trên.

Các thuật toán được sử dụng để xếp hạng các kết quả phù hợp nhất sẽ khác nhau đối với từng công cụ tìm kiếm. Ví dụ: một trang được xếp hạng cao cho một truy vấn tìm kiếm trên Google có thể không được xếp hạng cao cho cùng một truy vấn trên Bing. Chính vì thế, bạn nên so sánh công cụ tìm kiếm với nhau để tìm ra phương án SEO tốt nhất.

Ngoài truy vấn tìm kiếm, các công cụ tìm kiếm sử dụng dữ liệu liên quan khác để trả về kết quả, bao gồm:

Vị trí – Một số truy vấn tìm kiếm phụ thuộc vào vị trí, ví dụ: 'quán cà phê gần tôi' hoặc 'thời gian xem phim'.
Ngôn ngữ được phát hiện – Công cụ tìm kiếm sẽ trả về kết quả bằng ngôn ngữ của người dùng, nếu ngôn ngữ đó có thể được phát hiện.
Lịch sử tìm kiếm trước đó – Công cụ tìm kiếm sẽ trả về các kết quả khác nhau cho một truy vấn tùy thuộc vào những gì người dùng đã tìm kiếm trước đó.
•Thiết bị – Một tập hợp kết quả khác nhau có thể được trả về dựa trên sự khác nhau của thiết bị thực hiện truy vấn.

Tại sao một trang có thể không được lập chỉ mục?

Có một số trường hợp URL sẽ không được lập chỉ mục bởi công cụ tìm kiếm. Điều này có thể là do:

Sự ngăn chặn từ tệp Robots.txt – một tệp thông báo cho các công cụ tìm kiếm biết không nên truy cập trên trang web của bạn.
Các chỉ thị trên trang web yêu cầu các công cụ tìm kiếm không lập chỉ mục trang đó (thẻ noindex) hoặc lập chỉ mục một trang tương tự khác (thẻ canonical).
Các thuật toán của công cụ tìm kiếm đánh giá trang có chất lượng thấp, có nội dung sơ sài hoặc chứa nội dung trùng lặp.
URL trả về trang lỗi (ví dụ: mã phản hồi HTTP 404 Not Found).

Trọn bộ hướng dẫn về Cách hoạt động của công cụ tìm kiếm

Search Engine Crawling

Thu thập thông tin là quá trình được sử dụng bởi trình thu thập dữ liệu web của công cụ tìm kiếm (những con bot hoặc nhện) để truy cập và tải xuống một trang cũng như trích xuất các liên kết của trang đó để khám phá các trang bổ sung.

CHI TIẾT

Search Engine Indexing

CHI TIẾT

So sánh các công cụ tìm kiếm

Việc so sánh các công cụ tìm kiếm là điều hết sức quan trọng. Bởi việc tìm kiếm thông tin trực tuyến đã trở thành một phần không thể thiếu trong cuộc sống hàng ngày của chúng ta. Với sự phát triển của công nghệ, người dùng có nhiều lựa chọn công cụ tìm kiếm khác nhau để đáp ứng nhu cầu của mình.

CHI TIẾT

#image_title

Crawl budget

Ngân sách thu thập dữ liệu là số lượng URL trên một trang web mà công cụ tìm kiếm sẽ thu thập dữ liệu trong một khoảng thời gian nhất định. Bên cạnh đó còn là một chức năng của tốc độ thu thập dữ liệu và nhu cầu thu thập dữ liệu.

CHI TIẾT

Robot.txt

Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Duius enim ad minim veniam, quis nostrud exercitation ullamco laboris

CHI TIẾT

URL level Robots Directives

Chỉ thị rô bốt là các phần mã cung cấp hướng dẫn cho trình thu thập dữ liệu trang web về cách thu thập dữ liệu hoặc lập chỉ mục nội dung của trang. Thẻ meta robot cho phép tiếp cận chi tiết để kiểm soát cách các trang cụ thể được lập chỉ mục và hiển thị trong các trang kết quả của công cụ tìm kiếm.

CHI TIẾT