Crawl Data

Crawl Data

Bây giờ bạn đã có hiểu biết cơ bản về cách thức hoạt động của các công cụ tìm kiếm, hãy tìm hiểu sâu hơn về các quy trình mà các công cụ tìm kiếm và trình thu thập dữ liệu web sử dụng để hiểu trang web. Hãy bắt đầu với quá trình thu thập dữ liệu.

Trình thu thập dữ liệu công cụ tìm kiếm là gì?

Thu thập thông tin là quá trình được sử dụng bởi trình thu thập dữ liệu web của công cụ tìm kiếm (những con bot hoặc nhện) để truy cập và tải xuống một trang cũng như trích xuất các liên kết của trang đó để khám phá các trang bổ sung.

Các trang được công cụ tìm kiếm biết đến được thu thập thông tin định kỳ để xác định xem có bất kỳ thay đổi nào đã được thực hiện đối với nội dung của trang kể từ lần cuối cùng nó được thu thập thông tin hay không. Nếu một công cụ tìm kiếm phát hiện các thay đổi đối với một trang sau khi thu thập dữ liệu trang, nó sẽ cập nhật chỉ mục của trang đó để đáp ứng với những thay đổi được phát hiện này.

Việc thu thập dữ liệu web diễn ra như thế nào?

Các công cụ tìm kiếm sử dụng trình thu thập dữ liệu web của chính nó để khám phá và truy cập các trang web.

Tất cả các trình thu thập dữ liệu của công cụ tìm kiếm thương mại bắt đầu thu thập dữ liệu một trang web bằng cách tải xuống tệp robots.txt của nó. File này chứa các quy tắc về những trang mà công cụ tìm kiếm nên hoặc không nên thu thập dữ liệu trên website. Tệp robots.txt cũng có thể chứa thông tin về sơ đồ trang web (sitemaps); đây là nơi chứa danh sách các URL mà trang web muốn trình thu thập dữ liệu của công cụ tìm kiếm thu thập dữ liệu.

Trình thu thập thông tin của công cụ tìm kiếm sử dụng một số thuật toán và quy tắc để xác định tần suất một trang nên được tiến hành thu thập lại dữ liệu và số lượng trang trên website sẽ được lập chỉ mục. Ví dụ: một trang thay đổi thường xuyên có thể được thu thập dữ liệu thường xuyên hơn một trang hiếm khi được sửa đổi.

Việc thu thập dữ liệu web diễn ra như thế nào
Việc thu thập dữ liệu web diễn ra như thế nào

Làm cách nào để trình thu thập thông tin của công cụ tìm kiếm có thể được xác định?

Những con bot của công cụ tìm kiếm thu thập dữ liệu một trang web có thể được xác định từ chuỗi tác nhân người dùng (User Agent) mà chúng chuyển đến máy chủ web khi thực hiện yêu cầu các trang web.

Dưới đây là một số ví dụ về chuỗi tác nhân người dùng được sử dụng bởi các công cụ tìm kiếm:

  • Tác nhân người dùng Googlebot: Mozilla/5.0 (tương thích; Googlebot/2.1; +https://www.google.com/bot.html)
  • Tác nhân người dùng Bingbot: Mozilla/5.0 (tương thích; bingbot/2.0; +https://www.bing.com/bingbot.htm)
  • Tác nhân người dùng Baidu: Mozilla/5.0 (tương thích; Baiduspider/2.0; +https://www.baidu.com/search/spider.html)
  • Tác nhân người dùng Yandex: Mozilla/5.0 (tương thích; YandexBot/3.0; +https://yandex.com/bots)

Bất kỳ ai cũng có thể sử dụng tác nhân người dùng giống như tác nhân được sử dụng bởi các công cụ tìm kiếm. Tuy nhiên, địa chỉ IP đã thực hiện yêu cầu cũng có thể được sử dụng để xác nhận rằng yêu cầu đó đến từ công cụ tìm kiếm – một quá trình được gọi là tra cứu DNS ngược.

Cách xác định thu thập thông tin

Thu thập thông tin hình ảnh và các tệp không phải văn bản

Các công cụ tìm kiếm thường sẽ cố gắng thu thập dữ liệu và lập chỉ mục mọi URL mà chúng gặp phải.

Tuy nhiên, nếu URL là loại tệp không phải văn bản, chẳng hạn như tệp hình ảnh, video hoặc âm thanh, thì các công cụ tìm kiếm thường không thể đọc nội dung của tệp ngoài tên tệp và siêu dữ liệu được liên kết.

Mặc dù công cụ tìm kiếm chỉ có thể trích xuất một lượng thông tin hạn chế về các loại tệp không phải văn bản, chúng vẫn có thể được lập chỉ mục, xếp hạng trong kết quả tìm kiếm và nhận lưu lượng truy cập.

Bạn có thể tìm thấy danh sách đầy đủ các loại tệp có thể được Google lập chỉ mục tại đây.

Thu thập thông tin và trích xuất các liên kết từ các trang

Trình thu thập thông tin khám phá các trang mới bằng cách thu thập lại các trang hiện có mà họ đã biết, sau đó trích xuất các liên kết đến các trang khác để tìm các URL mới. Những URL mới này được thêm vào hàng đợi thu thập dữ liệu để có thể tải xuống sau này.

Thông qua quá trình lần theo các liên kết này, các công cụ tìm kiếm có thể khám phá mọi trang web và mọi bài viết với content longform có sẵn công khai trên internet được liên kết từ ít nhất một trang khác.

Sơ đồ website

Một cách khác mà các công cụ tìm kiếm có thể khám phá trang web mới là thông qua việc tìm kiếm các sơ đồ trang web (sitemaps).

Sơ đồ trang web chứa các tập hợp các URL và có thể được tạo ra bởi một trang web để cung cấp cho các công cụ tìm kiếm một danh sách các trang để được khám phá. Chúng có thể giúp các công cụ tìm kiếm tìm thấy nội dung ẩn sâu bên trong một trang web và cung cấp cho các quản trị viên web khả năng kiểm soát và hiểu rõ hơn về việc chỉ mục hóa và tần suất của khu vực trên trang web.

Khai báo trang

Ngoài ra, việc gửi trang riêng lẻ thường có thể được thực hiện trực tiếp tới các công cụ tìm kiếm thông qua giao diện tương ứng của chúng. Phương pháp khám phá trang thủ công này có thể được sử dụng khi nội dung mới được xuất bản trên trang web hoặc nếu các thay đổi đã diễn ra và bạn muốn giảm thiểu thời gian để các công cụ tìm kiếm nhận biết nội dung đã thay đổi

Google tuyên bố rằng đối với khối lượng URL lớn, bạn nên sử dụng sơ đồ trang web XML, nhưng đôi khi phương pháp khai báo thủ công lại thuận tiện hơn khi chỉ khai báo một số ít trang. Tuy nhiên, cũng cần lưu ý rằng Google giới hạn quản trị viên web khai báo 10 URL mỗi ngày.

Thêm vào đó, Google nói rằng thời gian phản hồi cho việc lập chỉ mục là tương tự đối với các sơ đồ trang web được khai báo riêng lẻ.

Scroll to Top