Crawl budget

Tiếp theo phần giới thiệu về quy trình thu thập dữ liệu giúp khám phá các trang mới của chúng tôi. điều quan trọng là phải hiểu các quy tắc và điều kiện chính xung quanh việc thu thập dữ liệu mà các công cụ tìm kiếm kết hợp như một phần của thuật toán của họ. Sau khi đọc phần này, bạn sẽ hiểu thêm về ngân sách thu thập dữ liệu, nhu cầu và tỷ lệ.Enter your text here...

Ngân sách thu thập dữ liệu là gì?

Ngân sách thu thập dữ liệu là số lượng URL trên một trang web mà công cụ tìm kiếm sẽ thu thập dữ liệu trong một khoảng thời gian nhất định. Bên cạnh đó còn là một chức năng của tốc độ thu thập dữ liệu và nhu cầu thu thập dữ liệu.

Blog trung tâm quản trị trang web của Google xác định ngân sách thu thập dữ liệu như sau:

Theo như định nghĩa của Google Webmaster Central Blog, Ngân sách thu thập dữ liệu được định nghĩa như sau:

“Kết hợp tỷ lệ thu thập dữ liệu và nhu cầu thu thập dữ liệu với nhau. Chúng ta định nghĩa được Ngân sách thu thập dữ liệu chính là số lượng URL mà Googlebot muốn và có thể “cào”.

Ngân sách thu thập dữ liệu là gì

Tại sao ngân sách thu thập dữ liệu bị hạn chế?

Ngân sách thu thập thông tin bị hạn chế để đảm bảo rằng máy chủ của trang web không bị quá tải với quá nhiều kết nối đồng thời hoặc quá nhiều nhu cầu về tài nguyên máy chủ, đây là thứ có thể ảnh hưởng xấu đến trải nghiệm của khách truy cập trang web.

Mỗi IP (web host) chỉ có thể xử lý được số lượng kết nối tối đa nhất định. Nhiều trang web có thể được lưu trữ trên một máy chủ dùng chung, vì vậy nếu một trang web chia sẻ máy chủ hoặc IP với một số trang web khác. Nó có thể có ngân sách thu thập thông tin thấp hơn so với trang web được lưu trữ trên một sever chuyên dụng.

Tương tự, một trang web được lưu trữ trên một cụm máy chủ chuyên dụng có tốc độ phản hồi nhanh thường sẽ có ngân sách thu thập dữ liệu cao hơn so với trang web chỉ được lưu trữ trên một máy chủ và bắt đầu phản hồi chậm hơn khi có lượng lưu lượng truy cập cao.

Điều đáng lưu ý là không chỉ vì một trang web có tốc độ phản hồi nhanh chóng và có đủ tài nguyên để đáp ứng tốc độ thu thập dữ liệu cao, điều đó không có nghĩa là các công cụ tìm kiếm sẽ muốn dành nhiều tài nguyên của riêng họ nếu nội dung không được coi là đủ quan trọng.

Tại sao ngân sách thu thập dữ liệu bị hạn chế

Tỷ lệ thu thập dữ liệu – Định nghĩa và giới hạn

Tỷ lệ thu thập dữ liệu được định nghĩa là số lượng URL mỗi giây mà các công cụ tìm kiếm sẽ cố gắng thu thập dữ liệu một trang web. Điều này thường tỷ lệ thuận với số lượng kết nối HTTP đang hoạt động mà chúng chọn mở đồng thời.

Giới hạn tỷ lệ thu thập thông tin có thể được định nghĩa là mức tìm nạp tối đa có thể đạt được mà không làm giảm trải nghiệm của khách truy cập vào một trang web.

Có một số yếu tố có thể gây ra biến động về tỷ lệ thu thập dữ liệu. Bao gồm các:

Tình trạng thu thập dữ liệu – Các trang web phản hồi nhanh hơn có thể giúp tỷ lệ thu thập dữ liệu tăng lên, trong khi các trang web chậm hơn có thể thấy sự suy giảm của tỷ lệ thu thập dữ liệu giảm.

Bạn có thể giới hạn tốc độ Google thu thập dữ liệu trang web trong Google Search Console bằng cách vào Cài đặt và điều hướng đến phần Tỷ lệ thu thập dữ liệu.

Thế nào là nhu cầu thu thập dữ liệu?

Ngoài các giới hạn về tình trạng thu thập dữ liệu và tỷ lệ thu thập dữ liệu do quản trị viên web chỉ định, tốc độ thu thập dữ liệu sẽ thay đổi từ trang này sang trang khác dựa trên nhu cầu đối với một trang cụ thể.

Nhu cầu của người dùng đối với các trang đã được lập chỉ mục trước đó ảnh hưởng đến tần suất công cụ tìm kiếm thu thập dữ liệu các trang đó. Các trang phổ biến hơn có thể sẽ được thu thập dữ liệu thường xuyên hơn các trang hiếm khi được truy cập hoặc những trang không được cập nhật hoặc có ít giá trị. Các trang mới hoặc quan trọng thường được ưu tiên hơn các trang cũ không thay đổi thường xuyên.

Quản lý ngân sách thu thập dữ liệu

Các vấn đề với những trang web lớn

Quản lý ngân sách thu thập dữ liệu đặc biệt quan trọng đối với các trang web lớn, khi có nhiều URL và doanh thu nội dung cao. Các website lớn có thể gặp sự cố khi bắt đầu thêm các trang mới chưa từng được thu thập dữ liệu và lập chỉ mục để xuất hiện trong các trang kết quả của công cụ tìm kiếm.

Cũng có thể xảy ra trường hợp các trang đã được lập chỉ mục mất nhiều thời gian hơn để được thu thập lại thông tin, nghĩa là các thay đổi mất nhiều thời gian hơn để được phát hiện và sau đó được cập nhật trong chỉ mục.

Các vấn đề với URL có giá trị thấp

Một phần quan trọng khác của việc quản lý ngân sách thu thập thông tin là xử lý các URL có giá trị thấp có thể tiêu tốn một lượng lớn ngân sách thu thập thông tin. Điều này có thể có vấn đề vì nó có thể có nghĩa là ngân sách thu thập dữ liệu đang bị lãng phí trên các URL có giá trị thấp trong khi các URL có giá trị cao hơn nhưng được thu thập dữ liệu ít hơn so với mong đợi.

Ví dụ về các URL có giá trị thấp có thể tiêu tốn ngân sách thu thập dữ liệu là:

URL có tham số theo dõi và số nhận dạng phiên
Nội dung trùng lặp trên trang web
Phân loại theo nhiều khía cạnh
Các trang kết quả tìm kiếm trang web
Các trang lỗi mềm, chẳng hạn như các sản phẩm đã ngừng sản xuất

Các vấn đề với URL có giá trị thấp

Tác động đến ngân sách thu thập dữ liệu

Hầu hết các công cụ tìm kiếm sẽ cung cấp cho bạn số liệu thống kê về số lượng trang được thu thập dữ liệu mỗi ngày trong giao diện quản trị trang web của họ (chẳng hạn như Google Search Console hoặc Bing Webmaster Tools).

Ngoài ra, bạn có thể phân tích các tệp nhật ký máy chủ ghi lại mỗi khi một trang được công cụ tìm kiếm yêu cầu và cung cấp dữ liệu chính xác nhất về những URL được thu thập thông tin và tần suất ra sao.

Khi nào cần cân nhắc đến Crawl budget?

Quản lý ngân sách thu thập dữ liệu không phải là điều cần lo lắng trên phần lớn các trang web. Bởi các trang web có ít hơn vài nghìn URL và các trang mới có thể được thu thập dữ liệu trong một ngày. Điều này có nghĩa là ngân sách thu thập dữ liệu không phải là thứ cần chú ý đối với những site nhỏ.

Cài đặt ưu tiên cho các trang quan trọng

Việc quản lý hoạt động thu thập dữ liệu được cân nhắc nhiều hơn đối với các trang web lớn và những trang web tự động tạo nội dung dựa trên các tham số URL.

Vì vậy, những trang web lớn có thể làm gì để tác động đến hoạt động thu thập dữ liệu của các bot công cụ tìm kiếm nhằm đảm bảo các trang có giá trị cao của họ được thu thập dữ liệu thường xuyên?

Cách tác động đến ngân sách thu thập dữ liệu

Cài đặt ưu tiên cho các trang quan trọng

Các trang web lớn phải đảm bảo tệp .htaccess và robots.txt không ngăn trình thu thập thông tin truy cập vào các trang có mức độ ưu tiên cao trên trang web. Ngoài ra, trình thu thập dữ liệu web cũng có thể thu thập dữ liệu các tệp CSS và JavaScript.

Các trang không được lập chỉ mục

Với các kích thước site khác nhau bất kỳ, sẽ luôn có những trang mà bạn muốn không cho phép lập chỉ mục từ các công cụ tìm. Một vài ví dụ bao gồm:

Các trang trùng lặp hoặc gần trùng lặp – Các trang có nội dung chủ yếu trùng lặp sẽ không được phép.
URL được tạo động – Chẳng hạn như kết quả tìm kiếm tại chỗ cũng không được phép.
Nội dung sơ sài hoặc có giá trị thấp – Các trang có ít nội dung hoặc ít nội dung có giá trị cũng là những ứng cử viên tốt để bị loại khỏi chỉ mục.

Robots.txt

Tệp robots.txt được sử dụng để cung cấp hướng dẫn cho trình thu thập dữ liệu web bằng Giao thức loại trừ rô-bốt. Không cho phép các thư mục và trang không được thu thập dữ liệu trong tệp robots.txt là một phương pháp tốt để giải phóng ngân sách thu thập dữ liệu có giá trị trên các trang web lớn.

Thẻ meta robot ngăn lập chỉ mục & X-Robots-Tag

Hướng dẫn không cho phép rô bốt.txt không đảm bảo rằng một trang sẽ không được thu thập thông tin và hiển thị trong kết quả tìm kiếm. Các công cụ tìm kiếm sử dụng thông tin khác, chẳng hạn như liên kết nội bộ, có thể điều hướng trình thu thập thông tin web đến một trang đáng lý phải được bỏ qua.

Để ngăn hoàn toàn các trình thu thập thông tin của công cụ tìm kiếm lập chỉ mục một trang, thẻ meta sau phải được đặt trong phần của trang.

<meta name=”robot” content=”noindex”>

Một giải pháp thay thế cho thẻ meta rô-bốt ngăn lập chỉ mục là trả lại X-Robots-Tag: tiêu đề ngăn lập chỉ mục để phản hồi yêu cầu trang.

HTTP/1.1 200 OK

Date: Tue, 25 May 2010 21:42:43 GMT

(…)

X-Robots-Tag: noindex

(…)

Quản lý tham số/mở rộng URL

Một nguyên nhân phổ biến gây lãng phí ngân sách thu thập dữ liệu là do quản lý kém các tham số và URL; được gọi là mở rộng URL. Chiến lược tốt nhất để tránh việc mở rộng URL trên một trang web là thiết kế nó sao cho các URL chỉ được tạo cho các trang duy nhất và hữu ích.

Nếu đã xảy ra sự cố với việc mở rộng URL trên một trang web, bạn nên thực hiện một số bước để giải quyết vấn đề này:

Ngừng sử dụng các tham số vô ích – Đây là những tham số không tạo ra những thay đổi có ý nghĩa đối với nội dung trên trang và có thể bao gồm ID phiên, tham số theo dõi và tham số sắp xếp.
Viết hoa đồng nhất – Đảm bảo rằng tất cả các URL đều có chung một cách viết hoa, tức là tất cả chữ thường hoặc chữ hoa.
Dấu gạch chéo ở cuối – Kiểm tra xem tất cả các URL có tuân theo cùng một quy tắc về dấu gạch chéo ở cuối hay không, tức là mọi URL đều có dấu gạch chéo ở cuối hoặc không.

Tất cả các URL không tuân theo các quy tắc trên sẽ được chuyển hướng đến phiên bản chuẩn của chúng. Bạn cũng nên đảm bảo tất cả các liên kết được cập nhật để trỏ đến các phiên bản chính tắc. Ngoài ra, bạn nên sử dụng rel=”nofollow” cho các URL không tuân theo các quy tắc này, tức là các liên kết đến các trang có tham số sắp xếp.

Liên kết nofollow

Việc sử dụng rel=”nofollow” sẽ yêu cầu các công cụ tìm kiếm không chuyển giá trị liên kết thông qua liên kết đó tới URL được liên kết. Có bằng chứng rõ ràng cho thấy rằng Googlebot sẽ tôn trọng thuộc tính nofollow và không đi theo liên kết để thu thập dữ liệu và khám phá nội dung. Điều này có nghĩa là quản trị viên web có thể sử dụng nofollow để kiểm duyệt hoạt động thu thập dữ liệu trong một trang web.

Cũng cần lưu ý rằng các liên kết ra bên ngoài không sử dụng thuộc tính rel=”nofollow” sẽ cung cấp một đường dẫn cho các bot của công cụ tìm kiếm thu thập dữ liệu tài nguyên được liên kết.

Sửa các liên kết bị hỏng

Nếu có các liên kết bị hỏng (external hoặc internal link) trên một trang web sẽ làm tiêu tốn ngân sách thu thập dữ liệu một cách không cần thiết. Số lượng các liên kết bị hỏng nên được theo dõi thường xuyên trên một trang web và giữ ở mức tối thiểu tuyệt đối.

Tránh các chuyển hướng không cần thiết

Chuyển hướng không cần thiết thường có thể xảy ra sau khi URL của trang đã được thay đổi, với chuyển hướng 301 được triển khai từ URL cũ sang URL mới. Tuy nhiên, các liên kết khác trên site có thể bị bỏ qua và không được cập nhật để phản ánh các URL mới, dẫn đến các chuyển hướng không cần thiết.

Chuyển hướng không cần thiết có thể trì hoãn việc thu thập thông tin và lập chỉ mục của URL mục tiêu. Cũng như ảnh hưởng đến trải nghiệm người dùng bằng cách tăng thời gian tải trang.

Ngân sách thu thập dữ liệu là gì?

Tại sao ngân sách thu thập dữ liệu bị hạn chế?

Tỷ lệ thu thập dữ liệu – Định nghĩa và giới hạn

Thế nào là nhu cầu thu thập dữ liệu?

Quản lý ngân sách thu thập dữ liệu