File Robot.txt - Hướng dẫn chi tiết cách sử dụng hiệu quả

Trong phần này của hướng dẫn về chỉ thị robots.txt, chúng ta sẽ đi vào chi tiết hơn về tệp văn bản robots.txt và cách nó có thể được sử dụng để hướng dẫn trình thu thập dữ liệu web của công cụ tìm kiếm. Tệp này đặc biệt hữu ích để quản lý ngân sách thu thập dữ liệu và đảm bảo các công cụ tìm kiếm dành thời gian trên trang web của bạn một cách hiệu quả và chỉ thu thập dữ liệu các trang quan trọng.

File robots txt được dùng cho mục đích gì?

Tệp robots.txt ở đó để thông báo cho trình thu thập thông tin và rô bốt biết những URL nào chúng không nên truy cập trên trang web của bạn. Điều này rất quan trọng để giúp chúng tránh thu thập dữ liệu các trang chất lượng thấp hoặc bị mắc kẹt trong các bẫy thu thập dữ liệu, nơi vô số URL có thể được tạo, ví dụ: phần lịch tạo URL mới cho mỗi ngày.

Như Google giải thích trong hướng dẫn thông số kỹ thuật robots.txt của họ, định dạng tệp phải là văn bản thuần túy được mã hóa bằng UTF-8. Các bản ghi (hoặc dòng) của tệp phải được phân tách bằng CR, CR/LF hoặc LF.

Bạn nên lưu ý đến kích thước của tệp robots.txt vì các công cụ tìm kiếm có giới hạn kích thước tệp tối đa của riêng chúng. Kích thước tối đa cho Google là 500KB.

Robot.txt nên xuất hiện ở đâu?

Robot.txt phải luôn tồn tại trên tên miền gốc, ví dụ:

Tệp này dành riêng cho giao thức và miền đầy đủ, vì vậy tệp robots.txt trên https://www.example.com không gây ảnh hưởng đến quá trình cào của https://www.example.com hoặc https://subdomain.example.com. Chính vì thế, chúng cần các file robots.txt riêng biệt.

Khi nào bạn nên sử dụng quy tắc robots.txt?

Nói chung, các trang web nên cố gắng sử dụng robots.txt càng ít càng tốt để có thể kiểm soát việc thu thập dữ liệu. Cải thiện cấu trúc trang web của bạn, làm cho nó sạch sẽ và dễ truy cập đối với trình thu thập dữ liệu là một giải pháp tốt hơn nhiều. Tuy nhiên, bạn nên sử dụng robots.txt khi cần thiết để ngăn trình thu thập thông tin truy cập vào các phần chất lượng thấp của trang web nếu không thể khắc phục những sự cố này trong thời gian ngắn.

Google khuyên bạn chỉ nên sử dụng robots.txt khi sự cố máy chủ đang xảy ra hoặc đối với các vấn đề về hiệu quả thu thập dữ liệu, chẳng hạn như Googlebot dành nhiều thời gian để thu thập dữ liệu một phần không thể lập chỉ mục của trang web chẳng hạn.

Một số ví dụ về các trang mà bạn có thể không muốn bị thu thập thông tin là:

Các trang danh mục có cách sắp xếp không theo tiêu chuẩn vì điều này thường tạo ra sự trùng lặp với trang danh mục chính
Nội dung do người dùng tạo không thể kiểm duyệt
Các trang có thông tin nhạy cảm
Các trang tìm kiếm nội bộ vì có thể có vô số trang kết quả này cung cấp trải nghiệm người dùng kém và lãng phí ngân sách thu thập dữ liệu

Khi nào bạn không nên sử dụng robots.txt?

Tệp robots.txt là một công cụ hữu ích nếu được sử dụng đúng cách, tuy nhiên, có những trường hợp nó không phải là giải pháp tốt nhất. Dưới đây là một số ví dụ về thời điểm không sử dụng robots.txt để kiểm soát hoạt động thu thập dữ liệu:

Khi nào bạn nên sử dụng quy tắc robots.txt — Khi nào bạn không nên sử dụng quy tắc robots.txt

Chặn Javascript/CSS

Các công cụ tìm kiếm cần có khả năng truy cập tất cả các tài nguyên trên trang web của bạn để hiển thị chính xác các trang, đây là một phần cần thiết để duy trì thứ hạng tốt. Các tệp JavaScript làm thay đổi đáng kể trải nghiệm người dùng nhưng không được các công cụ tìm kiếm cho phép thu thập dữ liệu có thể dẫn đến các hình phạt thủ công hoặc theo thuật toán.

Ví dụ: nếu bạn phân phát quảng cáo xen kẽ hoặc chuyển hướng người dùng bằng JavaScript mà công cụ tìm kiếm không thể truy cập, điều này có thể được coi là kỹ thuật che giấu và thứ hạng nội dung của bạn có thể được điều chỉnh tương ứng.

Chặn tham số URL

Bạn có thể sử dụng robots.txt để chặn các URL chứa thông số cụ thể, nhưng đây không phải lúc nào cũng là cách xử lý tốt nhất. Tốt hơn là nên xử lý những điều này trong Google Search console vì ở đó có nhiều tùy chọn dành riêng cho tham số hơn để truyền đạt các phương pháp thu thập dữ liệu ưa thích cho Google.

Bạn cũng có thể đặt thông tin trong một đoạn URL (/page#sort=price), vì các công cụ tìm kiếm không thu thập thông tin này. Ngoài ra, nếu một tham số URL phải được sử dụng, các liên kết đến tham số đó có thể chứa thuộc tính rel=nofollow để ngăn trình thu thập thông tin cố gắng truy cập tham số đó.

Chặn URL có backlink

Việc không cho phép các URL trong tệp robots.txt ngăn vốn chủ sở hữu liên kết đi qua trang web. Điều này có nghĩa là nếu các công cụ tìm kiếm không thể theo các liên kết từ các trang web khác vì URL mục tiêu không được phép, thì trang web của bạn sẽ không có thẩm quyền cho các liên kết đó đi qua và kết quả là bạn có thể không được xếp hạng tổng thể.

Bắt các trang được lập chỉ mục được khử chỉ mục

Việc sử dụng Không cho phép không khiến các trang bị hủy lập chỉ mục và ngay cả khi URL bị chặn và các công cụ tìm kiếm chưa bao giờ thu thập dữ liệu trang, các trang không được phép vẫn có thể được lập chỉ mục. Điều này là do quá trình thu thập thông tin và lập chỉ mục phần lớn là riêng biệt.

Đặt quy tắc bỏ qua trình thu thập dữ liệu mạng xã hội

Ngay cả khi bạn không muốn các công cụ tìm kiếm thu thập thông tin và lập chỉ mục các trang, bạn có thể muốn các mạng xã hội có thể truy cập các trang đó để có thể tạo đoạn mã trang. Ví dụ: Facebook sẽ cố gắng truy cập mọi trang được đăng trên mạng để họ có thể cung cấp một đoạn trích có liên quan. Hãy ghi nhớ điều này khi đặt quy tắc cho tệp robots.txt.

Chặn truy cập từ các trang dàn dựng hoặc nhà phát triển

Sử dụng robots.txt để chặn toàn bộ trang dàn dựng không phải là phương pháp hay nhất. Google khuyên bạn nên ngăn lập chỉ mục các trang nhưng cho phép chúng được thu thập thông tin, nhưng nói chung, tốt hơn là làm cho trang web không thể truy cập được từ thế giới bên ngoài.

Khi bạn không có gì để chặn

Một số trang web có kiến trúc rất sạch sẽ không cần phải chặn trình thu thập thông tin từ bất kỳ trang nào. Trong tình huống này, việc không có tệp robots.txt và trả về trạng thái 404 khi được yêu cầu là hoàn toàn có thể chấp nhận được.

Cú pháp và định dạng của Robots.txt

Bây giờ chúng ta đã biết robots.txt là gì và khi nào thì nên và không nên sử dụng nó, chúng ta hãy xem các quy tắc định dạng và cú pháp được tiêu chuẩn hóa cần tuân thủ khi viết tệp robots.txt.

Bình luận

Nhận xét là những dòng hoàn toàn bị các công cụ tìm kiếm bỏ qua và bắt đầu bằng dấu #. Chúng tồn tại để cho phép bạn viết ghi chú về chức năng của từng dòng trong tệp robots.txt của bạn, tại sao nó tồn tại và khi nào nó được thêm vào. Nói chung, bạn nên ghi lại mục đích của từng dòng trong tệp robots.txt của mình để có thể xóa dòng đó khi không còn cần thiết và không bị sửa đổi khi vẫn cần thiết.

Chỉ định tác nhân người dùng

Một khối quy tắc có thể được áp dụng cho các tác nhân người dùng cụ thể bằng cách sử dụng chỉ thị “Tác nhân người dùng”. Chẳng hạn, nếu bạn muốn một số quy tắc nhất định áp dụng cho Google, Bing và Yandex; nhưng không phải Facebook và mạng quảng cáo, vấn đề này có thể được giải quyết bằng cách chỉ định mã thông báo tác nhân người dùng mà một bộ quy tắc áp dụng.

Mỗi trình thu thập thông tin có mã thông báo tác nhân người dùng riêng, được sử dụng để chọn các block phù hợp.

Trình thu thập thông tin sẽ tuân theo hầu hết các quy tắc tác nhân người dùng đã được lên danh sách với những cái tên phân tách bằng dấu gạch ngang. Sau đó, trình thu thập thông tin sẽ quay trở lại xử lý các quy tắc chung hơn nếu chúng không tìm thấy đối sánh chính xác. Ví dụ: Googlebot News sẽ tìm kết quả khớp của ‘googlebot-news’, rồi đến ‘googlebot’, rồi đến ‘*’.

Dưới đây là một số mã thông báo tác nhân người dùng phổ biến nhất mà bạn sẽ gặp:

* – Các quy tắc áp dụng cho mọi bot, trừ khi có một bộ quy tắc cụ thể hơn

Googlebot – Tất cả các trình thu thập thông tin của Google

Googlebot-News – Trình thu thập dữ liệu cho Google Tin tức

Googlebot-Image – Trình thu thập dữ liệu cho Google Hình ảnh

Mediapartners-Google – Trình thu thập dữ liệu của Google Adsense

Bingbot – Trình thu thập dữ liệu của Bing

Yandex – Trình thu thập thông tin của Yandex

Baiduspider – Trình thu thập thông tin của Baidu

Facebot – Trình thu thập thông tin của Facebook

Twitterbot – Trình thu thập dữ liệu của Twitter

Danh sách mã thông báo tác nhân người dùng này không có nghĩa là đầy đủ, vì vậy, để tìm hiểu thêm về một số trình thu thập dữ liệu hiện có, hãy xem tài liệu do Google, Bing, Yandex, Baidu, Facebook và Twitter xuất bản.

Việc khớp mã thông báo tác nhân người dùng với khối robots.txt không phân biệt chữ hoa chữ thường. Ví dụ. ‘googlebot’ sẽ khớp với mã thông báo tác nhân người dùng của Google ‘Googlebot’.

URL phù hợp với mẫu

Bạn có thể có một chuỗi URL cụ thể mà bạn muốn chặn không cho thu thập thông tin vì điều này hiệu quả hơn nhiều so với việc bao gồm một danh sách đầy đủ các URL hoàn chỉnh sẽ bị loại trừ trong tệp robots.txt của bạn.

Để giúp bạn tinh chỉnh đường dẫn URL của mình, bạn có thể sử dụng ký hiệu * và $. Đây là cách chúng hoạt động:

* – Đây là ký tự đại diện và đại diện cho bất kỳ số lượng ký tự nào. Nó có thể ở đầu hoặc ở giữa đường dẫn URL, nhưng không bắt buộc ở cuối. Bạn có thể sử dụng nhiều ký tự đại diện trong một chuỗi URL, ví dụ: “Disallow: */products?*sort=”. Các quy tắc có đường dẫn đầy đủ không được bắt đầu bằng ký tự đại diện.

$ – Ký tự này biểu thị phần cuối của chuỗi URL, vì vậy “Disallow: */dress$” sẽ chỉ khớp với các URL kết thúc bằng “/dress” chứ không phải “/dress?parameter”.

Cần lưu ý rằng các quy tắc của tệp robots.txt phân biệt chữ hoa chữ thường, nghĩa là nếu bạn không cho phép các URL có tham số “tìm kiếm” (ví dụ: “Không cho phép: *?search=”), rô bốt vẫn có thể thu thập dữ liệu các URL có cách viết hoa khác, chẳng hạn như “?Tìm kiếm = bất cứ thứ gì”.

Các quy tắc chỉ thị chỉ khớp với đường dẫn URL và không thể bao gồm giao thức hoặc tên máy chủ. Dấu gạch chéo ở đầu lệnh khớp với phần đầu của đường dẫn URL. Ví dụ. “Disallow: /starts” sẽ khớp với www.example.com/starts.

Trừ khi bạn thêm lệnh start a khớp với / hoặc *, nó sẽ không khớp với bất kỳ thứ gì. Ví dụ. “Disallow: bắt đầu” sẽ không bao giờ khớp với bất kỳ thứ gì.

Để giúp hình dung cách hoạt động của các quy tắc URL khác nhau, chúng tôi đã tổng hợp một số ví dụ cho bạn:

Liên kết Sơ đồ trang web Robots.txt

Chỉ thị sơ đồ trang web trong tệp robots.txt cho các công cụ tìm kiếm biết nơi tìm sơ đồ trang web XML, giúp chúng khám phá tất cả các URL trên trang web. Để tìm hiểu thêm về sơ đồ trang web, hãy xem hướng dẫn của chúng tôi về kiểm tra sơ đồ trang web và cấu hình nâng cao.

Khi bao gồm sơ đồ trang web trong tệp robots.txt, bạn nên sử dụng URL tuyệt đối (ví dụ: https://www.example.com/sitemap.xml) thay vì URL tương đối (ví dụ: /sitemap.xml.) Cũng cần lưu ý rằng sơ đồ trang web không ‘không cần phải ngồi trên một tên miền gốc, chúng cũng có thể được lưu trữ trên một tên miền bên ngoài.

Các công cụ tìm kiếm sẽ khám phá và có thể thu thập dữ liệu các sơ đồ trang web được liệt kê trong tệp robots.txt của bạn, tuy nhiên, các sơ đồ trang web này sẽ không xuất hiện trong Google Search Console hoặc Bing Webmaster Tools nếu không gửi thủ công.

Robot.txt blocks

Quy tắc “không cho phép” trong tệp robots.txt có thể được sử dụng theo nhiều cách khác nhau cho các tác nhân người dùng khác nhau. Trong phần này, chúng tôi sẽ đề cập đến một số cách khác nhau mà bạn có thể định dạng các tổ hợp khối.

Điều quan trọng cần nhớ là các lệnh trong tệp robots.txt chỉ là hướng dẫn. Các trình thu thập dữ liệu độc hại sẽ bỏ qua tệp robots.txt của bạn và thu thập dữ liệu bất kỳ phần nào của trang web công khai, vì vậy không nên sử dụng lệnh cấm thay cho các biện pháp bảo mật mạnh mẽ.

Đa khối tác nhân người dùng

Bạn có thể khớp một khối quy tắc với nhiều tác nhân người dùng bằng cách liệt kê chúng trước một bộ quy tắc, ví dụ: các quy tắc không cho phép sau đây sẽ áp dụng cho cả Googlebot và Bing trong khối quy tắc sau:

User-agent: googlebot

User-agent: bing

Disallow: /a

Khoảng cách giữa các khối lệnh

Google sẽ bỏ qua khoảng cách giữa các lệnh và khối. Trong ví dụ đầu tiên này, quy tắc thứ hai sẽ được chọn, mặc dù có khoảng trắng ngăn cách hai phần của quy tắc:

[code]

User-agent: *

Disallow: /disallowed/

Disallow: /test1/robots_excluded_blank_line

[/code]

Trong ví dụ thứ hai này, Googlebot-mobile sẽ kế thừa các quy tắc giống như Bingbot::

[code]

User-agent: googlebot-mobile

User-agent: bing

Disallow: /test1/deepcrawl_excluded

[/code]

Các khối riêng biệt được kết hợp

Nhiều khối với cùng một tác nhân người dùng được kết hợp. Vì vậy, trong ví dụ bên dưới, các khối trên cùng và dưới cùng sẽ được kết hợp và Googlebot sẽ không được phép thu thập dữ liệu “/b” và “/a”.

User-agent: googlebot
Disallow: /b

User-agent: bing
Disallow: /a

User-agent: googlebot
Disallow: /a.

Quy tắc cho phép trong Robots.txt

Quy tắc “cho phép” trong robots.txt cho phép một số URL nhất định được thu thập thông tin một cách rõ ràng. Mặc dù đây là mặc định cho tất cả các URL nhưng quy tắc này có thể được sử dụng để ghi đè lên quy tắc không cho phép. Ví dụ: nếu “/locations” không được phép cào, bạn có thể cho phép thu thập dữ liệu “/locations/london” bằng cách áp dụng quy tắc cụ thể là “Allow: /locations/london”.

Mức độ ưu tiên của tệp Robots.txt

Khi một số quy tắc cho phép và không cho phép áp dụng cho một URL, quy tắc đối sánh dài nhất là quy tắc được áp dụng. Hãy xem điều gì sẽ xảy ra với URL “/home/search/shirt” với các quy tắc sau:

Disallow: /home

Allow: *search/*

Disallow: *shirts

Trong trường hợp này, URL được phép thu thập thông tin vì quy tắc Cho phép có 9 ký tự, trong khi quy tắc không cho phép chỉ có 7 ký tự. Nếu bạn cần cho phép hoặc không cho phép một đường dẫn URL cụ thể, bạn có thể sử dụng * để làm cho chuỗi dài hơn. Ví dụ:

Disallow: *******************/shirts

Khi một URL phù hợp với cả quy tắc cho phép và quy tắc không cho phép, nhưng các quy tắc có cùng độ dài, thì quy tắc không cho phép sẽ được tuân theo. Ví dụ: URL “/search/shirt” sẽ không được phép trong trường hợp sau:

Disallow: /search

Allow: *shirts

Chỉ thị robot.txt

Các chỉ thị ở cấp độ trang (mà chúng tôi sẽ đề cập sau trong hướng dẫn này) là những công cụ tuyệt vời, nhưng vấn đề với chúng là các công cụ tìm kiếm phải thu thập dữ liệu một trang trước khi có thể đọc các hướng dẫn này, điều này có thể tiêu tốn ngân sách thu thập dữ liệu.

Chỉ thị robot.txt có thể giúp giảm tải cho ngân sách thu thập thông tin vì bạn có thể thêm chỉ thị trực tiếp vào tệp robots.txt của mình thay vì đợi công cụ tìm kiếm thu thập dữ liệu trang tiến hành hoạt động của nó. Giải pháp này nhanh hơn và dễ quản lý hơn nhiều.

Các lệnh robots.txt sau đây hoạt động giống như các lệnh cho phép và không cho phép, trong đó bạn có thể chỉ định các ký tự đại diện (*) và sử dụng ký hiệu $ để biểu thị phần cuối của chuỗi URL.

Robots.txt noIndex

Robots.txt noindex là một công cụ hữu ích để quản lý việc lập chỉ mục của công cụ tìm kiếm mà không cần sử dụng đến ngân sách thu thập dữ liệu. Không cho phép cào thông int một trang trong robots.txt không có nghĩa là trang đó bị xóa khỏi chỉ mục, do đó, lệnh ngăn lập chỉ mục sẽ hiệu quả hơn nhiều để sử dụng cho mục đích này.

Google không chính thức hỗ trợ robots.txt noindex và bạn không nên dựa vào nó vì mặc dù nó hoạt động hôm nay nhưng nó có thể không hoạt động vào ngày mai. Mặc dù vậy, công cụ này có thể hữu ích và nên được sử dụng như một giải pháp khắc phục ngắn hạn kết hợp với các biện pháp kiểm soát chỉ mục dài hạn khác, nhưng tất nhiên không cần quá coi trọng. Hãy xem thử nghiệm của ohgm và Stone Temple, cả hai đều chứng minh rằng tính năng này hoạt động hiệu quả.

Đây là một ví dụ về cách bạn sẽ sử dụng robots.txt noindex:

[code]

User-agent: *

NoIndex: /directory

NoIndex: /*?*sort=

[/code]

Cũng như lệnh cấm lập chỉ mục, Google hiện không chính thức tuân theo một số lệnh lập chỉ mục khác khi chúng được đặt trong tệp robots.txt. Điều quan trọng cần lưu ý là không phải tất cả các công cụ tìm kiếm và trình thu thập dữ liệu đều hỗ trợ các lệnh này và những công cụ tìm kiếm có thể ngừng hỗ trợ chúng bất kỳ lúc nào – bạn không nên dựa dẫm quá nhiều vào những lệnh này.

Các vấn đề phổ biến về robots.txt

Có một số vấn đề chính và các cân nhắc đối với tệp robots.txt và tác động của nó đối với hiệu suất của trang web. Chúng tôi đã dành thời gian để liệt kê một số điểm chính cần xem xét với robots.txt cũng như một số vấn đề phổ biến nhất mà chúng tôi hy vọng bạn có thể tránh được.

Có khối quy tắc dự phòng cho tất cả các bot – Sử dụng khối quy tắc cho các chuỗi tác nhân người dùng cụ thể mà không có khối quy tắc dự phòng cho các con bot khác sẽ khiến cho website phải đối mặt với tình trạng một con bot bất kỳ cào website nhưng không tồn tại bất kỳ bộ quy tắc nào để nó tuân theo.

Điều quan trọng là phải luôn cập nhật robots.txt – Một vấn đề tương đối phổ biến xảy ra khi robots.txt được đặt trong giai đoạn phát triển ban đầu của trang web, nhưng không được cập nhật khi trang web phát triển, nghĩa là các trang có thể hữu ích đang không được phép cào dữ liệu.

Lưu ý chuyển hướng công cụ tìm kiếm thông qua các URL không được phép – Ví dụ: /product > /disallowed > /category

Phân biệt chữ hoa chữ thường có thể gây ra nhiều vấn đề – Quản trị viên web có thể mong đợi một phần của trang web không được thu thập thông tin, nhưng những trang đó có thể được thu thập thông tin do các cách viết hoa thay thế, tức là “Disallow: /admin” đang tồn tại, nhưng các công cụ tìm kiếm vẫn thu thập thông tin tại “/ADMIN”.

Không cho phép các URL được liên kết ngược – Điều này ngăn PageRank chuyển đến trang web của bạn khi các bài viết khác đang trỏ và liên kết về bài viết của bạn

Độ trễ thu thập thông tin có thể gây ra sự cố tìm kiếm – Lệnh “crawl-delay” buộc trình thu thập thông tin truy cập trang web của bạn chậm hơn mức thông thường, nghĩa là các trang quan trọng của bạn có thể được thu thập thông tin ít hơn mức tối ưu. Chỉ thị này không được Google hoặc Baidu tuân theo, nhưng được hỗ trợ bởi Bing và Yandex.

Đảm bảo rằng tệp robots.txt chỉ trả lại mã trạng thái 5xx nếu toàn bộ trang web ngừng hoạt động – Việc trả lại mã trạng thái 5xx cho /robots.txt cho các công cụ tìm kiếm biết rằng trang web đang ngừng hoạt động để bảo trì. Điều thông báo cho các con bọ sẽ quay trở lại thu thập dữ liệu sau.

Robots.txt không cho phép sẽ ghi đè công cụ xóa tham số – Hãy lưu ý rằng quy tắc robots.txt của bạn có thể ghi đè việc xử lý tham số và bất kỳ gợi ý lập chỉ mục nào khác mà bạn có thể đã cung cấp cho công cụ tìm kiếm.

Đánh dấu Hộp tìm kiếm liên kết trang web sẽ hoạt động với các trang tìm kiếm nội bộ bị chặn – Các trang tìm kiếm nội bộ trên một trang web không cần phải thu thập thông tin để đánh dấu Hộp tìm kiếm liên kết trang web hoạt động.

Việc không cho phép một miền được di chuyển sẽ ảnh hưởng đến sự thành công của quá trình di chuyển – Nếu bạn không cho phép một miền được di chuyển, các công cụ tìm kiếm sẽ không thể theo bất kỳ chuyển hướng nào từ trang cũ sang trang mới, vì vậy quá trình di chuyển khó có thể thành công.

Các vấn đề phổ biến về robots.txt

Kiểm tra & chỉnh sửa Robots.txt

Xem xét mức độ nguy hại của tệp robots.txt nếu các lệnh bên trong không được kiểm soát đúng cách, có một số cách khác nhau mà bạn có thể kiểm tra để đảm bảo rằng nó đã được thiết lập đúng cách. Hãy xem hướng dẫn này về cách kiểm tra các URL bị chặn bởi robots.txt, cũng như các ví dụ sau:

Sử dụng Lumar – Báo cáo Trang không được phép và URL không được phép (chưa được thu thập thông tin) trong Lumar có thể cho bạn biết trang nào đang bị chặn khỏi công cụ tìm kiếm bởi tệp robots.txt của bạn.

Sử dụng Google Search Console – Với công cụ kiểm tra robot.txt GSC, bạn có thể xem phiên bản được lưu trong bộ nhớ cache mới nhất của trang, cũng như sử dụng công cụ Tìm nạp và kết xuất để xem kết xuất từ tác nhân người dùng Googlebot cũng như tác nhân người dùng trình duyệt. Những điều cần lưu ý: GSC chỉ hoạt động đối với tác nhân Người dùng của Google và chỉ có thể kiểm tra các URL đơn lẻ.

Hãy thử kết hợp thông tin chi tiết từ cả hai công cụ bằng cách kiểm tra tại chỗ các URL không được phép mà Lumar đã gắn cờ trong công cụ kiểm tra robot.txt của GSC để làm rõ các quy tắc cụ thể dẫn đến việc không được phép.

Giám sát các thay đổi của robots.txt

Khi có nhiều người làm việc trên một trang web và các sự cố có thể xảy ra với lý do đơn giản khi chỉ có một ký tự không đúng chỗ trong tệp robots.txt, thì việc liên tục theo dõi robots.txt của bạn là rất quan trọng. Dưới đây là một số cách mà bạn có thể kiểm tra bất kỳ vấn đề nào:

Kiểm tra Google Search Console để xem robots.txt hiện tại mà Google đang sử dụng. Đôi khi, robots.txt có thể được phân phối có điều kiện dựa trên tác nhân người dùng, vì vậy, đây là phương pháp duy nhất để xem chính xác những gì Google đang thấy.

Kiểm tra kích thước của tệp robots.txt nếu bạn nhận thấy những thay đổi đáng kể để đảm bảo tệp nằm dưới giới hạn kích thước 500 KB của Google.

Truy cập báo cáo Trạng thái chỉ mục của Google Search Console ở chế độ nâng cao để kiểm tra chéo các thay đổi của tệp robots.txt với số lượng URL không được phép và được phép trên trang web của bạn.

Lên lịch thu thập dữ liệu thường xuyên với Lumar để xem số lượng trang không được phép trên trang web của bạn một cách liên tục, nhờ đó bạn có thể theo dõi các thay đổi.

seo.com.vn – Nền tảng SEO số 1 Việt Nam

Robot txt

File robots txt được dùng cho mục đích gì?

Robot.txt nên xuất hiện ở đâu?

Khi nào bạn nên sử dụng quy tắc robots.txt?