URL level Robots Directives

URL level Robots Directives

Trong hướng dẫn trước, chúng tôi đã giới thiệu cho bạn tệp robots.txt là gì và cách sử dụng tệp này. Bây giờ chúng ta sẽ xem xét một vài cách khác nhau mà bạn có thể áp dụng các chỉ thị robot ở cấp độ trang để hướng dẫn một số quy tắc mà các bot của công cụ tìm kiếm nên tuân theo để xử lý các trang trên website của bạn.

Chỉ thị robot cấp URL là gì?

Chỉ thị rô bốt là các phần mã cung cấp hướng dẫn cho trình thu thập dữ liệu trang web về cách thu thập dữ liệu hoặc lập chỉ mục nội dung của trang. Thẻ meta robot cho phép tiếp cận chi tiết để kiểm soát cách các trang cụ thể được lập chỉ mục và hiển thị trong các trang kết quả của công cụ tìm kiếm.

Chỉ thị robot cấp URL là gì

Chúng tồn tại ở đâu?

Chỉ thị rô-bốt có thể tồn tại trong tiêu đề phản hồi HTTP hoặc đầu HTML. Nếu chúng xuất hiện trong một trang cụ thể, chúng phải nằm trong phần <head> để các công cụ tìm kiếm có thể đọc và hiểu được.

X-Robots-Tags được đặt trong tiêu đề phản hồi HTTP và rất hữu ích để kiểm soát việc lập chỉ mục nội dung không phải html, chẳng hạn như tệp PDF, tài liệu video hoặc từ mà không thể thêm chỉ thị rô bốt vào đầu HTML.

Dưới đây là một vài cân nhắc xung quanh X-Robots-Tags:

  • Cần lưu ý rằng việc triển khai X-Robots-Tags sẽ không ngưng được việc lãng phí ngân sách thu thập dữ liệu vì các bot của công cụ tìm kiếm vẫn được yêu cầu truy cập trang để tìm chỉ thị, không giống như tệp robots.txt.
  • Cung cấp nhiều X-Robot-Tags trong tiêu đề phản hồi HTTP sẽ tạo thành các hướng dẫn phức tạp hơn cho bot, ví dụ: thẻ X-Robots không lưu trữ có thể được kết hợp với thẻ X-Robots không khả dụng.
  • Nếu có bất kỳ xung đột nào giữa các chỉ thị, bot của công cụ tìm kiếm sẽ thực hiện phương pháp thận trọng và áp dụng chỉ thị hạn chế nhất, ví dụ: x-robots noindex và chỉ mục meta có nghĩa là trang sẽ không được lập chỉ mục.

Làm thế nào để chúng được áp dụng?

Các công cụ tìm kiếm cần thu thập dữ liệu một trang để xem các chỉ thị này. Chúng chỉ có thể được theo dõi và hiểu nếu trình thu thập thông tin có quyền truy cập vào trang, do đó, thêm thẻ ngăn lập chỉ mục sau đó disallowed trang trong tệp robots.txt có sẽ khiến các công cụ tìm kiếm sẽ không nhìn thấy thẻ meta ngăn lập chỉ mục.

Bạn cũng có thể tạo các chỉ thị rô-bốt kết hợp bằng cách tách chúng bằng dấu phẩy. Ví dụ: bạn có thể sử dụng tổ hợp sau để hướng dẫn trình thu thập thông tin không lập chỉ mục một trang mà đi theo tất cả các liên kết trên một trang:

Trong thẻ meta HTML: <meta name=”robots” content=”noindex, follow”>

Trong tiêu đề HTTP: X-Robots-Tag: noindex, follow

Đặt hướng dẫn cho các tác nhân người dùng cụ thể?

Bạn có thể giải quyết các tác nhân người dùng cụ thể và hướng dẫn họ cách lập chỉ mục một trang cụ thể bằng cách bao gồm một thuộc tính name=“” khác nhau. Ví dụ: bạn có thể yêu cầu Bing không lập chỉ mục một trang có thẻ meta:

<meta name=“bingbot” content=“noindex” />

Nếu bạn muốn giải quyết các tác nhân người dùng khác nhau và cung cấp cho họ các hướng dẫn khác nhau, bạn có thể sử dụng đa dạng chỉ thị rô-bốt trong các thẻ meta riêng biệt.

Ngăn lập chỉ mục

Trong phần hướng dẫn này, chúng tôi sẽ giải thích thẻ ngăn lập chỉ mục là gì và cách sử dụng thẻ này cho SEO.

Ngăn lập chỉ mục là làm gì?

Noindex cho biết các công cụ tìm kiếm sẽ thu thập dữ liệu một trang nhưng không đưa trang đó vào chỉ mục của chúng. Nó ngăn một trang xuất hiện trong các trang kết quả của công cụ tìm kiếm (SERPs) một cách hiệu quả. Nó rất hữu ích để giữ cho các trang không liên quan, không cần thiết được lập chỉ mục được index vô tội vạ, điều này để lại hậu quả là tình trạng phình to chỉ mục.

Google sẽ vẫn thu thập dữ liệu các trang không lập chỉ mục, nhưng ít thường xuyên hơn các trang có thể lập chỉ mục, vì vậy điều này có thể giúp cải thiện việc sử dụng ngân sách thu thập dữ liệu của bạn.

Noindex đưa ra hướng dẫn trực tiếp về cách xử lý một trang, trái ngược với ‘Chỉ mục’ không làm gì vì đó là trạng thái mặc định cho các công cụ tìm kiếm.

Thẻ noindex được trình bày như thế nào?

Đây là cách thẻ meta ngăn lập chỉ mục xuất hiện trong phần đầu HTML:

<head>

<meta name=”robots” content=”noindex” />

(…)

</head>

Đây là cách X-Robots-Tag ngăn lập chỉ mục xuất hiện trong tiêu đề HTTP:

HTTP/1.1 200 OK

Date: Fri, 21 July 2017 21:00:00 GMT

(…)

X-Robots-Tag: noindex

Tại sao bạn có thể sử dụng noindex?

Có một số lý do khác nhau khiến bạn có thể muốn sử dụng thẻ ngăn lập chỉ mục cho các trang cụ thể trên trang web của mình, có thể bao gồm:

Ngăn chặn việc lập chỉ mục các trang chất lượng thấp hoặc mỏng không cung cấp bất kỳ nội dung hữu ích nào cho người dùng.

Giữ cho nội dung chưa sẵn sàng sẽ không được đưa vào SERPs.

Ngừng lập chỉ mục các trang truy vấn tìm kiếm nội bộ không cần thiết.

Đảm bảo các trang được phân trang không được hiển thị cho người dùng. Nếu bạn đang gặp sự cố với các trang được phân trang đang có lượt truy cập tự nhiên và tạo ra trải nghiệm người dùng kém, thì có thể đáng để sử dụng “noindex, follow” trên trang 2 trở lên để đảm bảo PA vẫn được truyền giữa các trang với nhau nhưng chính trang đó sẽ không xuất hiện.

Loại trừ các trang tiếp thị không dành cho tìm kiếm tự nhiên từ SERPs, chẳng hạn như email dành riêng hoặc trang đích của chiến dịch PPC.

Đặt hướng dẫn cho các tác nhân người dùng cụ thể

Khi nào bạn không nên sử dụng noindex?

Noindex có thể là một giải pháp hữu ích để giúp giảm tình trạng phình to chỉ mục, nhưng nó không phải là câu trả lời cho mọi thứ. Dưới đây là một số ví dụ mà bạn không nên sử dụng noindex:

  • Đối với các trang điều hướng theo khía cạnh – Công cụ tìm kiếm vẫn sẽ lãng phí ngân sách thu thập dữ liệu khi vẫn tiếp tục cào các trang này. Việc ngăn lập chỉ mục tất cả các trang trong một phần lớn của trang web là một phương pháp không phù hợp vì các trang này vẫn phải được thu thập thông tin.
  • Đối với các trang đã được Canonical – Giá trị liên kết có thể không được quy cho phiên bản chính nếu bạn ngăn lập chỉ mục một trang đã được chuẩn hóa. Điều này có nghĩa là các tín hiệu và PA có được xây dựng trên trang sẽ bị mất và sẽ không được truyền đi. Nếu thẻ canonical bị Google bỏ qua, cuối cùng họ có thể chọn phiên bản ngăn lập chỉ mục của trang làm chuẩn, sau đó tuân theo chỉ thị ngăn lập chỉ mục.
  • Đối với hình ảnh – Hình ảnh xuất hiện trên trang không được lập chỉ mục vẫn có thể được lập chỉ mục vì thẻ hình ảnh được coi là một liên kết hơn là một lệnh. Thay vào đó, noindex có thể được triển khai trong tiêu đề HTTP của tệp hình ảnh hoặc bạn có thể sử dụng “noimageindex”, chúng tôi sẽ trình bày sau trong hướng dẫn này.

Nofollow

Nào bây giờ chúng ta sẽ tiếp tục tìm hiểu thẻ nofollow về công dụng và cách sử dụng thẻ này thật hiệu quả.

Nofollow hoạt động như thế nào?

Nofollow yêu cầu trình thu thập thông tin không theo bất kỳ liên kết nào trên một trang hoặc không theo một liên kết cụ thể (tùy thuộc vào việc triển khai và thực hiện), nghĩa là không có giá trị liên kết nào được chuyển đến URL mục tiêu. Để hạn chế thu thập thông tin và cải thiện hiệu quả của trình thu thập thông tin, bạn có thể sử dụng nofollow để ngăn không cho các URL truyền đi sức mạnh đến các trang được cào dữ liệu.

Không cần phải làm hành động gì để sử dụng Follow vì đây là thuộc tính mặc định cho các công cụ tìm kiếm nên không bắt buộc. Nofollow là một lệnh vì nó đi ngược lại mặc định và đưa ra một hướng dẫn.

Điều quan trọng cần lưu ý là các mục tiêu liên kết nofollow vẫn sẽ được thu thập thông tin nếu chúng được liên kết đến bất kỳ nơi nào mà không có thẻ nofollow, vì vậy bạn cần đảm bảo rằng nó được sử dụng một cách nhất quán. Ngoài ra, nếu bạn có hai liên kết trên một trang đến cùng một mục tiêu, nhưng một liên kết không được theo dõi, thì Google sẽ chỉ thu thập dữ liệu liên kết có thể được truyền đi sức mạnh.

Google tôn trọng chỉ thị nofollow và sẽ không chuyển PageRank qua các liên kết đó. Bing cũng phản hồi nofollow, tuy nhiên, đối với Google và Bing, một trang không được theo dõi vẫn có thể xuất hiện trong chỉ mục của họ nếu trang đó được liên kết đến mà không có nofollow bên trong hoặc bên ngoài. Nofollow cũng hoạt động cho Baidu và trọng lượng liên kết sẽ không được tính khi có chỉ thị này. Yandex không hỗ trợ nofollow và thay vào đó khuyên bạn nên sử dụng noindex.

Cách triển khai Nofollow

Nếu bạn muốn triển khai nofollow ở cấp độ trang, điều này sẽ ngăn việc thu thập thông tin tất cả các liên kết trên trang đó, bao gồm các liên kết <a>, liên kết chính tắc và liên kết thay thế. Trong trường hợp này, bạn sẽ đưa đoạn mã này vào phần <head>:

<head>

<meta name=”robots” content=”nofollow”>

(…)

</head>

Khi triển khai nofollow ở cấp độ liên kết riêng lẻ, bạn sẽ bao gồm đoạn mã này vào nơi bạn sẽ đặt liên kết trong HTML:

<a href=”example.html” rel=’nofollow”>here</a>

Quy tắc nghiêm ngặt nhất thắng với nofollow và chỉ thị hạn chế nhất được áp dụng, vì vậy điều này có nghĩa là meta nofollow cấp độ trang sẽ ghi đè lên một cấp độ liên kết theo dõi, ví dụ

Tại sao bạn có thể sử dụng nofollow?

Có nhiều lý do khiến bạn có thể sử dụng nofollow cho các trang hoặc liên kết cụ thể trên trang web của mình. Dưới đây là một số ví dụ mà bạn có thể sử dụng nofollow:

  • Liên kết phải trả tiền – chẳng hạn như ngăn các liên kết vị trí sản phẩm phải trả tiền trên blog chuyển giá trị liên kết vốn có, tuân theo phương pháp hay nhất của Google xung quanh việc xử lý các liên kết không phải trả tiền.
  • Tiếp thị liên kết – Tương tự như các liên kết trả tiền, nếu các công cụ tìm kiếm tin rằng bạn chỉ thêm các liên kết để kiếm tiền mà không mang lại lợi ích thực sự cho người dùng, trang web của bạn có thể bị phạt nếu bạn không thêm nofollow vào các liên kết của mình.
  • UGC (nội dung do người dùng tạo) – Đảm bảo rằng trang web của bạn không “chứng nhận” nội dung chất lượng thấp mà bạn không có đủ quyền kiểm soát.
  • Điều hướng theo khía cạnh – Hiệu quả của trình thu thập thông tin có thể được cải thiện đáng kể cho các trang web thương mại điện tử lớn hơn bằng cách loại bỏ các khía cạnh không hữu ích đang được liên kết đến.
  • Nội dung nhúng – Nội dung được nhúng từ các trang web khác có thể sử dụng nofollow nếu bạn không muốn bị coi là ủng hộ chúng.
  • Tập trung trình thu thập thông tin – Hướng nó đến các URL mà bạn thực sự muốn được truy cập.
  • Liên kết đến các trang noindex – Nofollow những trang này sẽ tiết kiệm ngân sách thu thập thông tin vì các liên kết này sẽ được theo dõi đến các trang sẽ không được lập chỉ mục.

Các chỉ thị về rô-bốt khác

Các chỉ thị về rô-bốt khác

Có một số chỉ thị khác mà bạn có thể sử dụng để giao tiếp với các công cụ tìm kiếm về cách xử lý các trang trên trang web của bạn. Dưới đây là một số ví dụ và cách mỗi người trong số họ làm việc.

None

<meta name=”robot” content=”none”>

Chỉ thị này tương đương với “noindex, nofollow.” Về cơ bản, nó hướng dẫn các công cụ tìm kiếm rằng trang đó nên được bỏ qua.

Noarchive

<meta name=”robot” content=”noarchive”>

Chỉ thị này hướng dẫn các công cụ tìm kiếm không hiển thị liên kết được lưu trong bộ nhớ cache trong kết quả tìm kiếm. Nó cũng có thể được sử dụng để ngăn các đối thủ cạnh tranh lấy nội dung của bạn, điều này đặc biệt hữu ích trên các trang web thương mại điện tử nơi giá cập nhật thường xuyên.

Tuy nhiên, điều quan trọng cần lưu ý là lệnh này ngăn người dùng xem phiên bản được lưu trong bộ nhớ cache của trang khi trang web của bạn ngừng hoạt động hoặc không thể truy cập được.

Nosnippet

<meta name=”robot” content=”nosnippet”>

Chỉ thị này hướng dẫn các công cụ tìm kiếm không hiển thị đoạn mã cho trang này trong kết quả tìm kiếm. Nosnippet hữu ích nếu bạn muốn có nhiều quyền kiểm soát hơn đối với những gì sẽ hiển thị cho người dùng về nội dung của trang web, điều này có thể dẫn đến tăng CTR tùy thuộc vào truy vấn tìm kiếm.

Notranslate

<meta name=”robot” content=”notranslate”>

Chỉ thị này hướng dẫn các công cụ tìm kiếm không cung cấp bản dịch của trang trong các trang kết quả. Điều này có thể hữu ích vì bạn có thể không muốn dịch nội dung trên trang của mình vì đôi khi bản dịch tự động không chính xác.

Bạn cũng có thể chỉ định các phần của trang không được dịch bằng một lớp:

<div class=”notranslate”>

<…>

</div>

Noimageindex

<meta name=”robots” content=”noimageindex”>

Chỉ thị này hướng dẫn các công cụ tìm kiếm không lập chỉ mục hình ảnh trên trang. Sẽ rất hữu ích nếu bạn không muốn người khác xuất bản lại hình ảnh của mình thành hình ảnh của riêng họ, đặc biệt nếu chúng có bản quyền. Tuy nhiên, nếu hình ảnh được liên kết đến nơi khác trên một trang web, các công cụ tìm kiếm vẫn sẽ lập chỉ mục cho chúng, vì vậy thẻ x-robots có thể là một lựa chọn tốt hơn.

Unavailable_after

<meta name=”robot” content=”unavailable_after: Thứ Hai, ngày 11 tháng 6-18 12:00:00 UTC”>

Chỉ thị này hướng dẫn các công cụ tìm kiếm không hiển thị trang trong các trang kết quả sau một ngày hoặc thời gian đã chỉ định. Điều này hữu ích cho các trang có liên quan đến một khung thời gian cụ thể, chẳng hạn như trang đăng ký sự kiện hoặc trang đích quảng cáo (ví dụ: Black Friday). Nội dung sẽ được gỡ chỉ mục sau khi sự kiện kết thúc và bạn không còn yêu cầu trang xuất hiện nữa.

Đối với các trang có khoảng thời gian hữu ích hạn chế, việc sử dụng “unavailable_after” sẽ thuận tiện hơn là đặt lệnh cấm lập chỉ mục trên trang vào một ngày sau đó.

Noodp

<meta name=”robot” content=”noodp”>

Lệnh này hướng dẫn các công cụ tìm kiếm không sử dụng siêu dữ liệu từ dự án Open Directory cho các tiêu đề hoặc đoạn trích được hiển thị cho trang này. Tuy nhiên, điều này gần đây đã bị mất giá và DMOZ không còn tồn tại.

Scroll to Top