Noindex và nofollow & Disallow

Đăng ngày 23/11/2022

Ba từ trên nghe có vẻ giống như seo, nhưng chúng là những từ đáng để biết vì biết cách sử dụng chúng có nghĩa là bạn có thể ra lệnh cho googlebot.

Điều này thật thú vị. Vì vậy, hãy bắt đầu với những điều cơ bản: Có ba cách để bạn có thể kiểm soát phần nào trên trang web của mình được công cụ tìm kiếm thu thập thông tin:

  • noindex: Khi bạn thêm thẻ này vào một trang, bạn sẽ được thông báo rằng các trang hiếm sẽ không lập chỉ mục bất kỳ trang nào.
  • Chặn: Yêu cầu họ không thu thập dữ liệu các trang của bạn.
  • nofollow: Yêu cầu họ không theo các liên kết trên trang web của bạn.
  • noindex là gì?

    Đối với một số trang trên trang web này, nếu bạn không muốn bị công cụ tìm kiếm lập chỉ mục hoặc cấm rô-bốt thu thập dữ liệu, vui lòng sử dụng lệnh cấm lập chỉ mục trong thẻ meta. Hoặc một cách khác là sử dụng disallow trong robots.txt

    nofollow là gì?

    nofollow là một thuộc tính của sitelink (liên kết) hướng dẫn các công cụ tìm kiếm không sử dụng liên kết để tính thứ hạng trang. Nó được chỉ định như một mối quan hệ liên kết trong trang, nghĩa là: vì các công cụ tìm kiếm thường tính toán tầm quan trọng của một trang web bằng số lượng siêu liên kết từ các trang web khác, nên việc đặt nofollow cho phép tác giả trang web chỉ ra rằng sự tồn tại của liên kết là không quan trọng đối với việc công nhận trang web mục tiêu.

    Khái niệm và thông số kỹ thuật

    Giá trị nofollow ban đầu được đề xuất để ngăn spam blog. Tin rằng thư rác nhận xét đã ảnh hưởng đến toàn bộ cộng đồng viết blog, vào đầu năm 2005, Matt Cutts của Google và blogger Jason Shellen đã đề xuất giá trị của việc giải quyết vấn đề.

    Thông số kỹ thuật nofollow là bản quyền 2005-07 và tuân theo các chính sách bằng sáng chế miễn phí bản quyền như chính sách bằng sáng chế w3c 20040205 và ietf rfc 3667 & rfc 3668.

    Xem thêm các thẻ meta rô-bốt

    Google đã thông báo vào đầu năm 2005 rằng các siêu liên kết có rel=”nofollow” sẽ không ảnh hưởng đến xếp hạng trang của mục tiêu liên kết. Ngoài ra, các công cụ tìm kiếm yahoo, bing cũng tôn trọng giá trị thuộc tính này.

    Vào ngày 15 tháng 6 năm 2009, kỹ sư phần mềm Google Matt Cutts đã thông báo trên blog của mình rằng Googlebot đã thay đổi cách xử lý các liên kết không theo dõi để ngăn quản trị viên sử dụng nofollow để tạo xếp hạng trang.

    Ngày xửa ngày xưa, quản trị viên web sẽ đặt thẻ nofollow trên một số liên kết của họ để tối đa hóa thứ hạng của các trang khác. Kết quả của sự thay đổi này là việc sử dụng nofollow đã gây ra sự thay đổi về xếp hạng trang đối với các liên kết ra ngoài thông thường, khi chúng bắt đầu tính tổng số liên kết khi tính toán xếp hạng trang.

    Hệ thống mới chia xếp hạng trang cho tổng số liên kết ngược và không xem xét các liên kết nofollow hoặc theo dõi mà xếp hạng trang chỉ dựa trên các liên kết theo dõi hoặc thông thường. Cutts giải thích rằng nếu một trang có 5 liên kết bình thường và 5 liên kết nofollow, thứ hạng của trang sẽ được chia đều cho 10 liên kết và 5 liên kết bình thường sẽ nhiều hơn một lượt chia sẻ. Tuy nhiên, kể từ ngày 1 tháng 3 năm 2020, Google coi thuộc tính liên kết nofollow là một đề xuất, không phải là một lệnh, cho mục đích thu thập dữ liệu và lập chỉ mục.

    Xem thêm các kỹ thuật seo cơ bản

    Điều gì bị cấm?

    Việc cấm một trang có nghĩa là bạn đang yêu cầu các công cụ tìm kiếm không thu thập dữ liệu trang và điều này phải được thực hiện trong tệp robots.txt của trang web của bạn. Điều này hữu ích nếu bạn có nhiều trang hoặc tệp không hữu ích cho người đọc hoặc lưu lượng truy cập tìm kiếm, vì điều đó có nghĩa là công cụ tìm kiếm không lãng phí thời gian thu thập dữ liệu các trang này.

    Để thêm lệnh không cho phép, chỉ cần thêm phần sau vào tệp robots.txt của bạn:

    Không cho phép: /your_page_url/

    Một trang vẫn có thể được lập chỉ mục và xếp hạng nếu trang đó có các liên kết bên ngoài hoặc thẻ chính tắc trỏ đến trang đó, vì vậy, điều quan trọng là phải kết hợp các thẻ không cho phép và ngăn lập chỉ mục, như được giải thích bên dưới.

    Cảnh báo: Bằng cách cấm một trang, bạn đang xóa trang đó khỏi trang web của mình một cách hiệu quả. Các trang bị cấm không thể chuyển xếp hạng trang sang bất kỳ nơi nào khác – vì vậy bất kỳ liên kết nào trên các trang đó đều vô dụng theo quan điểm seo – và việc cấm các trang được cho là được đưa vào có thể gây hại cho kết quả lưu lượng truy cập của bạn, Vì vậy, hãy hết sức cẩn thận khi viết các chỉ thị vô hiệu hóa.

    Xem thêm cách thêm link nofollow trong wordpress

    Cách sử dụng noindex, nofollow, disallow

    Sử dụng noindex trong tệp robots.txt của bạn?

    Thẻ “noindex” trong tệp robots.txt của bạn cũng yêu cầu các công cụ tìm kiếm không đưa trang này vào kết quả tìm kiếm nhưng đó là cách nhanh hơn và dễ dàng hơn để ngăn nhiều trang được lập chỉ mục cùng một lúc . thời gian, đặc biệt nếu bạn có quyền truy cập vào tệp robots.txt. Ví dụ: bạn không thể lập chỉ mục bất kỳ url nào trong một thư mục cụ thể.

    Tuy nhiên, Google khuyên bạn không nên sử dụng phương pháp này: John Mueller nói rằng “bạn không nên dựa vào nó”.

    Làm cách nào để kết hợp ngăn lập chỉ mục và không cho phép?

    <3 out of index.noindex (robots.txt) + disallow: Điều này ngăn không cho trang xuất hiện trong chỉ mục và cũng ngăn trang được thu thập thông tin. Tuy nhiên, hãy nhớ rằng không có pagerank nào có thể vượt qua trang này.

    Để sử dụng lệnh không cho phép có lệnh ngăn lập chỉ mục trong tệp robots.txt của bạn, chỉ cần thêm hai lệnh này vào tệp robots.txt của bạn:

    Xem thêm các thẻ meta rô-bốt

    Thử nghiệm robots.txt với Search Console

    Công cụ kiểm tra robots.txt trong bảng điều khiển tìm kiếm (trong quá trình thu thập thông tin) là một cách phổ biến và rất hiệu quả để kiểm tra các phiên bản mới của tệp xem có lỗi nào trước khi chúng xuất hiện hay không hoặc để kiểm tra các url cụ thể để xem url đó có bị chặn không:

    Tuy nhiên, công cụ này không hoạt động chính xác như của google, với một số sắc thái trong việc cho phép/không cho phép va chạm có cùng độ dài.

    Công cụ kiểm tra robots.txt báo cáo những điều này là được phép, tuy nhiên google cho biết “Nếu kết quả không thuyết phục, người đánh giá robots.txt có thể chọn cho phép hoặc không cho phép thu thập thông tin. Hãy tin vào điều đó. Do đó, không nên dựa vào bất kỳ một trong những Kết quả được sử dụng rộng rãi.

    Xem thêm hướng dẫn cơ bản về robots.txt

    Tìm tất cả các trang không thể lập chỉ mục bằng deepcrawl

    Chạy thu thập dữ liệu thông thường mà không có bất kỳ giới hạn nào (nhưng có áp dụng các điều kiện của tệp robots.txt) để cho phép deepcrawl trả về tất cả các url của bạn và hiển thị cho bạn tất cả các trang có thể lập chỉ mục/không thể lập chỉ mục.

    Nếu bạn có một tham số url đã bị googlebot chặn bằng bảng điều khiển tìm kiếm, bạn có thể bắt chước cài đặt này để thu thập thông tin bằng cách sử dụng trường tham số rõ ràng trong cài đặt nâng cao > viết lại url.

    Sau đó, bạn có thể sử dụng các báo cáo sau để kiểm tra xem trang web có được thiết lập như bạn dự định trong lần thu thập thông tin đầu tiên hay không, sau đó kết hợp chúng với nhật ký thay đổi được tích hợp sẵn trong các lần thu thập thông tin tiếp theo.

    Xem thêm mẹo SEO nội dung

    Chỉ mục>Không có trang chỉ mục

    Báo cáo này sẽ hiển thị cho bạn tất cả các trang có chứa thẻ ngăn lập chỉ mục trong thông tin meta, tiêu đề http hoặc tệp robots.txt của chúng.

    Chỉ mục>Trang web không được phép

    Báo cáo này chứa tất cả các URL không thể thu thập thông tin do các quy tắc chặn trong tệp robots.txt của bạn. Có hai chỉ số này trong trang tổng quan báo cáo của bạn:

    Sử dụng các báo cáo trực quan của chúng tôi trong mỗi báo cáo của chúng tôi để kiểm tra các mẫu khám phá trong các thư mục và url cụ thể mà bạn có thể đã bỏ lỡ:

    Kiểm tra tệp robots.txt mới của bạn bằng deepcrawl

    Sử dụng tính năng ghi đè robots.txt của deepcrawl trong cài đặt nâng cao để trực tiếp thay thế tệp bằng tệp tùy chỉnh của bạn.

    Sau đó, bạn có thể sử dụng phiên bản thử nghiệm của mình thay vì phiên bản trực tiếp vào lần tiếp theo khi bạn bắt đầu thu thập thông tin.

    Báo cáo url không được phép thêm và xóa sau đó sẽ hiển thị chính xác url nào bị ảnh hưởng bởi tệp robots.txt đã thay đổi, giúp cho việc đánh giá trở nên rất đơn giản.

    Xem thêm về seo trang: Hướng dẫn cho người mới bắt đầu

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *