1900 6891         info@vdo.com.vn

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt

Để website của bạn đạt thứ hạng cao trên công cụ tìm kiếm thì việc xây dựng một file Robots.txt theo chuẩn là điều không thể thiếu. Hôm nay mình sẽ giúp bạn tìm hiểu về Robots.txt và cách quản lý file Robots.txt nhé!

Đúng dịp kỷ niệm 20 năm ra đời của file robots.txt thì Google Webmaster Tools đã cho bản cập nhật mới là mục URL bị chặn trong file này nhằm giúp bạn kiểm tra những lỗi hoặc cảnh báo mà Google tìm thấy.Đối với những người làm Marketing online đặc biệt là các SEOer thì tầm quan trọng của file robots.txt không cần phải nói nhiều.Nhưng đối với những người có ít kiến thức về file này thì dễ mắc sai lầm và kéo theo là các công cụ tìm kiếm có thể index rất ít hoặc không bao giờ index website của họ.Điều này quả thật hết sức tai hại vậy:

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt

1. Robots.txt là gì và Tại sao chúng ta cần nó?

Robots.txt: Là một file đặt trong thu mục Root, tệp tin này chứa hoàn toàn nội dung văn bản text (không phải HTML).

Nó cho phép người quản trị Web (Webmaster) định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm. Nói cách khác thông qua tệp tin này, nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm(SE) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.

Cụ thể hơn các file robots.txt là cơ sở giúp cho các công cụ tìm kiếm thu thập dữ liệu trang web của bạn một cách hiệu quả.File này sẽ thông báo tới các công cụ tìm kiếm rằng những nội dung nào được phép truy cập, những mục không được phép truy cập, các đường dẫn có nội dung trùng lặp, xóa những đường dẫn hỏng, hay khai báo địa chỉ sitemap của website.Đây là một công cụ cực kỳ hữu ích để quản trị website của bạn nên bạn cần phải hiểu làm thế nào để sử dụng và kiểm tra nó.Có ba loại cấp độ trong file robots.txt:

+Cấp Trang

Disallow: /trangvidu.html

+Cấp thư mục

Disallow: /thư mục ví dụ/

+Chỉ thị ký tự đại diện

Bất cứ một trang con nào của một thư mục (Disallow: /thư mục ví dụ/*)

Một loại file (Disallow: / *.Pdf)

Dưới đây là nhưng sai lầm phổ biến mà bạn dễ mắc phải trong file robots.txt:

Disallow: /

Không cho các công cụ tìm kiếm thu thập bất cứ điều gì từ website của bạn

Disallow: /image/

Disallow: /video/

Không cho phép công cụ tìm kiếm thu thập nội dung hình ảnh hoặc video từ website của bạn

Disallow: / *.css.

Disallow: / *.js.

Không cho phép công cụ tìm kiếm truy cập vào CSS và JavaScript của bạn.

Disallow: /*.pdf

Disallow: /*.doc.

Không cho phép thu thập những file dạng này.Nếu quản trị viên không muốn người dùng đến với trang web của mình qua những kết quả có dạng file doc hay pdf này.

Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của web site, ví dụ: http://www.example.com/robots.txt.

>> Xem thêm: Bounce Rate – cách làm sao để giảm tỷ lệ Bounce Rate

2. Hướng dẫn sử dụng Robots.txt

– Khóa toàn bộ website không cho bot đánh chỉ mục

User-agent: *
Disallow:
 /

==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE

– Không cho phép bot truy cập vào thư mục nào mà mình không muốn

Lấy lại ví dụ trên :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

==> Điều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ 2 thư mục wp-admin và wp-includes

– Chặn 1 trang

Disallow: /lien-he.html

– Loại bỏ 1 hình từ  Google Images

User-agent: Googlebot-Image
Disallow: /images/hinh.png

– Chặn một bot nào đó

User-agent: SpamBot
Disallow: /

User-agent: *
Disallow: /wp-admin/

Disallow: /wp-includes/

==> Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Và bot SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác  được truy cập tất cả trừ thư mục “wp-admin ” và “wp-includes”

User-agent: SpamBot
Disallow: /admin/
Disallow: /includes/
Disallow: /config/config.php

User-agent: *
Disallow: /admin/
Disallow: /includes/

==> Không cho phép SpamBot truy cập các thư mục được liệt kê như: thư mục “admin”, “includes” và và file “config.php” . Còn các bot khác được truy cập mọi thứ trừ hai thư mục “admin” và “includes”.

– sử dụng đồng thời “Allow” và “Disallow” cùng nhau

User-agent: Googlebot
Disallow: /vidu/
Allow: /vidu/demo-thoi-nha.html

== > có nghĩa là chặn Googlebot truy cập vào tài nguyên có trong thư mục “vidu”  .Nhưng chỉ có thể truy cập được file “demo-thoi-nha.html”

User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: /

== > Chặn không cho Googlebot truy cập vào tài nguyên trên website, nhưng lại cho phép Googlebot-Mobile truy cập vào tài nguyên trên website bạn

>> Tham khảo: Top 25 công cụ miễn phí có thể giúp bạn tối ưu hóa trang web

3. Nên tránh những sai sót sau

khi các bạn sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót

– Phân biệt chữ hoa chữ thường.

– Không được viết dư, thiếu khoảng trắng.

– Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.

– Mỗi một câu lệnh nên viết trên 1 dòng.

4. Quản lý Robots.txt

Google hiện tại đã giúp bạn quản lý tập tin robots.txt một cách rất tốt.Nhưng, trước tiên chúng ta hãy xem qua công cụ Bing.

Webmaster Tools của Bing thu thập thông tin theo nội dung file robots.txt là  khá tốt bởi vì bạn có thể xem tất cả các trang bị loại khỏi xem công cụ tìm kiếm và các liên kết trang đó không được tính.Bạn xem ví dụ dưới đây sẽ thấy:

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt 2

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt 2

Bên cạnh Bing Webmaster Tools, bạn cũng có thể xem lại các URL đã disallow trong robots.txt bằng công cụ SEMRush Beta Audit.

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt 3

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt 3

Trong khi SEMRush đang cảnh báo giúp bạn các vấn đề mà bạn đang mắc phải trên trang web của mình, thì công cụ Siteliner: http://www.siteliner.com/ cho phép bạn kiểm tra vấn đề trùng lặp nội dung trên trang web mình để từ đó sửa lại file robots.txt.

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt 4

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt 4

Cuối cùng, là công cụ Google Webmaster Tools Robots.txt Tester.Các công cụ khác giúp bạn hiểu những gì đang tồn tại trong file robots.txt của bạn, nhưng công cụ này sẽ giúp bạn thấy những gì Google nhận thấy là lỗi trong file đó.

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt 5

Tìm hiểu về Robots.txt và cách quản lý file Robots.txt 5

 Kết luận

Robots.txt sử dụng đúng cách có thể giúp bạn hỗ trợ công cụ tìm kiếm thu thập dữ liệu.File này sẽ không xóa ngay nội dung từ các công cụ tìm kiếm như các thẻ meta noindex, nhưng trên các trang tìm kiếm tại thời điểm đó các mục hay đường dẫn này sẽ không còn được index và bắt đầu rớt hạng và biến mất dần.

Mình đã chia sẻ thông tin về Robots.txt với bạn, hy vọng sẽ giúp ích với bạn trong quá trình SEO hiệu quả. Hãy chia sẻ kinh nghiệm khác về Robots.txt mà bạn biết để chúng ta cũng tham khảo nhé!

Chúc các bạn thành công!

Tham khảo thêm về các dịch vụ khác của chúng tôi như dịch vụ thiết kế website khách sạn tại https://webbee.vn/thiet-ke-website-khach-san/

Hotline tư vấn miễn phí
Sale & Support 24/7

HÀ NỘI

TP HCM