close
SEO

Robots.txt là gì? Cách tạo file robots.txt chuẩn SEO

Robots.txt là một tệp tin văn bản nằm trong thư mục gốc của trang web và cung cấp hướng dẫn cho các công cụ tìm kiếm thu thập thông tin về các trang mà họ có thể thu thập thông tin để lập chỉ mục.

Một trong những điều đầu tiên bạn cần phải kiểm tra và tối ưu hóa khi làm SEO của bạn là file robots.txt. Sự cố hoặc cấu hình sai trong robots.txt của bạn có thể gây ra các vấn đề SEO quan trọng có thể tác động tiêu cực đến thứ hạng và lượng truy cập của bạn.

Trong bài đăng này, bạn sẽ biết được file robots.txt là gì, tại sao bạn cần nó, làm thế nào để SEO tối ưu hóa nó và làm thế nào để kiểm tra rằng các công cụ tìm kiếm có thể truy cập nó mà không có bất kỳ vấn đề gì.

Cùng tìm hiểu với HoangGH nhé!

robot.txt là gì

File robots.txt là gì?

Robots.txt là một file văn bản để quan trị website khai báo cho phép hay không cho phép các user-agent của search engine (BOT) thu thập dữ liệu (crawl) trong tài nguyên một website.

Tệp này cũng dùng để ngăn trình thu thập dữ liệu request trang web của bạn quá nhiều, nó không phải là cơ chế để ẩn một trang web khỏi Google. Để ẩn một trang web khỏi Google, bạn nên sử dụng lệnh noindex (ngăn lập chỉ mục) với thẻ meta robots hoặc bảo vệ trang của bạn bằng mật khẩu cho một trang web.

Tại sao bạn cần tạo file robots.txt?

Việc tạo robots.txt cho website giúp bạn kiểm soát việc truy cập của các con Bots đến các khu vực nhất định trên trang web. Và điều này có thể vô cùng nguy hiểm nếu bạn vô tình sai một vài thao tác khiến Googlebot không thể index website của bạn. Tuy nhiên, việc tạo file robots.txt vẫn thật sự hữu ích bởi nhiều lí do:

  • Ngăn chặn nội dung trùng lặp (Duplicate Content) xuất hiện trong website (lưu ý rằng các Robot Meta thường là lựa chọn tốt hơn cho việc này)
  • Giữ một số phần của trang ở chế độ riêng tư
  • Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP
  • Chỉ định vị trí của Sitemap
  • Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, …)
  • Dùng lệnh Crawl-delay để cài đặt thời gian. Điều này sẽ ngăn việc máy chủ của bạn bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
robot.txt là gì

Cú pháp của file robots.txt

Các cú pháp được xem là ngôn ngữ riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến mà bạn sẽ bắt gặp trong một file robots.txt. Chúng bao gồm:

  • User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kì dữ liệu URL cụ thể nào. Mỗi
  • URL chỉ được sử dụng 1 dòng Disallow.
  • Allow (chỉ áp dụng cho bọ tìm kiếm Googlebot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
  • Crawl-delay: Thông báo cho các Web Crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
  • Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.

Pattern – Matching

Trên thực tế các file robots.txt WordPress khá phức tạp để có thể chặn hoặc cho phép các con bot vì chúng cho phép sử dụng tính năng Pattern-Matching để bao quát một loạt các tùy chọn của URL.

Tất cả các công cụ của Google và Bing cho phép sử dụng 2 biểu thức chính để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai kí tự này là dấu hoa thị (*) và ký hiệu đô la ($).

  • * là kí tự đại diện cho bất kì chuỗi kí tự nào – Có nghĩa là nó được áp dụng cho mọi loại Bots của các công cụ Google.
  • $ là kí tự khớp với phần cuối của URL.

Định dạng cơ bản của file robots.txt

Tệp robots.txt có định dạng cơ bản sau:

User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:

Tuy nhiên, bạn vẫn có thể lược bỏ các phần Crawl-delay và Sitemap. Đây là định dạng cơ bản của robots.txt WordPress hoàn chỉnh. Tuy nhiên trên thực tế thì file robots.txt chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng hơn.

Chẳng hạn như các dòng lệnh: Disallow, Allow, Crawl-delay, … Trong file robots.txt, bạn chỉ định cho nhiều con bot khác nhau. Mỗi lệnh thường được viết riêng biệt cách nhau bởi 1 dòng.

Trong một file robots.txt WordPress bạn có thể chỉ định nhiều lệnh cho các con bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file robots.txt có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.

File robots.txt chuẩn

Để chặn tất cả các Web Crawler không được thu thập bất kì dữ liệu nào trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *
Disallow: /

Để cho phép tất cả các trình thu thập thông tin truy cập vào tất cả các nội dung trên website bao gồm cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *
Disallow:

Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kì trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy sử dụng cú pháp sau:

User-agent: Googlebot
Disallow: /example-subfolder/

Để chặn trình thu thập thông tin của Bing (User-agent: Bing) tránh thu thập thông tin trên trang cụ thể tại www.example.com/example-subfolder/blocked-page. Chúng ta hãy sử dụng cú pháp sau:

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

Ví dụ cho file robots.txt chuẩn

Dưới đây là ví dụ về tệp robots.txt hoạt động cho trang web www.example.com:

User-agent: *
Disallow: /wp-admin/
Allow: /
Sitemap: https://www.example.com/sitemap_index.xml

Theo bạn, cấu trúc file robots.txt có ý nghĩa như thế nào? Để tôi giải thích. Điều này chứng tỏ bạn cho phép toàn bộ các công cụ của Google theo link www.example.com/sitemap_index.xml để tìm đến file robots.txt và phân tích. Cùng index toàn bộ các dữ liệu trong các trang trên website của bạn ngoại trừ trang www.example.com/wp-admin/.

File robots.txt hoạt động như thế nào?

Các công cụ tìm kiếm có 2 nhiệm vụ chính:

  • Crawl (cào/ phân tích) dữ liệu trên trang web để khám phá nội dung
  • Index nội dung đó để đáp ứng yêu cầu cho các tìm kiếm của người dùng
robot.txt hoạt động như thế nào

Để crawl được dữ liệu của website thì các công cụ sẽ đi theo các liên kết từ trang này đến trang khác. Cuối cùng, nó thu thập được dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình crawl dữ liệu này còn được biết đến với tên khác là “Spidering”.

Sau khi đến một trang web, trước khi spidering thì các con bot của công cụ Google sẽ tìm các file robots.txt WordPress. Nếu nó tìm thấy được 1 tệp robots.txt thì nó sẽ đọc tệp đó đầu tiên trước khi tiến hành các bước tiếp theo.

File robots.txt sẽ chứa các thông tin về cách các công cụ của Google nên thu thập dữ liệu của website. Tại đây các con bot này sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.

Nếu tệp robots.txt không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file robots.txt cho website thì các con bots sẽ tiến hành thu thập các thông tin khác trên web.

File robots.txt ở đâu trên một trang web?

Bất cứ khi nào các công cụ tìm kiếm và các robot thu thập dữ liệu đến một trang web (như trình thu thập thông tin của Facebook , Facebot) đều tìm kiếm tệp robots.txt. Nhưng, họ sẽ chỉ tìm tệp đó ở một nơi cụ thể: thư mục gốc (thường là tên miền gốc hoặc trang chủ của bạn).

Ví dụ, nếu site của bạn đặt trong thư mục gốc của địa chỉ hoanggh.com, bạn sẽ có thể truy cập file robots.txt ở đường dẫn hoanggh.com/robots.txt, kết quả ban đầu sẽ tương tự như sau:

User-agent: *
Disallow:

file robots.txt nằm ở đâu

Cách kiểm tra xem bạn có tệp robots.txt không

Nếu bạn khoogn chắc chắn mình có tệp robots.txt? Chỉ cần nhập tên miền gốc của bạn, sau đó thêm /robots.txt vào cuối URL. Chẳng hạn, tệp robots của HoangGH được đặt tại hoanggh.com/robots.txt.

Sitemap hoanggh

Nếu không có trang .txt xuất hiện, bạn hiện không có trang robots.txt.

Cách tạo file robots.txt

Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn giản là bạn đang muốn thay đổi tệp robots.txt của mình. Hãy tham khảo các cách tạo robots.txt dưới đây

Tạo rồi upload file robots.txt qua FTP

Bạn chỉ mất vài phút để tạo file robots.txt này bằng tay. Sử dụng Notepad hoặc Textedit để tạo mẫu file robots.txt theo Rule tôi đã giới thiệu ở đầu viết. Sau đó upload file này qua FTP, quá trình này rất đơn giản không tốn bạn quá nhiều thời gian đâu.

Upload file robots.txt qua FTP

Sử dụng Plugin Yoast SEO

Nếu website của bạn được tạo trên nền tảng WordPress. Bạn có thể chỉnh sửa hoặc tạo file robots.txt trên chính WordPress Dashboard với vài bước đơn giản. Đăng nhập vào website của bạn, khi đăng nhập vào bạn sẽ thấy giao diện của trang Dashboard.

Nhìn phía bên trái màn hình, click vào SEO > Tools > File editor.

tạo robots.txt trên Yoast SEO

Vào phần Tools của SEO

tạo robots.txt trên Yoast SEO

Bấm vào File Editor để bắt đầu tạo Robots.txt

Tính năng file editor sẽ không xuất hiện nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Do vậy hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).

Lúc này bạn sẽ thấy mục robots.txt và .htaccess file – đây là nơi giúp bạn tạo file robots.txt đấy.

tạo robots.txt trên Yoast SEO

Điều chỉnh và tạo file robots.txt trực tiếp trên Yoast SEO

Qua bộ Plugin All in One SEO

Hoặc bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress – Đơn giản, dễ sử dụng.

Để tạo file robots.txt WordPress, bạn phải đến giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active cho mục robots.txt

Lúc này, trên giao diện sẽ xuất hiện nhiều tính năng thú vị:

Nhấn Activate để kích hoạt robots.txtNhấn Activate để kích hoạt robots.txt

Nhấn Activate để kích hoạt Robots.txt

Và khi đó, mục robots.txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Bạn có thể tạo lập cũng như điều chỉnh file robots.txt tại đây.

Tạo lập và điều chỉnh file robots.txt WordPress

Tạo lập và điều chỉnh file robots.txt WordPress tại đây

Tuy nhiên, bộ plugin này có một chút khác biệt so với Yoast SEO tôi vừa đề cập ở trên.

All in One SEO làm mờ đi thông tin của file robots.txt thay vì bạn được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến bạn hơi bị động một chút khi chỉnh sửa file robots.txt. Tuy nhiên, tích cực mà nói, yếu tố này sẽ giúp bạn hạn chế thiệt hại cho website của mình. Đặc biệt một số Malware bots sẽ gây hại cho website mà bạn không ngờ tới.

Một số quy tắc khi tạo file robots.txt

  • Để được các con bot tìm thấy thì các file robots.txt phải được đặt trong các thư mục cấp cao nhất của trang web.
  • Txt phân biệt chữ hoa và chữ thường. Vì thế tệp phải được đặt tên là robots.txt. (không phải Robots.txt hay robots.TXT, …)
  • Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công cụ nhìn nhận chính xác về giao diện blog hay website của bạn.
  • Một số User-agent chọn cách bỏ qua các file robots.txt chuẩn của bạn. Điều này khá phổ biến với các User-agent bất chính như:
  • Malware robots (bot của các đoạn mã độc hại)
  • Các trình Scraping (quá trình tự thu thập thông tin) địa chỉ Email
  • Các tệp robots.txt thường có sẵn và được công khai trên web. Bạn chỉ cần thêm /robots.txt vào cuối bất kì Root Domain để xem các chỉ thị của trang web đó. Điều này có nghĩa là bất kì ai cũng thấy các trang bạn muốn hoặc không muốn crawl. Vì vậy đừng sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.
  • Mỗi Subdomain trên một một Root Domain sẽ sử dụng các file robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com nên có các tệp robots.txt riêng (blog.example.com/robots.txt và example.com/robots.txt). Tóm lại, đây được xem là cách tốt nhất để chỉ ra vị trí của bất kì sitemaps nào được liên kết với domain ở cuối tệp robots.txt.

Một số lưu ý khi sử dụng file robots.txt

Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được các bot theo dõi. Trừ khi các link này có liên kết với các trang khác (các trang không bị chặn bởi robots.txt, Meta Robots,…). Nếu không, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.

Link juice sẽ không được truyền từ các trang bị chặn đến các trang đích. Vì thế nếu muốn dòng sức mạnh Link juice truyền qua các trang này thì bạn hãy sử dụng một phương pháp khác thay vì tạo robots.txt.

Không nên sử dụng file robots.txt để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) xuất hiện trong kết quả SERP. Bởi vì trang web chứa thông tin cá nhân này có thể liên kết với nhiều trang web khác. Do đó các con bot sẽ bỏ quá các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn, nên trang web này vẫn có thể được lập chỉ mục.

Nếu bạn muốn chặn trang web này khỏi các kết quả tìm kiếm, hãy sử dụng một phương pháp khác thay vì tạo file robots.txt như dùng mật khẩu bảo vệ hay Noindex Meta Directive. Một số công cụ tìm kiếm có rất nhiều User-agent. Chẳng hạn, Google sử dụng Googlebot cho các tìm kiếm miễn phí và Googlebot-Image cho các tìm kiếm hình ảnh.

Hầu hết các User-agent từ cùng một công cụ đều tuân theo một quy tắc. Do đó bạn không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên việc làm này vẫn có thể giúp bạn điều chỉnh được cách Index nội dung trang web.

Các công cụ tìm kiếm sẽ lưu trữ nội dung file robots.txt. Tuy nhiên nó vẫn thường cập nhật nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp của mình nhanh hơn thì hãy sử dụng ngay chức năng Gửi của Trình kiểm tra tệp robots.txt.

Kết luận

Vậy là bạn đã biết file robots.txt là gì chưa? Đã kiểm tra xem website của mình đã có file robots.txt hay chưa? Tạo lập và chỉnh sửa file robots.txt theo ý của bạn nhằm hỗ trợ các con bot của công cụ tìm kiếm thu thập dữ liệu và index trang web của bạn nhanh chóng.

Chúc bạn thành công!

HoangGH

Tác giả HoangGH