Một trong những yếu tố quan trọng mà các bạn cần phải chú trọng trong việc kiểm tra và tối ưu hóa trong kỹ thuật SEO đó chính là Robots.txt. Bất kì xuất hiện một sự cố hay cấu hình nào bị sai trong File Robots.txt của các bạn thì cũng đều có thể gây nên những vấn đề về SEO, làm tác động tiêu cực trực tiếp đến thứ hạng của trang website trên bảng tìm kiếm. Robot.txt là một tập tin về văn bản nằm trong phần thư mục gốc của trang website. Robot.txt giúp cung cấp hướng dẫn cho các công cụ trong việc tìm kiếm những dữ liệu về các site mà chúng ta có thể thu thập được những thông tin, dữ liệu để có thể lập chỉ mục. Vậy thì Robot.txt là gì? Và cách để có thể tạo ra file Robot.txt chuẩn SEO như thế nào? Cùng công ty thiết kế website TpHCM Nhật Nam Media tham khảo qua bài viết dưới đây nhé!

Contents
File robots.txt là gì?
Robots.txt là một dạng file văn bản để quản trị website khai báo về việc cho phép hay là không cho phép các đại lý người dùng (user-agent) của máy tìm kiếm (search engine) (BOT) thu thập các dữ liệu trên website, phần truy cập, index về nội dung cũng như là cung cấp nội dung đó cho khách hàng.
Tệp này cũng thường được dùng để giúp ngăn chặn phần trình thu thập dữ liệu về lời yêu cầu ở trang website của các bạn quá nhiều, nó không phải là phương pháp để có thể ẩn một trang website ra khỏi Google. Để có thể ẩn được một trang website ra khỏi Google, các bạn hãy nên sử dụng lệnh ngăn lập chỉ mục ( no index) kết hợp cùng với thẻ meta robots hoặc là bảo vệ trang của các bạn bằng cách tạo nên mật khẩu cho trang website của mình.
File robots.txt được xem giống như là một tập tin đơn giản chuyên được đưa vào sử dụng trong phần quản trị của trang website. Nó là một phần của Giao thức loại trừ rô bốt (REP) trong đó có chứa một nhóm những tiêu chuẩn của một website theo như quy định. Tác dụng của File robots.txt đó là giúp cho những nhà quản lý website có được sự thích nghi cũng như là giúp chủ động hơn trong việc kiểm soát được con bot trên Google.
File robots.txt còn được sử dụng để phục vụ cho việc cấp quyền để chỉ mục cho các con bot ở phần công cụ tìm kiếm. Và bất kỳ một trang website nào cũng hãy nên sử dụng File robots.txt, đặc biệt nó như kiểu sinh ra để dành cho những trang website lớn hoặc là đang xây dựng.
Vai trò của File robots.txt đối với website
- Chặn bot từ phía google trong quá trình xây dựng trên một trang website
- Chèn Sitemap vào
- Chặn bot quét backlink
- Chặn những thư mục cần phải bảo mật
Các mã nguồn của trang website thông thường sẽ đều có những thư mục cần phải được bảo mật. Ví dụ như là cgi-bi, phpinfo.php,memcached, wp-includes, wp-admin…
Những trang website này chắc chắn sẽ không được lập mục lục (index). Bởi một khi mà đã công khai được nội dung lên trên internet, thì các hacker mạng rất có thể sẽ dễ lấy cắp đi những thông tin mật quan trọng, thậm chí là có thể tấn công luôn cả vào hệ thống của website các bạn. Lúc này robots.txt sẽ có công dụng đó là giúp ngăn chặn được việc google index những nội dung này.

- Chặn tất cả những mã độc hại
- Chăn bot đối với những trang thương mại điện tử
Một số hạn chế của robots.txt
Trong thế giới khách quan thì luôn luôn xuất hiện mặt tích cực và tiêu cũ, mọi thứ xung quanh đều là con dao hai lưỡi. Trước khi tạo dựng hoặc là chỉnh sửa tệp của robots.txt, các bạn cần phải biết được những mặt hạn chế của phương pháp robots.txt chặn URL này. Tùy thuộc vào mục đích cũng như là tình huống của các bạn, thì hãy nên cân nhắc thật kỹ những cơ chế khác để có thể đảm bảo được rằng URL của các bạn không thể tìm được trên trang website.
Một số công cụ tìm kiếm có thể sẽ không hỗ trợ được những lệnh trong tệp robots.txt.
Việc thu thập các dữ liệu có quyền được quyết định trong việc có tuân theo mệnh lệnh ở trong tệp hay là không. Google bot và những trình thu thập dữ liệu của trang website có được những uy tín khác trong việc tuân thủ hướng dẫn của tệp robots.txt. Tuy nhiên thì sẽ có một số trình thu thập dữ liệu khác có thể sẽ không được như vậy. Chính vì thế, nếu như mà các bạn muốn được bảo đảm an toàn cho các thông tin của các bạn trước những trình thu thập dữ liệu website, thì các bạn nên ưu tiên sử dụng những phương pháp ngăn chặn khác, chẳng hạn như là việc bảo vệ những tệp riêng tư bằng việc dùng mật khẩu trên máy chủ.
Mỗi trình thu thập dữ liệu thì sẽ phân tích một cú pháp theo những cách riêng.
Những trình thu thập dữ liệu của website có uy tín sẽ tuân thủ theo những lệnh ở trong tệp robots.txt. Tuy nhiên thì có thể thấy rằng mỗi một trình thu thập dữ liệu sẽ lại có cho mình những cách thức riêng để có thể diễn giải được các lệnh. Các bạn nên nắm bắt được cho mình những cú pháp riêng sao cho thích hợp, để dành cho từng trình thu thập của dữ liệu trên website vì lí do có một số trình thu thập có thể sẽ không hiểu được những hướng dẫn nhất định.
Một trang bị chặn bởi tệp robots.txt thì vẫn có thể được lập chỉ mục nếu như có trang website khác liên kết tới trang đó.
Google sẽ không thể thu thập được tất cả dữ liệu hoặc là chỉ lập với những mục nội dung có tệp robots.txt chặn. Tuy nhiên thì chúng mình vẫn có thể phát hiện ra và thiết lập chỉ có một mục URL bị chặn bởi tệp robots.txt khi mà có những nơi khác có liên kết đến với URL đó. Kết quả chính là những địa chỉ URL và rất có thể đó là tất cả những thông tin công khai khác như là văn bản liên kết ở trong những đường đường liên kết đến với trang vẫn sẽ phải xuất hiện ở trong kết quả của tìm kiếm trên Google. Để có thể ngăn được URL của các bạn xuất hiện ở trong phần kết quả tìm kiếm ở trên Google, hãy phải bảo vệ được những tệp ở trên máy chủ bằng cách sử dụng mật khẩu, sử dụng thẻ meta noindex hoặc là tiêu đề phản hồi thậm chí là có thể xóa toàn bộ trang.
Lợi ích khi sử dụng robots.txt?
- Ngăn chặn các nội dung bị trùng lặp xuất hiện ở trong kết quả hiển thị trên giao diện tìm kiếm (tuy nhiên thì lưu ý rằng robot meta thường sẽ là một lựa chọn ưu tiên tốt hơn cho việc này)
- Giữ lại toàn bộ những phần của trang website vào chế độ riêng tư
- Giữ lại những trang kết quả của tìm kiếm nội bộ không hiển thị trên kết quả hiển thị trên giao diện tìm kiếm một cách công khai
- Chỉ định một vị trí của bản đồ trang website (sitemap)
- Ngăn chặn các công cụ tìm kiếm lập chỉ mục trên những tệp nhất định tại trang website của các bạn (như là hình ảnh, PDF, v.v.)
- Chỉ định vào độ trễ của thu thập dữ liệu để giúp trong việc ngăn máy chủ của các bạn bị quá tải khi mà trình thu thập dữ liệu được tải nhiều lên phần nội dung vào cùng một lúc
- Chặn hết tất cả những trình thu thập dữ liệu của website từ tất cả nội dung khác.
- Cho phép tất cả những trình thu thập dữ liệu của website có thể truy cập vào được tất cả những nội dung khác.
- Ngăn chặn một trình thu thập dữ liệu website cụ thể nào đó từ một thư mục cụ thể.

Những định dạng và công cụ phổ biến của robots.txt
Các định dạng cơ bản của robots.txt
- User-agent: đầy đủ là [user-agent name]
- Disallow: đầy đủ là [URL string not to be crawled]
Trong file của robots.txt, mỗi một chỉ thị User-agent sẽ được xuất hiện ở dưới dạng một bộ riêng biệt và chúng được phân tách bằng cách là dùng dấu ngắt dòng:

Ví dụ:

Slurp, Discobot và Msnbot đều được gọi theo tên một cách cụ thể. Chính vì vậy mà những user-agent đó sẽ chỉ tập trung chú ý vào trong những chỉ thị ở phần những của tệp trên robots.txt. Tất cả những đường User-agent khác đều sẽ tự động tuân theo những chỉ thị ở trong nhóm của User-agent:
Các user-agent phổ biến của công cụ tìm kiếm
Bảng mà chúng mình cập nhật dưới đây chính là một danh sách những user-agent mà các bạn có thể áp dụng chúng trong tệp robots.txt của các bạn để khớp với những công cụ tìm kiếm được áp dụng một cách phổ biến nhất:

Ví dụ về robots.txt:
Dưới đây là một số ví dụ điển hình về robots.txt vận hành cho trang website www.nhatnammedia.com:
URL tệp robots.txt: www.nhatnammedia.com/robots.txt

Công cụ tìm kiếm này bao gồm có hai công việc chính đó là:
- Crawling: nghĩa là Thu thập dữ liệu ở trên website để khám phá được nội dung;
- Indexing: nghĩa là lập mục nội dung để có thể phục vụ được cho khách hàng đang tìm kiếm thông tin nào đó.
Sau khi đã đến được một trang website nhưng trước khi mà xem được nó, trình thu thập của thông tin tìm kiếm đó sẽ tự động tìm tới tệp robots.txt. Nếu như nó tìm thấy một, thì trình thu thập thông tin đó sẽ đọc lên tệp đó trước khi mà tiếp tục qua một trang khác.
Nếu như tệp robots.txt không chứa bất kỳ một chỉ thị nào khác mà không cho phép được sự hoạt động của tác nhân là người dùng (hoặc là nếu như trang website đó không có tệp robots.txt), nó sẽ tiếp tục chuyển hướng tiến hành thu thập thông tin khác ở trên trang website.

Các thuật ngữ/cú pháp dùng trong robots.txt
Cú pháp của robots.txt có thể được xem như là một ngôn ngữ của những tập tin trên robots.txt. Có tất cả là năm thuật ngữ thông dụng mà các bạn có thể bắt gặp ở trong một tệp robots.txt, Chúng sẽ bao gồm:
- User-agent: nghĩa là Trình thu thập dữ liệu website cụ thể mà các bạn đang được hướng dẫn để có thể thu thập thông tin (thường thì sẽ là công cụ tìm kiếm).
- Disallow: nghĩa là Lệnh được dùng trong việc thông báo cho tác nhân người dùng (user-agent) để không thu thập các dữ liệu URL nào đó cụ thể. Chỉ vỏn vẹn một dòng “Disallow:” đồng nghĩa việc được phép cho mỗi URL.
- Allow (Chỉ áp dụng đối với Googlebot): Lệnh thông báo đến với Googlebot rằng, nó có thể được truy cập đến một trang hoặc là một thư mục con. Mặc dù, trang mẹ hoặc là thư mục con của chúng có thể sẽ không được phép.
- Crawl-delay: nghĩa là Cần bao nhiêu thời gian để trình thu thập được thông tin trước khi mà tải xuống và thu thập được nội dung của trang. Lưu ý một điều rằng: Googlebot sẽ không đồng ý đối với lệnh này, nhưng đối với tốc độ thu thập dữ liệu này thì có thể được đặt ở trong phần Google Search Console.
- Sitemap: thường Được sử dụng trong việc gọi ra vị trí của bất kỳ một hoặc một số sơ đồ trang website XML nào mà đã được liên kết với URL này. Lưu ý đối với lệnh này thì chỉ được hỗ trợ bởi Yahoo, Bing, Ask và Google .
Khớp với mẫu
- * nghĩa là ký tự để đại diện cho bất kỳ một chuỗi ký tự nào đó.
- $ nghĩa là khớp với phần cuối của URL nào đó.

Thực hành tốt nhất với SEO
Để đảm bảo được rằng các bạn không chặn bất kỳ một nội dung nào hoặc là một phần nào ở trên trang website của các bạn mà các bạn muốn thu thập được thông tin.
Liên kết với những trang bị chặn bởi robots.txt thì sẽ không được phép theo dõi. Điều này sẽ có nghĩa là:
- Trừ khi rơi vào trường hợp mà chúng cũng được liên kết từ những trang có thể truy cập được bằng các công cụ tìm kiếm khác (có nghĩa là những trang web mà không bị chặn thông qua meta robot, robots.txt hoặc là bằng cách khác), những tài nguyên mà được liên kết thì đều sẽ không được phép thu thập các thông tin và rất có thể không được phép lập chỉ mục.
- Không có link chủ sở hữu thì có thể sẽ được chuyển từ trang bị chặn đến với đích liên kết. Nếu như các bạn có các trang web mà các bạn mong muốn chủ sở hữu có thể được thông qua, thì lúc này hãy sử dụng một cơ chế chặn khác ngoài việc dùng robots.txt.
Tuyệt đối không được sử dụng robots.txt để ngăn chặn những dữ liệu nhạy cảm (như là thông tin người dùng mang tính riêng tư cao) xuất hiện ở trong bảng kết quả SERP. Nếu như các bạn muốn chặn được trang website của mình ra khỏi phần kết quả tìm kiếm, thì hãy nên sử dụng một phương pháp khác như là phương pháp chỉ thị meta noindex hoặc là bảo vệ mật khẩu.
Một số công cụ dùng để tìm kiếm gồm có rất nhiều tác nhân người dùng. Chẳng hạn như là, Google dùng Googlebot phục vụ trong việc tìm kiếm để không phải trả tiền và Googlebot-Image cho việc tìm kiếm hình ảnh.
Công cụ tìm kiếm sẽ tự động lưu trữ những nội dung robots.txt, nhưng thông thường sẽ cập nhật nội dung được lưu ở trong bộ nhớ đệm cache ít nhất là một lần trong một ngày. Nếu như các bạn thay đổi tệp nào đó và muốn cập nhật tệp đó một cách nhanh hơn thì các bạn có thể gửi robots.txt của các bạn đến Google tại đây.

Cách tạo File robots.txt chuẩn SEO
Nếu sau khi đã tiến hành kiểm tra xong, thì các bạn nhận thấy rằng trang website của mình không có được tệp robots.txt hay là đơn giản hơn các bạn đang mong muốn thay đổi được tệp robots.txt của mình. Hãy cùng tham khảo ba cách tạo robots.txt dưới đây cho một WordPress:
Sử dụng Yoast SEO
Các bạn có thể chỉnh sửa hoặc là tạo một file robots.txt cho WordPress của mình trên chính ứng dụng WordPress Dashboard thông qua vài ba bước đơn giản. Tiến hành đăng nhập vào website của mình, sau khi đã đăng nhập xong, các bạn sẽ thấy giao diện của trang Dashboard hiện ra.
Nhìn qua phía bên trái của màn hình, bấm vào SEO – sau đó chọn Tools – chọn File editor.
Tính năng trình chỉnh sửa tập tin (file editor) sẽ không được phép xuất hiện nếu như mà WordPress của các bạn vẫn chưa được tiến hành kích hoạt trình quản lý cho phép chỉnh sửa tập tin. Do vậy, các bạn hãy tiến hành kích hoạt chúng thông qua Giao thức truyền tập tin (FTP ).
Lúc này, các bạn sẽ thấy xuất hiện mục .htaccess file và robots.txt – đây là nơi để giúp cho các bạn tạo nên một tập tin robots.txt đấy.

Qua bộ Plugin All in One SEO
Hoặc là các bạn có thể áp dụng bộ Plugin All in One SEO để có thể tạo nên một tập tin robots.txt WordPress thật nhanh chóng. Đây cũng chính là một plugin vô cùng tiện ích cho WordPress – Đơn giản và dễ dàng sử dụng.
Để tạo nên tập tin robots.txt WordPress, các bạn cần phải đến với giao diện chính của Plugin All in One SEO Pack. Tiến hành Chọn All in One SEO, kế tiếp chọn Features Manager và Nhấp Active dành cho mục robots.txt
Lúc này, ở trên phần giao diện sẽ xuất hiện ra nhiều tính năng thú vị:
Và lúc đấy, mục robots.txt sẽ xuất hiện như một trang mới ở trong một thư mục lớn của All in One SEO. Các bạn có thể tạo lập hoặc là điều chỉnh tệp robots.txt WordPress ở đây.
All in One SEO có công dụng là làm mờ đi thông tin trên tệp robots.txt thay vì các bạn được chỉnh sửa lại tệp như công cụ của Yoast SEO. Điều này sẽ làm cho các bạn hơi bị động một chút khi mà chỉnh sửa tệp robots.txt WordPress. Tuy nhiên thì nhìn về mặt tích cực mà nói, đây sẽ là một yếu tố để giúp cho các bạn hạn chế được những thiệt hại cho trang website của mình. Đặc biệt là với một số Malware bots gây ra hại cho trang website mà các bạn không thể ngờ tới.

Tạo rồi tải lên tệp robots.txt qua FTP
Nếu như các bạn không muốn dùng plugin để tạo ra tệp robots.txt WordPress thì Nhật Nam Media có một cách hữu ích cho các bạn. Đó là tự tạo một tệp robots.txt thủ công cho WordPress của các bạn.
Các bạn chỉ phải mất đi vài phút để tạo nên tệp robots.txt WordPress này bằng cách là dùng tay. Có thể dùng Textedit hoặc là Notepad để tạo ra mẫu tệp robots.txt WordPress theo Rule mà chúng mình đã đã giới thiệu ở phần đầu viết. Sau đó, hãy tải tệp này qua FTP mà không cần sử dụng plugin, bởi vì đây là một quá trình rất đơn giản nên không bị tốn quá nhiều thời gian của các bạn đâu.
Một số lưu ý về robots.txt
Để có thể được tìm thấy, tệp robots.txt cần phải được đặt ở trong một thư mục cấp cao nhất của trang website.
Một trong số những user-agent (robot) có thể lựa chọn bỏ qua tệp robots.txt của các bạn. Điều này đặc biệt sẽ xảy ra phổ biến đối với những trình thu thập dữ liệu tiêu cực hơn như là những thành phần robots phần mềm độc hại hoặc là những người dọn dẹp địa chỉ trên email.
Mỗi một tên miền phụ ở trên một tên miền gốc sẽ thường sử dụng những tệp robots.txt riêng biệt nhau. Điều này đồng nghĩa với việc là cả example.com và blog.example.com nên có những flie robots.txt riêng khác nhau.
Để có thể đảm bảo cho việc tìm thấy tệp robots.txt của các bạn, hãy luôn luôn nhớ đưa nó vào trong phần thư mục chính hoặc là tên miền gốc.

Những câu hỏi về robots.txt
Robots.txt xuất hiện ở đâu trên một trang website?
Bất cứ khi nào mà những robot và những công cụ tìm kiếm thu thập dữ liệu tới một trang website (như là trình thu thập một thông tin của Facebook, instagram) đều có thể tìm kiếm tệp robots.txt. Nhưng mà họ sẽ chỉ tìm kiếm loại tệp đó ở một nơi cụ thể nào đó như là: thư mục gốc (thường sẽ là một tên miền gốc hoặc là trang chủ của các bạn).
Nếu như một user-agent truy cập vào seothetop.com/robots.txt và không thể tìm ra được một tệp robots ở đó, nó sẽ nghĩ rằng trang website đó không tồn tại và bắt đầu tiến hành thu thập mọi thứ liên quan ở trên trang và thậm chí là ở trên toàn bộ trang website).
Ngay cả khi mà có sự tồn tại của trang robots.txt.
Làm thế nào để có thể kiểm tra xem được liệu bạn có tệp robots.txt không?
Không chắc chắn rằng nếu như bạn có tệp robots.txt? Chỉ việc nhập tên miền gốc của các bạn, sau đó thì thêm cụm từ /robots.txt vào cuối URL. Chẳng hạn như là, files robots của Seothetop sẽ được đặt ở seothetop.com/robots.txt.
Quy tắc nào cần phải được bổ sung vào trong tệp robots.txt WordPress?
Cho đến hiện tại, tất cả đều được xử lý theo một quy tắc trong một thời điểm. Nhưng nếu như các bạn muốn áp dụng những quy tắc khác nhau này cho những bot khác nhau thì phải sao?
Lúc này các bạn chỉ cần thêm từng bộ quy tắc ở trong phần khai báo của User-agent cho mỗi bot là được.

Bạn có cần phải chỉnh sửa lại robots.txt không?
Người nào đang dùng WordPress thông thường thì sẽ không cần phải sửa đổi quá nhiều tệp robots.txt. Tuy nhiên thì điều đó có thể sẽ được thay đổi nếu như một bot nào đó đang có vẻ bị phiền phức hoặc là nếu như mà cần thiết phải thay đổi những công cụ tìm kiếm để tương tác với một chủ đề nào đó hoặc là plugin WordPress cụ thể hoặc hơn cả là thậm chí có thể tùy thuộc vào từng máy chủ lưu trữ trong trang website của các bạn .
Tại sao tệp robots.txt lại quan trọng?
Quản trị viên trang website được hưởng lợi từ những tệp robots.txt vì nó cho thấy rằng trình thu thập thông tin của những công cụ tìm kiếm biết được các trang nào ở trên trang website cần phải tập trung vào để có thể lập được chỉ mục. Điều này sẽ giúp cho các trang có tầm quan trọng sẽ nhận được sự chú ý trong khi những trang ít có sự quan trọng hơn thì sẽ bị bỏ qua. Những quy tắc phù hợp khác cũng có thể giúp ngăn chặn được tình trạng các bot lãng phí tài nguyên máy chủ của trang website của các bạn.
Sự khác biệt giữa robots.txt với meta robot với x-robot này là thế nào?
Trước hết, thì robots.txt là một loại tệp văn bản thực tế, trong khi đó thì meta và x-robot lại là những chỉ thị meta. Chúng có những chức năng phục vụ khác nhau.
Thiết lập tệp robots sao cho đúng cách thật sự là rất cần thiết trong Technical SEO. Thông qua bài viết này, Nhật Nam Media hy vọng với những thông tin hữu ích mà chúng mình đã chia sẻ ở sẽ giúp cho các bạn hiểu rõ được hơn về robots.txt. Chúc các bạn luôn thành công nhé.
Bài viết liên quan