Hướng dẫn cơ bản về robots.txt

0
434
huong-dan-co-ban-ve-robot-txt

Tệp robots.txt là một trong những cách chính để thông báo cho công cụ tìm kiếm biết nơi nó có thể và không thể truy cập vào trang web của bạn. Tất cả các công cụ tìm kiếm chính đều hỗ trợ chức năng cơ bản mà nó cung cấp, nhưng một số trong số chúng đáp ứng một số quy tắc bổ sung cũng có thể hữu ích. Hướng dẫn này bao gồm tất cả các cách sử dụng robots.txt trên trang web của bạn, tuy nhiên, mặc dù có vẻ đơn giản, nhưng bất kỳ lỗi nào bạn mắc phải trong robots.txt của mình. có thể gây hại nghiêm trọng cho trang web của bạn, vì vậy hãy đảm bảo rằng bạn đã đọc và hiểu toàn bộ bài viết này trước khi đi sâu vào.

Tệp robots.txt là gì?

Tệp robots.txt là một tệp văn bản được các trình thu thập thông tin của công cụ tìm kiếm đọc và tuân theo một cú pháp nghiêm ngặt. Những con nhện này còn được gọi là rô bốt – do đó có tên – và cú pháp của tệp rất nghiêm ngặt đơn giản vì nó phải được máy tính đọc được. Điều đó có nghĩa là không có chỗ cho lỗi ở đây – một cái gì đó là 1 hoặc 0.

Còn được gọi là “Giao thức loại trừ rô bốt”, tệp robots.txt là kết quả của sự đồng thuận giữa các nhà phát triển công cụ tìm kiếm ban đầu. Nó không phải là một tiêu chuẩn chính thức do bất kỳ tổ chức tiêu chuẩn nào đặt ra, nhưng tất cả các công cụ tìm kiếm lớn đều tuân theo nó.

 *Thu thập thông tin chỉ thị

Tệp robots.txt là một trong số các lệnh thu thập thông tin. Chúng tôi có hướng dẫn về tất cả chúng và bạn sẽ tìm thấy chúng ở đây.

Tệp robots.txt là một tệp văn bản được các trình thu thập thông tin của công cụ tìm kiếm đọc và tuân theo một cú pháp nghiêm ngặt. Những con nhện này còn được gọi là rô bốt – do đó có tên – và cú pháp của tệp rất nghiêm ngặt đơn giản vì nó phải được máy tính đọc được. Điều đó có nghĩa là không có chỗ cho lỗi ở đây – một cái gì đó là 1 hoặc 0.

Tệp robots.txt làm gì?

Các công cụ tìm kiếm lập chỉ mục trang web theo các trang, theo các liên kết để đi từ trang A đến trang B đến trang C, v.v. Trước khi công cụ tìm kiếm thu thập  bất kỳ  trang nào trên miền mà nó chưa gặp phải trước đây, nó sẽ mở tệp robots.txt của miền đó, tệp này sẽ cho công cụ tìm kiếm biết URL nào trên trang web đó được phép lập chỉ mục.

Các công cụ tìm kiếm thường lưu vào bộ nhớ cache nội dung của robots.txt, nhưng thường sẽ làm mới nó vài lần một ngày, vì vậy các thay đổi sẽ được phản ánh khá nhanh chóng.

Tôi nên đặt tệp robots.txt của mình ở đâu?

Tệp robots.txt phải luôn ở gốc miền của bạn. Vì vậy, nếu miền của bạn là www.example.com, thì miền này sẽ được tìm thấy tại https://www.example.com/robots.txt.

Điều rất quan trọng nữa là tệp robots.txt của bạn thực sự được gọi là robots.txt. Tên có phân biệt chữ hoa chữ thường, vì vậy hãy hiểu đúng nếu không nó sẽ không hoạt động.

Ưu và nhược điểm của việc sử dụng robots.txt

Chuyên nghiệp: quản lý ngân sách thu thập thông tin

Thông thường, người ta hiểu rằng một trình thu thập thông tin tìm kiếm đến một trang web với “mức cho phép” được xác định trước cho số lượng trang mà nó sẽ thu thập thông tin (hoặc, lượng tài nguyên / thời gian nó sẽ sử dụng, dựa trên quyền hạn / kích thước / danh tiếng của trang web), và SEO gọi đây là ngân sách thu thập thông tin. Điều này có nghĩa là nếu bạn chặn các phần của trang web khỏi trình thu thập thông tin của công cụ tìm kiếm, bạn có thể cho phép sử dụng ngân sách thu thập thông tin của mình cho các phần khác.

Đôi khi, việc chặn các công cụ tìm kiếm thu thập dữ liệu các phần có vấn đề trên trang web của bạn có thể rất có lợi, đặc biệt là trên các trang web cần phải làm sạch nhiều SEO. Sau khi đã thu dọn mọi thứ, bạn có thể để chúng vào lại.

Lưu ý về việc chặn các tham số truy vấn

Một tình huống mà ngân sách thu thập thông tin đặc biệt quan trọng là khi trang web của bạn sử dụng nhiều tham số chuỗi truy vấn để lọc và sắp xếp. Giả sử bạn có 10 tham số truy vấn khác nhau, mỗi tham số có giá trị khác nhau có thể được sử dụng trong bất kỳ kết hợp nào. Điều này dẫn đến hàng trăm nếu không phải hàng nghìn URL có thể có. Việc chặn thu thập thông tin của tất cả các tham số truy vấn sẽ giúp đảm bảo rằng công cụ tìm kiếm chỉ thu thập các URL chính của trang web của bạn và sẽ không đi vào cái bẫy khổng lồ mà bạn sẽ tạo ra.

Dòng này chặn tất cả các URL trên trang web của bạn có chứa chuỗi truy vấn:

Không cho phép: / *? *

Con: không xóa một trang khỏi kết quả tìm kiếm

Mặc dù bạn có thể sử dụng tệp robots.txt để thông báo cho một con nhện biết nơi nó không thể đi vào trang web của bạn, nhưng bạn  không thể  sử dụng nó để cho công cụ tìm kiếm biết URL nào không hiển thị trong kết quả tìm kiếm – nói cách khác là chặn nó sẽ không ngăn nó được lập chỉ mục. Nếu công cụ tìm kiếm tìm thấy đủ liên kết đến URL đó, nó sẽ bao gồm nó, nó sẽ không biết có gì trên trang đó. Vì vậy, kết quả của bạn sẽ như thế này:

Nếu bạn muốn chặn một cách đáng tin cậy một trang hiển thị trong kết quả tìm kiếm, bạn cần sử dụng thẻ meta rô bốtnoindex . Điều đó có nghĩa là, để tìm thấy noindexthẻ, công cụ tìm kiếm phải có thể truy cập trang đó, vì vậy  đừng  chặn nó bằng robots.txt.

Con: không lan truyền giá trị liên kết

Nếu một công cụ tìm kiếm không thể thu thập thông tin một trang, nó không thể truyền giá trị liên kết qua các liên kết trên trang đó. Khi một trang bị chặn bằng robots.txt, đó là một ngõ cụt. Bất kỳ giá trị liên kết nào có thể đã chuyển đến (và qua) trang đó đều bị mất.

 Chỉ thị noindex

Trước đây, bạn có thể thêm chỉ thị ‘noindex’ vào tệp robots.txt của mình, để xóa URL khỏi kết quả tìm kiếm của Google và tránh những ‘đoạn’ này hiển thị. Điều này không còn được hỗ trợ (và về mặt kỹ thuật, không bao giờ được).

Cú pháp Robots.txt

Tệp robots.txt bao gồm một hoặc nhiều khối lệnh, mỗi khối bắt đầu bằng một dòng tác nhân người dùng. “Tác nhân người dùng” là tên của con nhện cụ thể mà nó giải quyết. Bạn có thể có một khối cho tất cả các công cụ tìm kiếm, sử dụng ký tự đại diện cho tác nhân người dùng hoặc các khối cụ thể cho các công cụ tìm kiếm cụ thể. Một con nhện của công cụ tìm kiếm sẽ luôn chọn khối phù hợp nhất với tên của nó.

Những khối này trông như thế này (đừng sợ, chúng tôi sẽ giải thích bên dưới):

Tác nhân người dùng: * 
Không cho phép: / Tác nhân người

dùng: Googlebot
Không cho phép: Tác nhân người

dùng: bingbot
Không cho phép: / not-for-bing /

Các chỉ thị thích Allowvà Disallowkhông nên phân biệt chữ hoa chữ thường, vì vậy việc viết thường hay viết hoa tùy thuộc vào bạn.  Tuy nhiên, các giá trị  có phân biệt chữ hoa chữ thường, /photo/không giống như /Photo/. Chúng tôi muốn viết hoa các chỉ thị vì nó làm cho tệp (đối với con người) dễ đọc hơn.

Chỉ thị tác nhân người dùng

Bit đầu tiên của mọi khối lệnh là tác nhân người dùng, xác định một trình thu thập dữ liệu cụ thể. Trường tác nhân người dùng được đối sánh với tác nhân người dùng (thường dài hơn) của trình thu nhỏ cụ thể đó, vì vậy, ví dụ: trình thu thập thông dụng nhất của Google có tác nhân người dùng sau:

Mozilla / 5.0 (tương thích; Googlebot / 2.1; + http: //www.google.com/bot.html) 

Vì vậy, nếu bạn muốn cho con nhện này biết phải làm gì, một User-agent: Googlebotdòng tương đối đơn giản sẽ thực hiện thủ thuật.

Hầu hết các công cụ tìm kiếm có nhiều nhện. Họ sẽ sử dụng một trình thu thập dữ liệu cụ thể cho chỉ mục bình thường của họ, cho các chương trình quảng cáo của họ, cho hình ảnh, cho video, v.v.

Các công cụ tìm kiếm sẽ luôn chọn khối lệnh cụ thể nhất mà chúng có thể tìm thấy. Giả sử bạn có 3 bộ lệnh: một cho *, một cho Googlebotvà một cho Googlebot-News. Nếu một bot đến bởi tác nhân người dùng Googlebot-Video, nó sẽ theo sau Googlebot restrictions. Một bot với tác nhân người dùng Googlebot-Newssẽ sử dụng các lệnh cụ thể hơn Googlebot-News.

Tác nhân người dùng phổ biến nhất cho trình thu thập thông tin công cụ tìm kiếm

Dưới đây là danh sách các tác nhân người dùng mà bạn có thể sử dụng trong tệp robots.txt của mình để khớp với các công cụ tìm kiếm được sử dụng phổ biến nhất:

Lệnh không cho phép

Dòng thứ hai trong bất kỳ khối lệnh nào là Disallowdòng. Bạn có thể có một hoặc nhiều dòng này, chỉ định phần nào của trang web mà con nhện đã chỉ định không thể truy cập. Một Disallowdòng trống có nghĩa là bạn không cho phép bất cứ điều gì, vì vậy về cơ bản, nó có nghĩa là một con nhện có thể truy cập tất cả các phần của trang web của bạn.

Ví dụ bên dưới sẽ chặn tất cả các công cụ tìm kiếm “lắng nghe” robots.txt thu thập dữ liệu trang web của bạn.

Tác nhân người dùng: * 
Không cho phép: /

Ví dụ dưới đây sẽ chặn Google thu thập thông tin Photothư mục trên trang web của bạn – và mọi thứ trong đó.

Tác nhân người dùng: googlebot 
Disallow: / Photo

Điều này có nghĩa là tất cả các thư mục con của thư mục /Photocũng sẽ không được giải mã. Nó sẽ  không  chặn Google thu thập thông tin /photothư mục, vì những dòng này phân biệt chữ hoa chữ thường.

Điều này cũng sẽ chặn Google truy cập các URL chứa /Photo, chẳng hạn như /Photography/.

Cách sử dụng ký tự đại diện / biểu thức chính quy

“Chính thức”, tiêu chuẩn robots.txt không hỗ trợ cụm từ thông dụng hoặc ký tự đại diện, tuy nhiên, tất cả các công cụ tìm kiếm chính đều hiểu nó. Điều này có nghĩa là bạn có thể sử dụng các dòng như thế này để chặn các nhóm tệp:

Disallow: /*.php 
Disallow: /copyrighted-images/*.jpg

Trong ví dụ trên, *được mở rộng thành bất kỳ tên tệp nào phù hợp. Lưu ý rằng phần còn lại của dòng vẫn phân biệt chữ hoa chữ thường, vì vậy dòng thứ hai ở trên sẽ không chặn /copyrighted-images/example.JPGthu thập thông tin tệp được gọi .

Một số công cụ tìm kiếm, như Google, cho phép các cụm từ thông dụng phức tạp hơn, nhưng lưu ý rằng một số công cụ tìm kiếm có thể không hiểu logic này. Tính năng hữu ích nhất mà tính năng này thêm vào là $, cho biết phần cuối của một URL. Trong ví dụ sau, bạn có thể thấy điều này làm gì:

Disallow: /*.php$

Điều này có nghĩa là /index.phpkhông thể được lập chỉ mục, nhưng /index.php?p=1 có thể  được. Tất nhiên, điều này chỉ hữu ích trong những trường hợp rất cụ thể và cũng khá nguy hiểm: rất dễ dàng để bỏ chặn những thứ bạn không thực sự muốn bỏ chặn.

Các chỉ thị thu thập thông tin robots.txt không chuẩn

Cũng như các lệnh Disallowvà, User-agentbạn có thể sử dụng một số lệnh thu thập thông tin khác. Các chỉ thị này không được hỗ trợ bởi tất cả các trình thu thập thông tin của công cụ tìm kiếm, vì vậy hãy đảm bảo rằng bạn biết các hạn chế của chúng.

Lệnh cho phép

Mặc dù không có trong “đặc điểm kỹ thuật” ban đầu, nhưng đã có sự bàn tán rất sớm về một allowchỉ thị. Hầu hết các công cụ tìm kiếm dường như hiểu nó và nó cho phép thực hiện các lệnh đơn giản và rất dễ đọc như sau:

Disallow: / wp-admin / 
Allow: /wp-admin/admin-ajax.php

Cách duy nhất khác để đạt được kết quả tương tự mà không cần allowchỉ thị sẽ là cụ thể disallowtừng tệp trong wp-adminthư mục.

Chỉ thị máy chủ

Được hỗ trợ bởi Yandex (chứ không phải Google, mặc dù một số bài đăng nói gì), chỉ thị này cho phép bạn quyết định xem bạn muốn công cụ tìm kiếm hiển thị example.comhay www.example.com. Chỉ cần chỉ định nó như thế này sẽ thực hiện được mẹo:

host: example.com

Nhưng bởi vì chỉ Yandex hỗ trợ hostchỉ thị, chúng tôi sẽ không khuyên bạn dựa vào nó, đặc biệt là vì nó cũng không cho phép bạn xác định một lược đồ (http hoặc https). Một giải pháp tốt hơn mà các công trình cho tất cả các công cụ tìm kiếm sẽ được 301 redirect tên máy chủ mà bạn  không  muốn trong chỉ mục lên phiên bản mà bạn  làm  muốn. Trong trường hợp của chúng tôi, chúng tôi chuyển hướng www.example.com thành example.com.

Chỉ thị trì hoãn thu thập thông tin

Yahoo !, Bing và Yandex đôi khi có thể khá khó thu thập dữ liệu, nhưng may mắn là tất cả đều phản ứng với lệnh crawl-delay, điều này làm chậm chúng. Và trong khi các công cụ tìm kiếm này có các cách đọc chỉ thị hơi khác nhau, kết quả cuối cùng về cơ bản là giống nhau.

Một dòng như bên dưới sẽ hướng dẫn Yahoo! và Bing để đợi 10 giây sau một hành động thu thập thông tin, trong khi Yandex sẽ chỉ truy cập trang web của bạn cứ sau 10 giây một lần. Đó là một sự khác biệt về ngữ nghĩa, nhưng vẫn thú vị khi biết. Đây là crawl-delaydòng ví dụ :

độ trễ thu thập thông tin: 10

Hãy cẩn thận khi sử dụng crawl-delaychỉ thị. Bằng cách đặt độ trễ thu thập thông tin là 10 giây, bạn chỉ cho phép các công cụ tìm kiếm này truy cập 8.640 trang mỗi ngày. Điều này có vẻ nhiều đối với một trang web nhỏ, nhưng trên các trang web lớn thì không nhiều lắm. Mặt khác, nếu bạn không nhận được lưu lượng truy cập nào từ các công cụ tìm kiếm này, đó là một cách tốt để tiết kiệm băng thông.

Chỉ thị sơ đồ trang web cho Sơ đồ trang web XML

Sử dụng lệnh sitemapnày, bạn có thể cho các công cụ tìm kiếm – cụ thể là Bing, Yandex và Google – tìm sơ đồ trang XML của bạn ở đâu. Tất nhiên, bạn cũng có thể gửi sơ đồ trang web XML của mình cho từng công cụ tìm kiếm bằng cách sử dụng các giải pháp công cụ quản trị trang web tương ứng của chúng và chúng tôi thực sự khuyên bạn nên làm như vậy, vì các chương trình công cụ quản trị trang web của công cụ tìm kiếm sẽ cung cấp cho bạn nhiều thông tin có giá trị về trang web của bạn. Nếu bạn không muốn làm điều đó, thêm một sitemapdòng vào tệp robots.txt là một lựa chọn thay thế nhanh chóng.

Xác thực tệp robots.txt của bạn

Có nhiều công cụ khác nhau có thể giúp bạn xác thực tệp robots.txt của mình, nhưng khi nói đến việc xác thực chỉ thị thu thập thông tin, chúng tôi luôn muốn truy cập vào nguồn. Google có một công cụ kiểm tra robots.txt trong Google Search Console (trong menu ‘Phiên bản cũ’) và chúng tôi thực sự khuyên bạn nên sử dụng công cụ đó:

Hãy nhớ kiểm tra kỹ các thay đổi của bạn trước khi đưa chúng vào hoạt động! Bạn sẽ không phải là người đầu tiên vô tình sử dụng robots.txt để chặn toàn bộ trang web của mình và chìm vào quên lãng của công cụ tìm kiếm!

Xem thêm: Dịch vụ SEO từ khóa Website uy tín giá rẻ

LEAVE A REPLY

Please enter your comment!
Please enter your name here