Thông thường chúng ta thường coi ngân sách thu thập thông tin là thứ nằm ngoài tầm kiểm soát của chúng tôi. Hay đúng hơn, thông thường không nghĩ đến ngân sách thu thập thông tin. Tuy nhiên, khi các trang web của chúng tôi phát triển lớn hơn, ngân sách thu thập thông tin trở thành yếu tố ảnh hưởng lớn đến sự hiện diện của chúng tôi trong tìm kiếm. Trong bài viết này, tôi sẽ thảo luận về tầm quan trọng của ngân sách thu thập thông tin, cũng như chia sẻ một số lời khuyên thực tế về quản lý ngân sách thu thập thông tin cho trang web của bạn.
Ngân sách thu thập thông tin là gì?
Ngân sách thu thập thông tin là lượng tài nguyên mà Google sẵn sàng chi để thu thập thông tin trang web của bạn. Có thể nói rằng ngân sách thu thập thông tin của bạn bằng với số trang được thu thập thông tin mỗi ngày, nhưng điều đó không hoàn toàn đúng. Một số trang tiêu tốn nhiều tài nguyên hơn những trang khác, do đó, số lượng trang được thu thập thông tin có thể thay đổi mặc dù ngân sách vẫn giữ nguyên.
Khi phân bổ ngân sách thu thập thông tin, Google thường sẽ xem xét bốn điều: mức độ phổ biến của trang web của bạn, tỷ lệ cập nhật, số lượng trang và khả năng xử lý thu thập thông tin. Nhưng mặc dù đó là một thuật toán phức tạp, bạn vẫn có thể can thiệp và giúp Google quản lý cách nó thu thập dữ liệu trang web của bạn.
Tại sao ngân sách thu thập thông tin lại quan trọng?
Ngân sách thu thập thông tin xác định tốc độ các trang của bạn xuất hiện trong tìm kiếm. Vấn đề chính ở đây là có thể có sự không khớp giữa ngân sách thu thập thông tin và tốc độ cập nhật của trang web của bạn. Nếu điều này xảy ra, bạn sẽ thấy độ trễ ngày càng lớn giữa thời điểm bạn tạo hoặc cập nhật một trang và thời điểm nó xuất hiện trong tìm kiếm.
Một lý do có thể khiến bạn không nhận đủ ngân sách thu thập dữ liệu là Google không coi trang web của bạn là đủ quan trọng. Vì vậy, nó có thể là spam hoặc mang lại trải nghiệm người dùng rất kém hoặc có thể là cả hai. Trong trường hợp đó, bạn không thể làm gì khác ngoài việc xuất bản nội dung hay hơn và chờ danh tiếng của bạn được cải thiện.
Một lý do khác có thể khiến bạn không nhận đủ ngân sách thu thập dữ liệu là trang web của bạn có đầy bẫy thu thập thông tin. Có một số vấn đề kỹ thuật nhất định trong đó trình thu thập thông tin có thể bị mắc kẹt trong vòng lặp, không tìm thấy các trang của bạn hoặc không được khuyến khích truy cập trang web của bạn. Trong trường hợp đó, có một số điều bạn có thể làm để cải thiện đáng kể việc thu thập thông tin của mình và chúng ta sẽ thảo luận thêm về chúng bên dưới.
Bạn có nên lo lắng về ngân sách thu thập thông tin của mình không?
Thu thập thông tin ngân sách có thể trở thành một vấn đề nếu bạn đang chạy một trang web lớn hoặc trung bình với tốc độ cập nhật thường xuyên (từ một lần một ngày đến một lần một tuần). Trong trường hợp này, việc thiếu ngân sách thu thập thông tin có thể tạo ra độ trễ chỉ mục vĩnh viễn.
Nó cũng có thể là một vấn đề khi khởi chạy một trang web mới hoặc thiết kế lại một trang web cũ và có rất nhiều thay đổi diễn ra nhanh chóng. Mặc dù kiểu trễ thu thập thông tin này cuối cùng sẽ tự giải quyết.
Bất kể kích thước của trang web là bao nhiêu, tốt nhất bạn nên kiểm tra trang web đó để tìm các vấn đề có thể xảy ra khi thu thập thông tin ít nhất một lần. Nếu bạn đang chạy một trang web lớn thì hãy làm điều đó ngay bây giờ, nếu bạn đang chạy một trang web nhỏ hơn thì chỉ cần đưa nó vào danh sách việc cần làm của bạn.
Làm cách nào để tối ưu hóa ngân sách thu thập thông tin của bạn?
Có một số điều bạn nên (hoặc không nên) làm để khuyến khích trình thu thập dữ liệu tìm kiếm sử dụng nhiều trang hơn trên trang web của bạn và làm điều đó thường xuyên hơn. Dưới đây là danh sách hành động để tối đa hóa sức mạnh của ngân sách thu thập thông tin của bạn:
1. Gửi sơ đồ trang đến Search Console
Sơ đồ trang web là một tài liệu chứa tất cả các trang bạn muốn được thu thập thông tin và lập chỉ mục trong tìm kiếm.
Nếu không có sơ đồ trang web, Google sẽ phải khám phá các trang theo liên kết nội bộ trên trang web của bạn. Bằng cách này, sẽ mất một khoảng thời gian để Google hiểu được phạm vi trang web của bạn và quyết định trang nào được phát hiện nên được lập chỉ mục và trang nào không nên lập chỉ mục.
Với sơ đồ trang web, Google biết chính xác trang web của bạn lớn như thế nào và những trang nào được lập chỉ mục. Thậm chí còn có một tùy chọn để cho Google biết mức độ ưu tiên của mỗi trang là gì và tần suất cập nhật của trang. Với tất cả thông tin này có sẵn, Google có thể thiết kế mẫu thu thập thông tin thích hợp nhất cho trang web của bạn.
Lưu ý: Điều quan trọng cần đề cập là Google coi sơ đồ trang web như một đề xuất chứ không phải nghĩa vụ – có thể bỏ qua sơ đồ trang web của bạn và chọn một mẫu thu thập thông tin khác cho trang web của bạn.
Bây giờ, có nhiều cách bạn có thể tạo sơ đồ trang web. Nếu bạn đang sử dụng nền tảng CMS, như Shopify, thì sơ đồ trang web của bạn có thể được tạo tự động và đã có sẵn tại yourwebsite.com/sitemap.xml. Các nền tảng CMS khác chắc chắn sẽ có các plugin SEO cung cấp dịch vụ sơ đồ trang web.
Nếu bạn có một trang web được tạo tùy chỉnh hoặc bạn không muốn tạo gánh nặng cho trang web của mình với các plugin bổ sung, bạn có thể sử dụng WebSite Auditor để tạo và quản lý sơ đồ trang web của mình. Chuyển đến Site Structure > Pages > Website Tools > Sitemap và bạn sẽ nhận được danh sách đầy đủ các trang trên trang web của mình. Bạn có thể sắp xếp các trang theo trạng thái HTTP và loại trừ những trang không thể truy cập, cũng như thay đổi mức độ ưu tiên, tốc độ cập nhật và ngày sửa đổi lần cuối của trang:
Khi bạn hoàn tất việc chỉnh sửa sơ đồ trang của mình, hãy nhấp vào Tiếp theo và chọn các tùy chọn để tải xuống tài liệu – nó sẽ được tự động chuyển đổi sang giao thức sơ đồ trang thích hợp. Sau đó, bạn có thể thêm sơ đồ trang vào trang web của mình cũng như gửi sơ đồ đó lên Google Search Console:
Nó cũng phổ biến để có một số sơ đồ trang web cho cùng một trang web. Đôi khi điều đó được thực hiện vì sự thuận tiện – quản lý các trang tương tự theo chủ đề dễ dàng hơn. Những lần khác, việc này được thực hiện khi cần thiết – tài liệu sơ đồ trang web có giới hạn 50 nghìn trang và nếu bạn có một trang web lớn hơn, bạn buộc phải tạo một số sơ đồ trang web để bao gồm tất cả chúng.
2. Giải quyết xung đột thu thập thông tin
Một vấn đề thu thập thông tin phổ biến là Google cho rằng trang nên được thu thập thông tin nhưng không thể truy cập trang. Trong trường hợp này, một trong hai điều có thể đã xảy ra:
Tùy chọn 1. Trang không nên được thu thập thông tin và nó đã được gửi đến Google do nhầm lẫn. Trong trường hợp này, bạn phải hủy gửi trang bằng cách xóa nó khỏi sơ đồ trang web của bạn hoặc bằng cách xóa các liên kết nội bộ đến trang hoặc có thể cả hai.
Tùy chọn 2. Trang phải được thu thập thông tin và quyền truy cập bị từ chối do nhầm lẫn. Trong trường hợp này, bạn nên kiểm tra xem điều gì đang chặn quyền truy cập (robots.txt, 4xx, 5xx, lỗi chuyển hướng) và khắc phục sự cố cho phù hợp.
Dù trong trường hợp nào, những tín hiệu hỗn hợp này buộc Google vào ngõ cụt và lãng phí ngân sách thu thập thông tin của bạn một cách không cần thiết. Cách tốt nhất để tìm và giải quyết những vấn đề này là kiểm tra báo cáo Mức độ phù hợp của bạn trong Google Search Console. Tab Lỗi dành riêng cho xung đột thu thập thông tin và cung cấp cho bạn số lượng lỗi, loại lỗi và danh sách các trang bị ảnh hưởng:
3. Ẩn các trang không nên thu thập thông tin
Một loại xung đột thu thập thông tin khác là khi một trang được thu thập thông tin và lập chỉ mục do nhầm lẫn. Điều này rõ ràng là lãng phí ngân sách thu thập dữ liệu của bạn, nhưng quan trọng hơn, nó cũng có thể là một mối lo ngại về bảo mật. Nếu bạn sử dụng sai cách để chặn thu thập thông tin, điều đó có thể có nghĩa là một số trang riêng tư của bạn đã được lập chỉ mục và hiện đã được công bố công khai.
Để tìm các trang như vậy, tốt nhất bạn nên chuyển sang Google Search Console và báo cáo Mức độ phù hợp của nó. Chuyển sang tab Hợp lệ với cảnh báo và bạn sẽ nhận được số lượng trang được thu thập thông tin, cũng như các vấn đề nghi ngờ và danh sách các trang bị ảnh hưởng:
Vấn đề phổ biến nhất với các trang này là chúng bị chặn bằng tệp robots.txt. Quản trị viên web vẫn thường sử dụng robots.txt để ngăn trang được lập chỉ mục. Đồng thời, Google coi các hướng dẫn robots.txt như một đề xuất và có thể quyết định vẫn hiển thị các trang “bị chặn” trong tìm kiếm.
Để giải quyết những vấn đề này, hãy xem lại danh sách các trang và quyết định xem bạn có muốn chúng được lập chỉ mục hay không. Nếu không, bạn phải sử dụng thẻ meta ngăn lập chỉ mục để chặn hoàn toàn trình thu thập thông tin và sau đó xóa trang khỏi tìm kiếm qua Chỉ mục> Xóa> Yêu cầu mới. Nếu có, bạn phải xóa trang khỏi lệnh không cho phép của tệp robots.txt của bạn.
4. Ẩn các tài nguyên không thiết yếu
Bạn có thể tiết kiệm một phần lớn ngân sách thu thập thông tin của mình bằng cách yêu cầu Google bỏ qua các tài nguyên không cần thiết. Những thứ như gif, video và hình ảnh có thể chiếm nhiều bộ nhớ, nhưng thường được dùng để trang trí hoặc giải trí và có thể không quan trọng đối với việc hiểu nội dung của trang.
Để ngăn Google thu thập dữ liệu các tài nguyên không cần thiết này, hãy không cho phép chúng bằng tệp robots.txt của bạn.
Bạn có thể không cho phép các tài nguyên riêng lẻ theo tên:
Đại lý người dùng: * Disallow: /images/filename.jpg
Bạn cũng có thể không cho phép toàn bộ loại tệp:
Đại lý người dùng: * Không cho phép: /*.gif$
5. Tránh các chuỗi chuyển hướng dài
Nếu có số lượng chuyển hướng 301 và 302 không hợp lý trong một hàng, các công cụ tìm kiếm sẽ dừng theo các chuyển hướng vào một thời điểm nào đó và trang đích có thể không được thu thập thông tin. Hơn thế nữa, mỗi URL được chuyển hướng sẽ lãng phí một “đơn vị” ngân sách thu thập thông tin của bạn. Đảm bảo rằng bạn sử dụng chuyển hướng không quá hai lần liên tiếp và chỉ khi nó thực sự cần thiết.
Để có danh sách đầy đủ các trang có chuyển hướng, hãy khởi chạy Trình kiểm tra trang web và chuyển đến Site Structure > Site Audit > Redirects. Nhấp vào Trang có chuyển hướng 302 và Trang có chuyển hướng 301 để có danh sách đầy đủ các trang được chuyển hướng. Nhấp vào Các trang có chuỗi chuyển hướng dài để nhận danh sách các URL có nhiều hơn 2 chuyển hướng:
6. Quản lý các URL động
Các hệ thống quản lý nội dung phổ biến tạo ra nhiều URL động, tất cả đều dẫn đến cùng một trang. Theo mặc định, các bot của công cụ tìm kiếm sẽ coi các URL này là các trang riêng biệt. Do đó, bạn có thể vừa lãng phí ngân sách thu thập thông tin của mình, vừa có khả năng gây ra các vấn đề về nội dung trùng lặp. Nếu công cụ hoặc CMS của trang web của bạn thêm các tham số vào URL không ảnh hưởng đến nội dung của trang, hãy đảm bảo rằng bạn cho Google biết về điều đó bằng cách quản lý các tham số này trong tài khoản Google Search Console của bạn, trong các công cụ và báo cáo cũ> Tham số URL:
Tại đó, bạn có thể nhấp vào Chỉnh sửa đối diện với bất kỳ thông số nào và quyết định xem trang có được phép hiển thị bởi người dùng tìm kiếm hay không.
7. Giải quyết các vấn đề về nội dung trùng lặp
Nội dung trùng lặp có nghĩa là có hai hoặc nhiều trang có nội dung gần như giống nhau. Điều này có thể xảy ra vì nhiều lý do. URL động là một trong số đó, nhưng cũng là thử nghiệm A / B, phiên bản có www / không có www, phiên bản http / https, cung cấp nội dung và các chi tiết cụ thể của một số nền tảng CMS. Vấn đề với việc có nội dung trùng lặp là bạn lãng phí gấp đôi ngân sách để thu thập thông tin cùng một phần nội dung.
Để giải quyết các vấn đề về nội dung trùng lặp, trước tiên bạn phải tìm các trang trùng lặp. Một cách để làm điều này là tìm kiếm các tiêu đề và mô tả meta trùng lặp trong công cụ WebSite Auditor:
Tiêu đề và đặc biệt là mô tả meta là một chỉ báo tốt về các trang có cùng nội dung. Nếu bạn tìm thấy bất kỳ trang nào thực sự giống nhau, thì bạn phải quyết định trang nào là trang chính và trang nào là trùng lặp. Bây giờ, hãy truy cập trang trùng lặp và thêm mã này vào phần <head>:
<link rel = “canonical” href = “https://example.com/main-page” />
Trong đó URL là địa chỉ của trang chính.
Bằng cách này, Google sẽ bỏ qua các trang trùng lặp và thay vào đó tập trung vào việc thu thập thông tin các trang chính.
8. Tối ưu hóa cấu trúc trang web
Mặc dù liên kết nội bộ không có mối tương quan trực tiếp với ngân sách thu thập thông tin của bạn, nhưng Google cho biết rằng các trang được liên kết trực tiếp từ trang chủ của bạn có thể được coi là quan trọng hơn và được thu thập thông tin thường xuyên hơn.
Nói chung, giữ các khu vực quan trọng trên trang web của bạn cách bất kỳ trang nào không quá ba lần nhấp chuột là lời khuyên tốt. Bao gồm các trang và danh mục quan trọng nhất trong menu hoặc chân trang của trang web của bạn. Đối với các trang web lớn hơn, như blog và trang web thương mại điện tử, các phần có bài đăng / sản phẩm liên quan và bài đăng / sản phẩm nổi bật có thể giúp ích rất nhiều trong việc đưa trang đích của bạn ra ngoài đó – cho cả người dùng và công cụ tìm kiếm.
Nếu bạn cần hướng dẫn chi tiết, tôi thực sự khuyên bạn nên xem qua hướng dẫn liên kết nội bộ này.
Phần thưởng: yêu cầu lập chỉ mục
Trong trường hợp bạn vừa xuất bản hoặc cập nhật một tác phẩm tuyệt vời và không thể đợi Google thu thập thông tin, hãy cắt dòng bằng cách sử dụng tính năng lập chỉ mục yêu cầu của Google Search Console. Tất cả những gì bạn phải làm là dán URL của mình vào trường kiểm tra URL ở trên cùng, nhấp vào enter, sau đó yêu cầu lập chỉ mục:
Và bạn thực sự có thể làm điều đó ngay cả khi trang đã được lập chỉ mục, nhưng bạn mới cập nhật nó:
Hiệu quả của tính năng này không phải là ngay lập tức. Đối với tất cả mọi thứ với Google, yêu cầu này giống như một đề xuất rất lịch sự.
Suy nghĩ cuối cùng
Như bạn có thể thấy, SEO không phải là tất cả về ‘nội dung có giá trị’ và ‘liên kết có uy tín’. Khi mặt trước của trang web của bạn trông bóng bẩy, có thể đã đến lúc đi xuống hầm và thực hiện một số hoạt động săn nhện – nó chắc chắn sẽ mang lại hiệu quả kỳ diệu trong việc cải thiện hiệu suất trang web của bạn trong tìm kiếm. Bây giờ bạn đã có tất cả các công cụ và kiến thức cần thiết để thuần hóa nhện công cụ tìm kiếm, hãy tiếp tục và thử nghiệm nó trên trang web của riêng bạn, và vui lòng chia sẻ kết quả trong phần bình luận!