Google nhận thấy sự gia tăng trong việc sử dụng sai các phản hồi 403/404 từ các nhà xuất bản và Mạng phân phối nội dung để giới hạn tỷ lệ Googlebot.
>> Tham khảo: Google Bard AI – Trang web nào đã được sử dụng để đào tạo nó?
Google đã xuất bản hướng dẫn về cách giảm tốc độ thu thập dữ liệu của Googlebot một cách hợp lý do việc sử dụng sai mã phản hồi 403/404 ngày càng tăng, điều này có thể tác động tiêu cực đến các trang web.
Hướng dẫn đề cập rằng việc lạm dụng mã phản hồi đang gia tăng từ các nhà xuất bản web và mạng phân phối nội dung.
1. Xếp hạng giới hạn Googlebot
Googlebot là phần mềm tự động của Google truy cập (thu thập thông tin) các trang web và tải xuống nội dung.
Giới hạn tỷ lệ Googlebot có nghĩa là làm chậm tốc độ Google thu thập dữ liệu trang web.
Cụm từ, tốc độ thu thập thông tin của Google, đề cập đến số lượng yêu cầu đối với các trang web mỗi giây mà Googlebot thực hiện.
Đôi khi, nhà xuất bản có thể muốn làm chậm Googlebot, chẳng hạn như nếu nó gây ra quá nhiều tải cho máy chủ.
Google đề xuất một số cách để hạn chế tốc độ thu thập dữ liệu của Googlebot, chủ yếu trong số đó là thông qua việc sử dụng Google Search Console.
>> Tham khảo: Cách ChatGPT có thể giúp bạn tạo nội dung cho SEO.
Giới hạn tốc độ thông qua bảng điều khiển tìm kiếm sẽ làm chậm tốc độ thu thập dữ liệu trong khoảng thời gian 90 ngày.
Một cách khác để ảnh hưởng đến tốc độ thu thập dữ liệu của Google là thông qua việc sử dụng Robots.txt để chặn Googlebot thu thập dữ liệu các trang, thư mục (danh mục) riêng lẻ hoặc toàn bộ trang web.
Một điều tốt về Robots.txt là nó chỉ yêu cầu Google không thu thập dữ liệu và không yêu cầu Google xóa một trang web khỏi chỉ mục.
Tuy nhiên, việc sử dụng tệp robots.txt có thể dẫn đến “tác động lâu dài” đối với các kiểu thu thập dữ liệu của Google.
Có lẽ vì lý do đó, giải pháp lý tưởng là sử dụng Search Console.
2. Google: Ngừng giới hạn tốc độ với 403/404
Google đã xuất bản hướng dẫn trên blog Trung tâm tìm kiếm của họ khuyên các nhà xuất bản không sử dụng mã phản hồi 4XX (ngoại trừ mã phản hồi 429).
Bài đăng trên blog đã đề cập cụ thể đến việc sử dụng sai mã phản hồi lỗi 403 và 404 để giới hạn tốc độ, nhưng hướng dẫn áp dụng cho tất cả các mã phản hồi 4XX ngoại trừ phản hồi 429.
Đề xuất này là bắt buộc vì họ nhận thấy số lượng nhà xuất bản sử dụng các mã phản hồi lỗi đó ngày càng tăng nhằm mục đích hạn chế tốc độ thu thập dữ liệu của Google.
>> Tham khảo: Nhắm mục tiêu quảng cáo cho người dùng Facebook và Instagram.
Mã phản hồi 403 có nghĩa là khách truy cập (trong trường hợp này là Googlebot) bị cấm truy cập trang web.
Mã phản hồi 404 cho Googlebot biết rằng trang web đã hoàn toàn biến mất.
Mã phản hồi lỗi máy chủ 429 có nghĩa là “quá nhiều yêu cầu” và đó là một phản hồi lỗi hợp lệ.
Theo thời gian, Google cuối cùng có thể loại bỏ các trang web khỏi chỉ mục tìm kiếm của họ nếu họ tiếp tục sử dụng hai mã phản hồi lỗi đó.
Điều đó có nghĩa là các trang sẽ không được xem xét để xếp hạng trong kết quả tìm kiếm.
Google đã viết:
“Trong vài tháng qua, chúng tôi nhận thấy số lượng chủ sở hữu trang web và một số mạng phân phối nội dung (CDN) đang cố gắng sử dụng 404 và các lỗi máy khách 4xx khác (chứ không phải 429) để cố gắng giảm tốc độ thu thập dữ liệu của Googlebot.
Phiên bản ngắn của bài đăng trên blog này là: làm ơn đừng làm thế…”
Cuối cùng, Google khuyên bạn nên sử dụng mã phản hồi lỗi 500, 503 hoặc 429.
Mã phản hồi 500 có nghĩa là đã xảy ra lỗi máy chủ nội bộ. Phản hồi 503 có nghĩa là máy chủ không thể xử lý yêu cầu cho một trang web.
>> Tham khảo: Nội dung AI: Nó hữu ích hay spam?
Google coi cả hai loại phản hồi đó là lỗi tạm thời. Vì vậy, nó sẽ quay lại sau để kiểm tra xem các trang có sẵn không.
Phản hồi lỗi 429 cho bot biết rằng nó đang thực hiện quá nhiều yêu cầu và nó cũng có thể yêu cầu bot đợi một khoảng thời gian nhất định trước khi thu thập lại dữ liệu.
Google khuyên bạn nên tham khảo Trang dành cho nhà phát triển của họ về giới hạn tỷ lệ Googlebot.