Google đã cập nhật tài liệu chính thức của Googlebot với hướng dẫn mới về lượt truy cập từ các IP được liên kết với GoogleUserContent.com.
Google đã cập nhật Tài liệu trung tâm tìm kiếm của họ để xác minh Googlebot, thêm tài liệu về lượt truy cập bot do người dùng kích hoạt, thông tin bị thiếu trong tài liệu Googlebot trước đây, điều này đã gây nhầm lẫn trong nhiều năm, với một số nhà xuất bản chặn dải IP của lượt truy cập hợp pháp.
>> Tham khảo: Trí tuệ nhân tạo sắp ra mắt trên Google Ads.
1. Tài liệu Bot mới được cập nhật
Google đã thêm một tài liệu mới phân loại ba loại bot khác nhau mà các nhà xuất bản nên mong đợi.
Đây là ba loại Google Bots:
- Googlebot – Trình thu thập thông tin tìm kiếm
- Trình thu thập trường hợp đặc biệt
- Trình tìm nạp do người dùng kích hoạt (GoogleUserContent)
Điều cuối cùng, GoogleUserContent là một điều khiến các nhà xuất bản bối rối trong một thời gian dài vì Google không có bất kỳ tài liệu rõ ràng nào về nó.
Đây là những gì Google nói về GoogleUserContent:
“Trình tìm nạp do người dùng kích hoạt
Các công cụ và chức năng của sản phẩm nơi người dùng cuối kích hoạt tìm nạp.
Ví dụ: Google Site Verifier hoạt động theo yêu cầu của người dùng.
Do người dùng yêu cầu tìm nạp nên những trình tìm nạp này bỏ qua các quy tắc của tệp robots.txt.”
Tài liệu nói rằng mặt nạ DNS đảo ngược sẽ hiển thị tên miền sau:
“–––.gae.googleusercontent.com”
Google gần đây đã cập nhật trang Google Crawlers của họ để tạo một phần cụ thể về các trình tìm nạp do người dùng kích hoạt.
Danh sách các trình thu thập dữ liệu khác nhau chứa các bot giống nhau nhưng trang này đã được sắp xếp lại để phân loại các trình tìm nạp do người dùng kích hoạt trong nhóm riêng của chúng.
>> Tham khảo: Cách tạo các trang dịch vụ được xếp hạng và đem đến chuyển đổi.
Các trình thu thập thông tin sau hiện được chỉ định là trình tìm nạp do người dùng kích hoạt:
“Trình tải nguồn cấp dữ liệu
Feedfetcher được sử dụng để thu thập dữ liệu nguồn cấp dữ liệu RSS hoặc Atom cho Google Podcasts, Google News và PubSubHubbub.
Trung tâm xuất bản của Google
Tìm nạp và xử lý nguồn cấp dữ liệu mà nhà xuất bản đã cung cấp rõ ràng thông qua Trung tâm xuất bản của Google để sử dụng trong các trang đích của Google Tin tức.
Google Đọc to
Theo yêu cầu của người dùng, Google Read Aloud tìm nạp và đọc to các trang web bằng tính năng chuyển văn bản thành giọng nói (TTS).
Trình xác minh trang web của Google
Trình xác minh trang web của Google tìm nạp mã thông báo xác minh Search Console theo yêu cầu của người dùng.”
Trước đây, một số người trong cộng đồng SEO đã nói với tôi rằng hoạt động của bot từ các địa chỉ IP được liên kết với GoogleUserContent.com đã được kích hoạt khi người dùng xem trang web thông qua chức năng dịch từng có trong kết quả tìm kiếm, một tính năng không còn tồn tại trong SERPs của Google.
Tôi không biết điều đó có đúng hay không trong quá khứ.
Nhưng ở trên là thông tin mới mà chúng tôi hiện có về trình tải do người dùng kích hoạt.
Ngoài ra, Google đã thêm thông tin sau về trình tìm nạp do người dùng kích hoạt:
“Trình tìm nạp do người dùng kích hoạt
Trình tìm nạp do người dùng kích hoạt được người dùng kích hoạt để thực hiện một chức năng cụ thể của sản phẩm. Ví dụ: Trình xác minh trang web của Google hoạt động theo yêu cầu của người dùng.
Do người dùng yêu cầu tìm nạp nên những trình tìm nạp này thường bỏ qua các quy tắc trong tệp robots.txt. Phạm vi IP mà trình tìm nạp do người dùng kích hoạt sử dụng được xuất bản trong đối tượng do người dùng kích hoạt-fetcher.json.”
Tài liệu mới của Google giải thích rằng hoạt động bot từ các địa chỉ IP được liên kết với GoogleUserContent.com có thể được kích hoạt bởi công cụ Google Site Verifier.
>> Tham khảo: Các tính năng mới của LinkedIn tăng cường tìm kiếm việc làm dựa trên giá trị.
Thay đổi khác trong tài liệu là một tham chiếu đến googleusercontent.com trong ngữ cảnh địa chỉ IP được gán cho tên miền, GoogleUserContent.com.
Cuối cùng, Google đã gỡ bỏ trình thu thập dữ liệu Ứng dụng dành cho thiết bị di động Android của họ.
Mã thông báo tác nhân người dùng và chuỗi đầy đủ đều là: AdsBot-Google-Mobile-Apps
Đây là mục đích của trình thu thập thông tin hiện đã ngừng hoạt động:
“Kiểm tra chất lượng quảng cáo trên trang ứng dụng Android. Tuân thủ các quy tắc của AdsBot-Google robots, nhưng bỏ qua tác nhân người dùng chung (*) trong robots.txt.”
Đây là văn bản mới:
“Xác minh rằng tên miền là googlebot.com, google.com hoặc googleusercontent.com.”
Một bổ sung mới khác là văn bản sau được mở rộng từ trang cũ:
“Ngoài ra, bạn có thể xác định Googlebot theo địa chỉ IP bằng cách khớp địa chỉ IP của trình thu thập thông tin với danh sách dải IP của trình thu thập thông tin và trình tìm nạp của Google:
Googlebot
Trình thu thập dữ liệu đặc biệt như AdsBot
Tìm nạp do người dùng kích hoạt”
2. Tài liệu nhận dạng Google Bot
Tài liệu mới cuối cùng cũng có điều gì đó về các bot sử dụng địa chỉ IP được liên kết với GoogleUserContent.
Các nhà tiếp thị tìm kiếm đã nhầm lẫn với các địa chỉ IP đó và cho rằng các bot đó là thư rác.
Một cuộc thảo luận Trợ giúp về Google Search Console từ năm 2020 cho thấy mọi người bối rối như thế nào về hoạt động liên quan đến GoogleUserContent.
Nhiều người trong cuộc thảo luận đó đã kết luận đúng rằng đó không phải là Googlebot nhưng sau đó kết luận nhầm rằng đó là một bot giả vờ là Google.
Một người dùng đã đăng:
“Hành vi mà tôi thấy đến từ các địa chỉ này rất gần (nếu không muốn nói là giống hệt) với hành vi hợp pháp của Googlebot và nó tấn công nhiều trang web của chúng tôi.
…Nếu không phải như vậy – thì điều này dường như cho thấy có hoạt động bot độc hại phổ biến do ai đó cố gắng hết sức để trông giống Google trên các trang web của chúng tôi, điều đáng lo ngại.”
>> Tham khảo: Google tung ra bản cập nhật thuật toán cốt lõi tháng 3 năm 2023.
Sau một số phản hồi, người bắt đầu cuộc thảo luận kết luận rằng hoạt động GoogleUserContent là spam.
Họ viết:
“…Googlebots được đề cập có bắt chước các Tác nhân người dùng chính thức, nhưng có vẻ như bằng chứng cho thấy chúng là giả mạo.
Tôi sẽ chặn chúng ngay bây giờ.
Giờ đây, chúng tôi biết rằng hoạt động của bot từ các IP được liên kết với GoogleUserContent không phải là bot spam hoặc tin tặc.
Chúng thực sự đến từ Google. Các nhà xuất bản hiện đang chặn địa chỉ IP được liên kết với GoogleUserContent có thể nên bỏ chặn chúng.