Tất tần tật kiến thức về Google bot mà bạn cần biết
Googlebot là gì?
Googlebot hay Web crawler, Spider là một trình thu thập thông tin, dữ liệu trên web thông qua các liên kết của Google để cập nhật và đề xuất những yếu tố nên được thêm vào chỉ mục cho công cụ tìm kiếm của Google.
Có hai loại trình thu thập dữ liệu khác nhau là: Googlebot Desktop (Trình thu thập dữ liệu trên máy tính) và Googlebot Smartphone (Trình thu thập dữ liệu trên thiết bị di động. Để đơn giản, chúng thường được gọi với tên gọi chung là Googlebot.
Googlebot hoạt động như thế nào?
Sau khi đã hiểu rõ khái niệm Googlebot là gì, trong phần tiếp theo này hãy cùng tìm hiểu về cách hoạt động của Googlebot.
Googlebot sử dụng sơ đồ trang web và cơ sở dữ liệu của các liên kết được phát hiện trong quá trình thu thập thông tin trước đó để xác định vị trí tiếp theo.
Trong quá trình khám phá, bất cứ khi nào Googlebot tìm thấy các liên kết mới trên một trang web, nó sẽ tự động thêm chúng vào danh sách các trang để truy cập tiếp theo. Nếu Googlebot tìm thấy các thay đổi trong các liên kết hoặc liên kết bị hỏng, nó sẽ ghi chú lại để cập nhật vào chỉ mục. Để đảm bảo Googlebot có thể lập chỉ mục chính xác cho website, cần thường xuyên kiểm tra khả năng thu thập dữ liệu của các bot này.
Cách Googlebot truy cập vào website của bạn
Để tìm hiểu tần suất Googlebot truy cập website và những gì nó hoạt động tại đó, bạn có thể đi sâu vào các log files (tệp nhật ký) hoặc mở phần Crawl (Thu thập thông tin) của Google Search Console.
Với hầu hết trang web, trung bình Googlebot sẽ không truy cập trang web nhiều hơn một lần trong vài giây. Tuy nhiên, do vấn đề trễ mạng và một số yếu tố ngoại cảnh khác nên tốc độ truy cập trong những khoảng thời gian ngắn sẽ cao hơn một chút.
Nhìn chung, Googlebot thu thập dữ liệu qua HTTP/1.1. Tuy nhiên, bắt đầu từ tháng 11 năm 2020, việc thu thập dữ liệu qua HTTP/2 vẫn sẽ được cho phép nếu trang hỗ trợ giao thức này. Việc này vừa có thể giúp tiết kiệm tài nguyên điện toán (ví dụ như CPU, RAM) cho website và Googlebot, vừa không ảnh hưởng đến việc lập chỉ mục hoặc xếp hạng website.
Chặn Googlebot truy cập vào website như thế nào?
Theo Google Developer, phương thức giữ bí mật một máy chủ web bằng cách không xuất bản các đường liên kết đến máy chủ đó hầu như không có hiệu quả. Nói một cách dễ hiểu, bất kể bạn làm gì thì Googlebot vẫn truy cập vào website của bạn bằng cách này hay cách khác.
Nếu một người dùng truy cập vào một máy chủ web theo một đường dẫn “bí mật” từ máy chủ khác, URL đó vẫn có thể xuất hiện trong log file của máy chủ đó. Tương tự, bất kỳ ai cố gắng truy cập những liên kết bị hỏng, lỗi thời hoặc phát hành một liên kết không chính xác đến website của bạn tất cả đều sẽ được Googlebot ghi lại.
Hướng dẫn xác minh Googlebot
Google không chia sẻ danh sách địa chỉ IP mà các Googlebot khác nhau sử dụng vì các địa chỉ này thường xuyên thay đổi. Để tìm hiểu xem một Googlebot thực sự có truy cập trang web của bạn hay không, bạn có thể thực hiện tra cứu DNS ngược đối với IP. Thông qua cách này, bạn có thể dễ dàng loại bỏ những trình thu thập dữ liệu khác giả mạo tác nhân người dùng mà Googlebot sử dụng. Đây là ví dụ về cách Google xác minh tính hợp lệ của Googlebot.
Ngoài ra, bạn cũng có thể sử dụng robots.txt để xác định cách Googlebot truy cập vào website của mình. Tuy nhiên, nếu làm điều này sai cách, bạn có thể ngăn Googlebot xuất hiện hoàn toàn và hậu quả là đưa trang web của bạn ra khỏi chỉ mục.
Đăng nhận xét
0 Nhận xét