1. Giới thiệu
Lỗi “Blocked by robots.txt” trong Google Search Console là một thông báo phổ biến mà các quản trị viên web thường gặp phải. Lỗi này cho biết rằng Googlebot (hoặc các công cụ tìm kiếm khác) không thể thu thập dữ liệu trang web của bạn vì một số trang bị chặn bởi tập tin robots.txt. Tập tin robots.txt là một phần quan trọng trong quản lý các bot và crawler của các công cụ tìm kiếm, nhưng nếu không được cấu hình đúng cách, nó có thể gây ra vấn đề nghiêm trọng cho SEO của bạn. Bài viết này sẽ hướng dẫn bạn cách nhận diện và sửa lỗi “Blocked by robots.txt” một cách chi tiết.
2. Tìm hiểu về robots.txt
Tập tin robots.txt
nằm ở thư mục gốc của trang web của bạn và được sử dụng để chỉ định các quy tắc cho các bot và crawler của các công cụ tìm kiếm. Ví dụ, bạn có thể sử dụng tập tin này để yêu cầu các bot không thu thập dữ liệu các trang cụ thể hoặc không theo dõi các liên kết trong một phần của trang web.
Một ví dụ về tập tin robots.txt:
User-agent: *
Disallow: /private/
Disallow: /no-index/
Trong ví dụ trên, tất cả các bot sẽ bị chặn khỏi thu thập dữ liệu từ các trang trong thư mục /private/
và /no-index/
.
3. Cách Kiểm Tra Lỗi “Blocked by robots.txt”
Để xác định các trang bị chặn bởi robots.txt, bạn có thể thực hiện các bước sau:
Đăng nhập vào Google Search Console: Truy cập vào tài khoản Google Search Console của bạn và chọn trang web bạn muốn kiểm tra.
Đi đến công cụ “Kiểm tra URL”: Trong bảng điều khiển bên trái, chọn “Kiểm tra URL”. Nhập URL của trang mà bạn nghi ngờ bị chặn và nhấn “Enter”.
Xem xét thông báo: Nếu trang web bị chặn bởi robots.txt, bạn sẽ thấy thông báo “Blocked by robots.txt” trong kết quả kiểm tra. Bạn cũng có thể xem chi tiết về lý do bị chặn.
4. Sửa Lỗi “Blocked by robots.txt”
Để sửa lỗi “Blocked by robots.txt”, bạn cần chỉnh sửa tập tin robots.txt của mình. Dưới đây là hướng dẫn chi tiết:
Xác định vấn đề: Đầu tiên, xác định những trang hoặc thư mục nào bị chặn và lý do tại sao. Điều này có thể được thực hiện thông qua Google Search Console hoặc kiểm tra trực tiếp tập tin robots.txt.
Chỉnh sửa tập tin robots.txt:
Truy cập tập tin robots.txt: Mở tập tin robots.txt của bạn thông qua FTP hoặc trình quản lý tập tin trên máy chủ web của bạn.
Sửa lỗi: Loại bỏ hoặc chỉnh sửa các quy tắc không mong muốn. Ví dụ, nếu bạn muốn cho phép Googlebot thu thập dữ liệu một thư mục mà trước đó đã bị chặn, hãy loại bỏ dòng Disallow: /example/
tương ứng hoặc thay đổi nó thành Allow: /example/
.
Tải lên tập tin đã chỉnh sửa: Sau khi thực hiện thay đổi, tải lên tập tin robots.txt đã chỉnh sửa về thư mục gốc của trang web.
Kiểm tra lại: Trở lại Google Search Console và sử dụng công cụ “Kiểm tra URL” để đảm bảo rằng các thay đổi đã được áp dụng và không còn lỗi “Blocked by robots.txt”.
5. Xác Minh và Theo Dõi
Xác minh: Đảm bảo rằng các trang web mà bạn muốn cho phép thu thập dữ liệu đã được mở khóa bằng cách sử dụng công cụ “Kiểm tra URL” trong Google Search Console.
Theo dõi: Theo dõi các báo cáo của Google Search Console để đảm bảo rằng không còn lỗi “Blocked by robots.txt” và trang web của bạn đang được thu thập dữ liệu đúng cách.
6. Các Lưu Ý Quan Trọng
Đảm bảo không gây ra vấn đề bảo mật: Khi mở khóa các trang hoặc thư mục, hãy chắc chắn rằng bạn không vô tình mở ra các vấn đề bảo mật. Chỉ mở khóa những trang hoặc thư mục cần thiết.
Cập nhật thường xuyên: Thường xuyên kiểm tra và cập nhật tập tin robots.txt của bạn để đảm bảo nó phản ánh đúng chiến lược SEO và yêu cầu của bạn.
7. Kết Luận
Lỗi “Blocked by robots.txt” có thể ảnh hưởng nghiêm trọng đến khả năng thu thập dữ liệu và xếp hạng của trang web trong các công cụ tìm kiếm. Bằng cách hiểu và sửa lỗi này một cách hiệu quả, bạn có thể cải thiện khả năng hiển thị của trang web và đảm bảo rằng nội dung quan trọng của bạn được lập chỉ mục và xuất hiện trong kết quả tìm kiếm. Nếu bạn gặp khó khăn hoặc cần thêm hỗ trợ, hãy liên hệ với các chuyên gia SEO hoặc nhà phát triển web để được tư vấn thêm.
Kết nối với web designer Lê Thành Nam