Nguyên nhân khiến Blog của bạn không được Index. Google Core Update vào tháng 7 đến tháng 8 năm 2021, có vẻ như các chương trình của Google “bận rộn” nên nhiều blog (đặc biệt là Blogspot) không được thu thập thông tin và lập chỉ mục.
Thậm chí, hầu hết thời gian mình gặp lỗi 5xx khi mình cố gắng kiểm tra Trực tiếp URL blog của mình bằng cách sử dụng các trình kiểm tra URL khác, lỗi 5xx không tồn tại. Sau khi Google Core Update hoàn thành, rất nhiều yêu cầu thu thập dữ liệu sẽ gửi Google Search Console để các bài đăng trên blog của bạn được tìm thấy trong “Bị loại trừ”
Cùng tìm hiểu với HoangGH nhé.
Mục lục
Google Search Console là gì?
Google Search Console là công cụ và tài nguyên để giúp chủ sở hữu trang web, quản trị trang web, nhà tiếp thị web và chuyên gia SEO theo dõi hiệu suất trang web trong chỉ mục tìm kiếm của Google.
Các tính năng bao gồm thông tin về cụm từ tìm kiếm, lưu lượng tìm kiếm, cập nhật trạng thái kỹ thuật, thu thập dữ liệu và các tài nguyên bổ sung.
Google Search Console(GSC) trước đây là Google Webmaster Tools cho đến khi lấy tên hiện tại vào năm 2015.
Google Search Console là một nền tảng miễn phí cho bất kỳ ai có trang web để theo dõi cách Google xem trang web của họ và tối ưu hóa sự hiện diện hữu cơ của nó. Bao gồm các tính năng như xem domain backlink, hiệu suất trang web trên thiết bị di động, kết quả tìm kiếm phong phú và các trang và truy vấn có lưu lượng truy cập cao nhất, vv.
>> Xem thêm: Google Search Console là gì? Hướng dẫn sử dụng từ A->Z
Nguyên nhân khiến Blog của bạn không được Index
Dưới đây là một số nguyên nhân có thể đưa các bài đăng trên blog của bạn vào tab bị loại trừ trong Google Search Console.
Chuyển hướng trang
Nếu bạn bật phiên bản di động của blog, mỗi bài đăng trên blog sẽ có hai phiên bản URL. Phiên bản đầu tiên là phiên bản chuẩn và phiên bản thứ hai là phiên bản di động. URL phiên bản di động của bài đăng trên blog của bạn có tham số bổ sung như url.html?m=1. ?m=1. tuyên bố rằng URL tương thích với thiết bị di động, trong đó m là viết tắt của mobile và 1 có nghĩa là true. Loại URL này không được lập chỉ mục có chủ đích vì chúng có thể tự động truy cập khi người dùng sử dụng thiết bị di động để truy cập vào URL chuẩn của bạn. Khi họ truy cập URL của bạn bằng thiết bị di động, họ sẽ được chuyển hướng đến các URL tương thích với thiết bị di động này.
Vì vậy là nên tắt hoặc xóa ?m=1 bằng đoạn Script dưới đây.
var uri = window.location.toString();if (uri.indexOf(“?m=1″,”?m=1″) > 0) {var clean_uri = uri.substring(0, uri.indexOf(“?m=1”));window.history.replaceState({}, document.title, clean_uri);};
document.addEventListener(‘DOMContentLoaded’, function () {
var links = document.getElementsByTagName(“a”);
var i;
for (i = 0; i < links.length; i++) {
if (location.hostname !== links[i].hostname) {
links[i].rel = “nofollow noopener noreferrer”;
links[i].target = “_blank”;
}
}
});
Nội dung trùng lặp
Google không cần thiết phải lập chỉ mục các nội dung trùng lặp trong blog của bạn. Tuy nhiên, thật kỳ lạ là Google vẫn lập chỉ mục các nội dung trùng lặp khi chúng được gửi từ các tên miền khác nhau. Bạn cần kiểm tra xem các bài đăng trên blog của mình có chứa nội dung trùng lặp hay không và khi bạn tìm thấy những nội dung đó, hãy diễn giải nội dung hoặc chỉ xóa chúng.
Trang bị quá tải
Các bot của Google có lịch trình thu thập dữ liệu các bài đăng trên blog của bạn trong một khoảng thời gian nhất định trong mỗi lần kiểm tra. Nếu các bài đăng trên blog của bạn mất nhiều thời gian tải, tôi e rằng nếu các bot của Google buộc phải bỏ qua chúng. Về cơ bản, một trang sẽ bị quá tải nếu phương tiện (hình ảnh hoặc video) được sử dụng trong trang quá lớn và quá nhiều tập lệnh chạy phía sau trang.
Cấu trúc HTML không hợp lệ
Nhiều người bỏ qua việc sử dụng các thẻ HTML thích hợp trong bài viết của họ. Những gì các công cụ tìm kiếm thu thập thông tin và trình duyệt hiển thị là các trang html. Sử dụng thẻ HTML đúng cách đảm bảo khả năng đọc của trang. Trang càng dễ đọc, trang càng dễ được thu thập thông tin và lập chỉ mục.
Robot.txt
Blog của bạn có cài đặt robot.txt mà bạn cần phải xem xét cẩn thận. Nếu bạn đang sử dụng Blogspot, bạn có ba cách để đặt quy tắc robot. Đầu tiên là trong mẫu blogger của bạn bằng cách sử dụng thẻ meta robot, thẻ thứ hai là trong tệp robots.txt tùy chỉnh của bạn trong cài đặt blogger của bạn và thẻ thứ ba là thẻ tiêu đề rô bốt tùy chỉnh trong bài đăng và trang blog của bạn; điều này cũng có thể được tìm thấy trong cài đặt blogger. Các quy tắc robot của bạn có thể được đặt để trang blog của bạn không bị thu thập thông tin và lập chỉ mục bởi các rô bốt của Google.
Thẻ Robot.txt mà mình đang sử dụng
User-agent: Mediapartners-Google
User-agent: Googlebot
User-agent: Bingbot
Disallow:
User-agent: *
Allow: /search
Disallow: /search*
Allow: /
Allow: *max-results=8
Allow: /search/label/
Disallow: *archive.html
Disallow: *?updated-max*
Disallow: *?m=0
Sitemap: https://hoanggh.com/sitemap.xml
Sitemap: https://hoanggh.com/atom.xml?redirect=false&start-index=1&max-results=500
Lưu ý: Bạn thay https://hoanggh.com bằng tên blog của bạn
Liên kết nội bộ kém
Khi Google Search Console quét các URL của bạn, Google Search Console cũng sẽ tìm kiếm trang giới thiệu. Nếu URL của bạn không được các trang được lập chỉ mục giới thiệu, thì có vẻ như URL của bạn không có khả năng được lập chỉ mục vì nó thiếu tin cậy.
Lịch trình Google Bot
Bài đăng của bạn bị loại trừ, bị phát hiện – hiện không được lập chỉ mục vì Google bot đã lên lịch thu thập thông tin bài đăng của bạn vào lần tiếp theo. Thật khó để nói khi nào nó sẽ trở lại để thu thập thông tin bài đăng trên blog của bạn nhưng nếu bài đăng của bạn không có các vấn đề được đề cập ở trên, nó chắc chắn sẽ quay trở lại.
Chúc các bạn thành công!
>> Tham khảo: Index là gì? Cách index URL website nhanh chóng