Quản lý sơ đồ trang web của bạn

Tạo và gửi sơ đồ trang web

Trang này mô tả cách tạo và gửi sơ đồ trang web cho Google. Tìm hiểu thêm về sơ đồ trang web tại đây.

Tạo và gửi sơ đồ trang web

  1. Quyết định sẽ để Google thu thập dữ liệu những trang nào trên trang web của bạn và xác định phiên bản chuẩn của mỗi trang. 
  2. Quyết định định dạng sơ đồ trang web bạn muốn sử dụng. Bạn có thể tạo sơ đồ trang web theo cách thủ công hoặc chọn một trong số các công cụ bên thứ ba để tạo sơ đồ trang web cho bạn.
  3. Cung cấp sơ đồ trang web của bạn cho Google bằng cách thêm sơ đồ vào tệp robots.txt hoặc gửi trực tiếp cho Search Console.

Định dạng sơ đồ trang web

Google hỗ trợ một số định dạng sơ đồ trang web được mô tả ở đây. Bạn nên gửi cho Google giao thức sơ đồ trang web chuẩn ở tất cả các định dạng. Hiện tại, Google sẽ bỏ qua thuộc tính <priority> trong sơ đồ trang web.

Cho dù bạn sử dụng định dạng nào, Google đều áp dụng giới hạn 50 MB (kích thước không nén) và 50.000 URL với một sơ đồ trang web. Nếu bạn có tệp lớn hơn hoặc nhiều URL hơn, bạn sẽ phải tách danh sách của mình thành nhiều sơ đồ trang web. Bạn cũng có thể chọn tạo một tệp chỉ mục sơ đồ trang web (một tệp trỏ đến danh sách sơ đồ trang web) và gửi tệp đó chỉ mục đó cho Google. Bạn có thể gửi nhiều sơ đồ trang web và/hoặc tệp chỉ mục sơ đồ trang web cho Google.

XML

Dưới đây là một sơ đồ trang web XML rất cơ bản bao gồm vị trí của một URL:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> 
  <url>
    <loc>http://www.example.com/foo.html</loc>
    <lastmod>2018-06-04</lastmod>
  </url>
</urlset>

Các ví dụ phức tạp hơn và tài liệu đầy đủ có tại sitemaps.org.

Bạn có thể xem ví dụ về sơ đồ trang web chỉ định các trang ngôn ngữ thay thế và sơ đồ trang web cho các tệp tin tức, hình ảnh hoặc video.

RSS, mRSS và Atom 1.0

Nếu bạn có blog với nguồn cấp dữ liệu RSS hoặc Atom, bạn có thể gửi URL của nguồn cấp dữ liệu dưới dạng sơ đồ trang web. Hầu hết các phần mềm viết blog có thể tạo nguồn cấp dữ liệu cho bạn, nhưng xin lưu ý rằng nguồn cấp dữ liệu này chỉ cung cấp thông tin về các URL gần đây.

Text

Nếu sơ đồ trang web của bạn chỉ bao gồm URL của trang web, bạn có thể cung cấp cho Google một tệp văn bản đơn giản có chứa một URL trên mỗi dòng. Ví dụ:

http://www.example.com/file1.html
http://www.example.com/file2.html

Nguyên tắc về sơ đồ trang web ở dạng tệp văn bản:

  • Mã hóa tệp bằng phương thức mã hóa UTF-8.
  • Tệp văn bản của bạn chỉ được chứa danh sách URL mà không được chứa nội dung gì khác.
  • Bạn có thể đặt bất kỳ cái tên nào bạn muốn cho tệp văn bản, miễn là nó có phần mở rộng .txt (ví dụ: sodotrangweb.txt).
Google Sites

Nếu bạn đã tạo và xác minh một trang web bằng cách sử dụng Google Sites, thì Sites sẽ tự động tạo sơ đồ trang web cho bạn. Bạn không thể sửa đổi sơ đồ trang web, nhưng bạn có thể gửi sơ đồ đó cho Google nếu bạn muốn đọc dữ liệu báo cáo sơ đồ trang web. Xin lưu ý rằng sơ đồ trang web của bạn có thể không được hiển thị đúng cách nếu bạn có nhiều hơn 1000 trang trong một thư mục con duy nhất.

  • Nếu trang web của bạn được lưu trữ tại Google Sites, URL sơ đồ trang web sẽ là http://sites.google.com/site/yoursitename/system/feeds/sitemap
  • Nếu bạn đã tạo trang web bằng cách sử dụng Google Apps, URL sơ đồ trang web sẽ là http://sites.google.com/yourdomain/yoursitename/system/feeds/sitemap

Phần mở rộng của sơ đồ trang web cho các loại nội dung đa phương tiện khác

Google hỗ trợ cú pháp sơ đồ trang web mở rộng cho các loại nội dung đa phương tiện sau đây. Hãy sử dụng các phần mở rộng này để mô tả các tệp video, hình ảnh và các nội dung khó phân tích cú pháp khác trên trang web của bạn để cải thiện việc lập chỉ mục.

Nguyên tắc chung về sơ đồ trang web

  • Sử dụng các URL hoàn toàn đủ điều kiện, nhất quán. Google sẽ thu thập dữ liệu các URL của bạn chính xác như được liệt kê. Ví dụ: nếu trang web của bạn nằm tại https://www.example.com/, không chỉ định URL là https://example.com/ (không có www) hoặc ./mypage.html (URL tương đối).
  • Bạn có thể đăng sơ đồ trang web ở bất cứ đâu trên trang web của mình, nhưng một sơ đồ trang web chỉ ảnh hưởng đến các thư mục con của thư mục gốc. Do đó, một sơ đồ trang web đăng ở thư mục gốc của trang web có thể ảnh hưởng đến tất cả các tệp trên trang web. Do đó, chúng tôi khuyên bạn nên đăng sơ đồ trang web ở thư mục gốc.
  • Không đưa mã nhận dạng phiên trong URL vào sơ đồ trang web của bạn để giảm việc thu thập dữ liệu trùng lặp các URL đó.
  • Cho Google biết về các phiên bản ngôn ngữ khác của một URL bằng chú thích hreflang.
  • Tệp sơ đồ trang web phải được mã hóa bằng phương thức UTF-8, và dùng mã thoát dành cho URL một cách thích hợp.
  • Chia các sơ đồ trang web lớn thành các sơ đồ trang web nhỏ hơn: kích thước sơ đồ trang web tối đa là 50.000 URL/50MB không nén. Sử dụng tệp chỉ mục sơ đồ trang web để liệt kê tất cả các sơ đồ trang web riêng lẻ và gửi tệp này tới Google thay vì gửi các sơ đồ trang web riêng lẻ.
  • Chỉ liệt kê các URL chính tắc trong sơ đồ trang web của bạn. Nếu trang của bạn có hai phiên bản, bạn chỉ nên liệt kê phiên bản chuẩn (do Google chọn) trong sơ đồ trang web. Nếu trang web của bạn có hai phiên bản (ví dụ: phiên bản có tiền tố www và không có tiền tố www), hãy chọn trang web ưa thích của bạn và đặt sơ đồ trang web ở đó rồi thêm rel=canonical hoặc lệnh chuyển hướng trên trang web còn lại.
  • Nếu có các URL khác nhau cho phiên bản dành cho thiết bị di động và máy tính của một trang, sơ đồ trang web của bạn chỉ nên trỏ đến một phiên bản. Tuy nhiên, nếu bạn cảm thấy cần phải trỏ đến cả hai URL, hãy  chú thích các URL của bạn để chỉ rõ phiên bản cho máy tính và thiết bị di động.
  • Sử dụng phần mở rộng sơ đồ trang web để trỏ đến các loại nội dung đa phương tiện bổ sung như video, hình ảnh và tin tức.
  • Nếu có các trang riêng cho mỗi ngôn ngữ hoặc khu vực, bạn có thể sử dụng hreflang trong một sơ đồ trang web hoặc thẻ html để chỉ rõ các URL thay thế.
  • Ký tự không phải chữ và số và phi Latin. Chúng tôi yêu cầu tệp sơ đồ trang web của bạn phải được mã hoá bằng phương thức UTF-8 (thường thì bạn có thể thực hiện điều này khi lưu tệp). Cũng như với tất cả các tệp XML, bất kỳ giá trị dữ liệu nào (kể cả các URL) cũng phải sử dụng các mã thoát của thực thể cho những ký tự được liệt kê trong bảng dưới đây.  Một sơ đồ trang web chỉ có thể chứa các ký tự ASCII; sơ đồ trang web không được chứa ký tự ASCII trên các mã kiểm soát nhất định hoặc các ký tự đặc biệt như * và {}. Nếu URL sơ đồ trang web của bạn chứa các ký tự này, bạn sẽ thấy lỗi khi cố thêm sơ đồ.
    Ký tự Mã thoát
    Ký hiệu & & &amp;
    Dấu nháy đơn ' &apos;
    Dấu nháy kép " &quot;
    Lớn hơn > &gt;
    Nhỏ hơn < &lt;
    Ngoài ra, tất cả các URL (kể cả URL sơ đồ trang web) phải dùng mã thoát dành cho URL và phải được mã hoá sao cho máy chủ web lưu trữ các URL đó có thể đọc được. Tuy nhiên, nếu bạn sử dụng bất kỳ loại tập lệnh, công cụ hoặc tệp nhật ký nào để tạo URL của mình (bất cứ phương thức gì ngoại trừ việc nhập URL theo cách thủ công) thì thông thường, yêu cầu trên đã được thực hiện sẵn cho bạn. Nếu bạn gửi sơ đồ trang web và nhận được lỗi rằng Google không thể tìm thấy một số URL, hãy kiểm tra để chắc chắn rằng URL của bạn tuân thủ chuẩn RFC-3986 cho URI, chuẩn RFC-3987 cho IRI và chuẩn XML.

    Sau đây là ví dụ về một URL sử dụng ký tự không phải ASCII (ü) cũng như một ký tự yêu cầu mã thoát của thực thể (&):
    http://www.example.com/ümlat.html&q=name
    Sau đây vẫn là URL đó, nhưng được mã hóa theo ISO-8859-1 (để lưu trữ trên một máy chủ sử dụng phương thức mã hóa này) và dùng mã thoát dành cho URL:
    http://www.example.com/%FCmlat.html&q=name
    Sau đây vẫn là URL đó, nhưng được mã hóa bằng phương thức UTF-8 (để lưu trữ trên một máy chủ sử dụng phương thức mã hóa này) và dùng mã thoát dành cho URL:
    http://www.example.com/%C3%BCmlat.html&q=name
    Và cuối cùng vẫn là URL đó dùng mã thoát của thực thể:
    http://www.example.com/%C3%BCmlat.html&amp;q=name
  • Hãy nhớ rằng sơ đồ trang web là phương thức để bạn đề xuất  cho Google những trang mà bạn cho là quan trọng; Google không cam kết sẽ thu thập dữ liệu mọi URL trong sơ đồ trang web.
  • Google bỏ qua các giá trị <priority> và <changefreq>, vì vậy, đừng bận tâm đến việc thêm chúng.
  • Google có đọc giá trị <lastmod>, nhưng nếu bạn cung cấp giá trị này ở định dạng không hợp lệ, chúng tôi sẽ ngừng đọc.
  • Vị trí của một URL trong sơ đồ trang web không quan trọng; Google không thu thập dữ liệu về URL theo thứ tự xuất hiện trong sơ đồ trang web của bạn.

Cung cấp sơ đồ trang web cho Google (Gửi sơ đồ trang web cho Google)

Google không kiểm tra sơ đồ trang web mỗi lần thu thập dữ liệu đối với sơ đồ đó; chúng tôi chỉ kiểm tra một sơ đồ trang web một lần sau khi phát hiện, và sau đó chỉ kiểm tra lại khi bạn ping chúng tôi để thông báo rằng sơ đồ đó đã thay đổi. Bạn chỉ nên thông báo cho Google về một sơ đồ trang web khi bạn tạo một sơ đồ mới hoặc cập nhật sơ đồ hiện có; đừng gửi hoặc ping Google nhiều lần về một sơ đồ trang web không đổi.

Có vài cách khác nhau để cung cấp sơ đồ trang web của bạn cho Google:

  • Gửi sơ đồ cho Google bằng cách sử dụng công cụ Sơ đồ trang web trong Search Console
  • Chèn dòng sau vào một vị trí bất kỳ trong tệp  robots.txt  của bạn để chỉ định đường dẫn đến sơ đồ trang web của bạn:
    Sitemap: http://example.com/sitemap_location.xml
  • Sử dụng chức năng "ping" để yêu cầu chúng tôi thu thập dữ liệu sơ đồ trang web của bạn. Gửi một yêu cầu GET đối với HTTP như sau:
      http://www.google.com/ping?sitemap=<complete_url_of_sitemap>
    ví dụ:
      http://www.google.com/ping?sitemap=https://example.com/sitemap.xml

Khắc phục sự cố với sơ đồ trang web

Xem hướng dẫn khắc phục sự cố với sơ đồ trang web.

Thông tin này có hữu ích không?
Chúng tôi có thể cải thiện trang này bằng cách nào?