Google Tìm kiếm hoạt động như thế nào

Tìm hiểu cách Google phát hiện, thu thập dữ liệu và phân phát các trang web

Google hoạt động như thế nào? Sau đây là phần mô tả ngắn và phần mô tả dài về cách hoạt động của Google.

Google lấy thông tin từ nhiều nguồn khác nhau, bao gồm: 

  • Trang web,
  • Nội dung do người dùng gửi, chẳng hạn như nội dung người dùng gửi trong Google Doanh nghiệp của tôi và Maps,
  • Quy trình quét nội dung sách,
  • Cơ sở dữ liệu công khai trên Internet,
  • và nhiều nguồn khác.

Tuy nhiên, trang này sẽ tập trung vào các trang web.

Mô tả ngắn

Google thực hiện ba bước cơ bản để tạo kết quả từ các trang web:

Thu thập dữ liệu

Bước đầu tiên là tìm những trang tồn tại trên web. Không có một danh mục trung tâm về tất cả các trang web, do đó, Google phải liên tục tìm kiếm các trang mới và thêm chúng vào danh sách các trang đã biết. Quá trình khám phá này được gọi là thu thập dữ liệu.

Google biết đến một số trang vì chúng tôi đã thu thập dữ liệu chúng trước đây. Google tìm thấy các trang khác khi truy cập liên kết từ một trang đã biết đến một trang mới. Ngoài ra, một số trang khác được phát hiện khi chủ sở hữu trang web gửi danh sách các trang (sơ đồ trang web) để Google thu thập dữ liệu. Nếu bạn đang sử dụng máy chủ lưu trữ web được quản lý, chẳng hạn như Wix hoặc Blogger, họ có thể yêu cầu Google thu thập dữ liệu mọi trang mới hoặc cập nhật mà bạn thực hiện.

Để cải thiện kết quả thu thập dữ liệu trang web của bạn, hãy làm như sau:

  • Đối với các thay đổi trên một trang duy nhất, bạn có thể gửi một URL riêng cho Google.
  • Liên kết trang của bạn với một trang khác mà Google đã biết. Tuy nhiên, xin lưu ý rằng chúng tôi sẽ không truy cập các liên kết trong quảng cáo, liên kết mà bạn trả tiền trong các trang web khác, liên kết trong phần nhận xét hoặc các liên kết khác không tuân theo Nguyên tắc quản trị trang web của Google.
  • Nếu bạn yêu cầu Google chỉ thu thập dữ liệu một trang, hãy chỉ định trang đó làm trang chủ của bạn. Đối với Google, trang chủ là trang quan trọng nhất trên trang web của bạn. Để giúp Google thu thập dữ liệu toàn bộ trang web, hãy đảm bảo rằng trang chủ (và tất cả các trang) đều chứa một hệ thống điều hướng trang web rõ ràng liên kết đến tất cả các phần và trang quan trọng trên trang web của bạn. Điều này giúp người dùng (và Google) dễ dàng di chuyển trong trang web của bạn.

 

Google không chấp nhận các khoản thanh toán để thu thập dữ liệu một trang web thường xuyên hơn hoặc xếp hạng trang cao hơn. Nếu có ai đó nói vậy với bạn thì họ đã sai.

Lập chỉ mục

Sau khi tìm thấy một trang, Google sẽ cố gắng tìm hiểu nội dung của trang đó. Quá trình này gọi là lập chỉ mục. Google phân tích nội dung của trang, danh mục hình ảnh và tệp video nhúng trên trang và cố gắng tìm hiểu trang theo cách khác. Thông tin này được lưu trong chỉ mục của Google, một cơ sở dữ liệu khổng lồ được lưu trữ trong rất nhiều máy tính.

Để cải thiện kết quả lập chỉ mục trang của bạn, hãy làm như sau:

  • Tạo tiêu đề trang ngắn, có ý nghĩa.
  • Sử dụng tiêu đề trang để truyền đạt chủ đề của trang.
  • Sử dụng văn bản thay vì hình ảnh để truyền tải nội dung. (Google có thể hiểu một số hình ảnh và video, nhưng không hiểu rõ như đối với văn bản. Ở mức tối thiểu, hãy chú thích videohình ảnh của bạn bằng văn bản thay thế và các thuộc tính thích hợp khác.)

Phân phát (và xếp hạng)

Khi người dùng nhập cụm từ tìm kiếm, Google sẽ cố gắng tìm câu trả lời phù hợp nhất từ ​​chỉ mục của chúng tôi dựa trên nhiều yếu tố. Google cố gắng xác định các câu trả lời có chất lượng cao nhất và xem xét các yếu tố sẽ cung cấp trải nghiệm người dùng tốt nhất và câu trả lời phù hợp nhất, như vị trí, ngôn ngữ và thiết bị của người dùng (máy tính hoặc điện thoại). Ví dụ: nội dung tìm kiếm "cửa hàng sửa xe đạp" sẽ hiển thị các câu trả lời khác nhau cho người dùng ở Paris và người dùng ở Hồng Kông. Google không chấp nhận thanh toán để xếp hạng các trang cao hơn và quy trình xếp hạng được thực hiện theo chương trình.

Để cải thiện việc phân phát và xếp hạng trang của bạn, hãy làm như sau:

Mô tả dài

Bạn muốn biết thêm thông tin? Sau đây là:

Mô tả dài

 

Thu thập dữ liệu

Thu thập dữ liệu là quá trình Googlebot phát hiện ra những trang mới và những trang được cập nhật để thêm vào chỉ mục của Google.

Chúng tôi sử dụng một tập hợp lớn máy tính để tìm nạp (hay "thu thập dữ liệu") hàng tỷ trang trên web. Chương trình thực hiện việc tìm nạp được gọi là Googlebot (còn được gọi là robot, bot hay trình thu thập dữ liệu). Googlebot sử dụng một quá trình thuật toán: các chương trình máy tính xác định sẽ thu thập dữ liệu trang web nào, với tần suất nào và sẽ tìm nạp bao nhiêu trang từ mỗi trang web.

Quá trình thu thập dữ liệu của Google bắt đầu với danh sách các URL của trang web đã được tạo từ các quá trình thu thập dữ liệu trước đó và được bổ sung với dữ liệu Sơ đồ trang web do các quản trị web cung cấp. Khi Googlebot truy cập mỗi trang web trong số này, nó phát hiện các liên kết trên từng trang và thêm chúng vào danh sách các trang cần thu thập dữ liệu. Các trang web mới, có thay đổi so với các trang web hiện tại và các liên kết gãy được ghi chú và sử dụng để cập nhật chỉ mục của Google.

Google tìm một trang như thế nào?

Google sử dụng nhiều kỹ thuật để tìm một trang, bao gồm:

  • Truy cập các liên kết từ các trang hoặc trang web khác
  • Đọc sơ đồ trang web

Làm thế nào để Google biết không nên thu thập dữ liệu trang nào?

  • Chúng tôi sẽ không thu thập dữ liệu các trang bị chặn trong robots.txt, nhưng vẫn có thể lập chỉ mục các trang đó nếu chúng được liên kết với một trang khác. (Google có thể phỏng đoán nội dung của trang thông qua liên kết trỏ đến trang đó và lập chỉ mục trang mà không cần phân tích cú pháp nội dung của trang.)
  • Google không thể thu thập dữ liệu bất kỳ trang nào không cho người dùng ẩn danh truy cập. Do đó, mọi biện pháp bảo vệ bằng cách yêu cầu đăng nhập hoặc ủy quyền khác sẽ ngăn Google thu thập dữ liệu một trang.
  • Đối với các trang đã thu thập dữ liệu và được coi là trang trùng lặp của một trang khác, Google sẽ thu thập dữ liệu các trang này ít thường xuyên hơn.

Cải thiện kết quả thu thập dữ liệu

Bạn có thể sử dụng các kỹ thuật này để giúp Google tìm thấy các trang phù hợp trên trang web của mình:

Lập chỉ mục

Googlebot xử lý từng trang trong số những trang mà chúng tôi thu thập dữ liệu để tổng hợp một chỉ mục khổng lồ có chứa tất cả các từ chúng tôi nhận biết được và vị trí của các từ trên mỗi trang. Ngoài ra, chúng tôi sẽ xử lý thông tin có trong các thẻ và thuộc tính nội dung chính, như các thẻ <title> và các thuộc tính thay thế. Googlebot có thể xử lý nhiều, nhưng không phải tất cả, loại nội dung. Ví dụ: chúng tôi không thể xử lý nội dung của một số tệp đa phương tiện.

Trong quá trình thu thập dữ liệu và lập chỉ mục, Google sẽ xác định xem một trang có phải là trang trùng lặp hay trang chuẩn của trang khác không. Nếu trang được coi là trùng lặp, Google sẽ thu thập dữ liệu trang đó ít thường xuyên hơn.

Xin lưu ý rằng Google không lập chỉ mục các trang có lệnh noindex (tiêu đề hoặc thẻ). Tuy nhiên, Google phải có thể nhìn thấy lệnh; nếu trang bị chặn bởi tệp robots.txt, trang đăng nhập hoặc thiết bị khác, có thể trang đó sẽ được lập chỉ mục ngay cả khi Google không truy cập vào trang!

Cải thiện kết quả lập chỉ mục

Có nhiều kỹ thuật để cải thiện khả năng của Google trong việc hiểu nội dung trang của bạn:

Kết quả phân phát

Khi người dùng nhập một truy vấn, công cụ tìm kiếm của chúng tôi sẽ tìm kiếm chỉ mục khớp với các trang và trả lại kết quả mà chúng tôi cho là phù hợp nhất đối với người dùng. Mức độ phù hợp được xác định bởi hơn 200 yếu tố và chúng tôi luôn nỗ lực cải thiện thuật toán của mình. Google xem xét trải nghiệm người dùng trong việc chọn và xếp hạng kết quả, vì vậy hãy đảm bảo rằng trang của bạn tải nhanhthân thiện với thiết bị di động.

Cải thiện kết quả phân phát

  • Nếu kết quả của bạn nhắm đến người dùng ở các vị trí hoặc nói các ngôn ngữ cụ thể, bạn có thể cho Google biết tùy chọn của mình.
  • Đảm bảo rằng trang của bạn tải nhanhthân thiện với thiết bị di động.
  • Tuân theo Nguyên tắc quản trị trang web để tránh những lỗi phổ biến và cải thiện thứ hạng trang web của bạn.
  • Cân nhắc triển khai các tính năng kết quả Tìm kiếm cho trang web của bạn, chẳng hạn như thẻ công thức hoặc thẻ bài viết.
  • Triển khai AMP để trang tải nhanh hơn trên thiết bị di động. Một số trang AMP cũng đủ điều kiện cho các tính năng tìm kiếm bổ sung, chẳng hạn như băng chuyền tin bài hàng đầu.
  • Chúng tôi đang liên tục cải thiện thuật toán của Google. Thay vì cố gắng đoán thuật toán và thiết kế trang của bạn theo đó, hãy tạo ra nội dung hữu ích, mới mẻ mà người dùng muốn và thực hiện theo các nguyên tắc của chúng tôi.

Mô tả dài hơn nữa

Bạn có thể tìm thấy phiên bản dài hơn nữa về cách hoạt động của Google Tìm kiếm tại đây (với hình ảnh và video!)

Thông tin này có hữu ích không?
Chúng tôi có thể cải thiện trang này bằng cách nào?