1900 6891         info@vdo.com.vn

Tìm hiểu cách Google thu thập dữ liệu – Web Crawling

Trước khi Web trở thành phần dễ thấy nhất của Internet, các công cụ tìm kiếm đã được xây dựng để giúp mọi người tìm kiếm thông tin trên mạng. Chương trình với những cái tên như “gopher” và “Archie” đã giữ chỉ số của các tập tin được lưu trữ trên các máy chủ kết nối với Internet , và giảm đáng kể thời gian cần thiết để tìm các chương trình và tài liệu.

Ngày nay, hầu hết người dùng Internet đều thực hiện tìm kiếm trên web, vì vậy chúng tôi sẽ giới hạn bài viết này để các công cụ tập trung vào việc tìm kiếm nội dung của các trang web. Cùng tìm hiểu cách Google thu thập dữ liệu như thế nào nhé!

Tìm hiểu cách Google thu thập dữ liệu - Web Crawling

Tìm hiểu cách Google thu thập dữ liệu – Web Crawling

Trước khi công cụ tìm kiếm có thể cho bạn biết nơi một tập tin hoặc tài liệu, nó phải được tìm thấy. Để tìm thông tin về hàng trăm triệu trang web đang tồn tại, một công cụ tìm kiếm sử dụng các robot phần mềm đặc biệt, được gọi là Spider, để xây dựng danh sách các từ được tìm thấy trên các trang web. Khi một con nhện xây dựng danh mục của mình, quá trình này được gọi là Web Crawling. Để xây dựng và duy trì một danh sách hữu ích các từ khóa, Google Spider có nhìn vào nhiều các trang.

>> Xem thêm: Tìm hiểu quy trình tìm kiếm của Google

Làm thế nào để Spider bắt đầu chuyến đi của mình qua mạng không? Điểm khởi đầu thông thường là danh sách sử dụng nhiều máy chủ và các trang phổ biến. Con nhện sẽ bắt đầu với một trang web phổ biến, lập chỉ mục các từ trên trang của nó và sau mỗi liên kết được tìm thấy trong trang web. Bằng cách này, hệ thống tìm kiếm nhanh chóng bắt đầu đi chuyến đi, lan rộng trên khắp các phần ứng dụng rộng rãi nhất của Web.

Google bắt đầu như một công cụ tìm kiếm học thuật. Trong bài báo mô tả cách hệ thống được xây dựng, Trang  Sergey Brin và Lawrence đưa ra một ví dụ về cách nhện của họ có thể làm việc nhanh chóng. Họ đã xây dựng hệ thống ban đầu sử dụng nhiều nhện, thường là ba cùng một lúc. Mỗi con nhện có thể giữ khoảng 300 kết nối đến các trang web mở cùng một lúc. Hiệu năng cao nhất của mình, sử dụng bốn con nhện, hệ thống của họ có thể thu thập thông tin trên 100 trang mỗi giây, tạo ra khoảng 600 KB dữ liệu mỗi giây.

Giữ tất cả mọi thứ chạy nhanh chóng có nghĩa là xây dựng một hệ thống để cung cấp thông tin cần thiết cho các con nhện. Hệ thống Google sớm đã có một máy chủ chuyên dụng để cung cấp các URL cho các con nhện. Thay vì phụ thuộc vào một nhà cung cấp dịch vụ Internet cho các máy chủ tên miền (DNS) mà di chuyển tên của máy chủ vào một địa chỉ, Google đã có DNS riêng của mình, để giảm tối thiểu sự chẫm trễ.

Khi Google Spider nhìn một trang HTML, nó ghi nhận hai điều:

– Các từ bên trong trang

– Nơi các từ được tìm thấy

Các từ xuất hiện trong tiêu đề, phụ đề, thẻ meta và các vị trí khác có tầm quan trọng tương đối đã được ghi nhận để xem xét đặc biệt trong quá trình tìm kiếm tiếp theo. Google Spider được xây dựng để index tất cả các từ ngữ quan trọng trên một trang, bỏ đi mạo từ “a”, “an” và “the”. Các thu thập khác có cách tiếp cận khác nhau.

Những cách tiếp cận khác nhau thường cố gắng để làm cho nhện hoạt động nhanh hơn, cho phép người dùng tìm kiếm hiệu quả hơn, hoặc cả hai. Ví dụ, một số nhện sẽ theo dõi các từ trong tiêu đề, phụ đề và các liên kết, cùng với 100 từ thường được sử dụng trên trang và mỗi từ trong 20 dòng đầu tiên của văn bản.

Các hệ thống khác, như AltaVista, đi theo một hướng khác, lập chỉ mục tất cả các từ duy nhất trên một trang, bao gồm “a”, “an”, “the” và từ ” insignificant – không quan trọng” khác. Việc thúc đẩy để hoàn chỉnh trong phương pháp này được kết hợp bởi các hệ thống khác trong sự chú ý cho phần không nhìn thấy của trang web, các thẻ meta.

Hy vọng thông tin trên sẽ hữu ích cho bạn. Gửi phản hồi cũng như các chia sẻ của bạn dưới đây để chúng ta cùng trao đổi và phát triển nhé!

>> Tham khảo dịch vụ: Thiết kế website trọn gói

Hotline tư vấn miễn phí
Sale & Support 24/7

HÀ NỘI

TP HCM