Thứ Hai, 5 tháng 8, 2013

Sơ lược về web crawler



Khi một website tham gia vào việc xếp hạng trên các công cụ tìm kiếm, con bọ sẽ tìm kiếm dữ liệu thông tin về website của mình để đem về index lưu trữ. Web crawler là một chương trình tự động tìm kiếm trên internet, một trình thu thập web (còn gọi là mạng nhện) là một chương trình duyệt World Wide Web một cách có phương pháp, một cách tự động. Web crawler là một loại bot hay còn gọi là con bọ tìm kiếm.


Công việc của web crawler?

Trước hết bạn phải hiểu rằng web crawler hay spider là gì? và nó hoạt động như thế nào? Một công cụ tìm kiếm spider (còn gọi là một trình thu thập, Robot, Searchbot hoặc chỉ đơn giản là một bot) là chương trình mà các công cụ tìm kiếm sử dụng để tìm những thông tin mới trên internet. Web crawler của Google còn được gọi là Googlebot. Có rất nhiều loại web crawler được sử dụng, nhưng bây giờ phổ biến nhất và được quan tâm nhiều nhất là các bot “bóc tách” các website ra và thu thập tài liệu trong đó để xây dựng một chỉ mục tìm kiếm, cho các công cụ tìm kiếm khác nhau. chương trình bắt đầu từ một trang web và tiếp theo sau là các liên kết trên mỗi trang.


Google Bot

Chúng ta có thể nói rằng tất cả mọi thứ trên website cuối cùng cũng sẽ được tìm thấy và spidered hay còn gọi là “con nhện” sẽ bóc tách từ một trang web khác. Công cụ tìm kiếm có thể chạy hàng ngàn trường hợp cho các chương trình thu thập web của họ cùng một lúc, trên nhiều máy chủ. Khi một trình thu thập web ghé thăm một trong các trang web của bạn, nó tải nội dung của trang web đem về cơ sở dữ liệu của nó. Một khi một trang đã được tải về xong, nội dung website của bạn được đưa vào chỉ số công cụ tìm kiếm, nơi đó là một cơ sở dữ liệu khổng lồ của các từ, mà những từ đó đã xuất hiện trên các trang web khác nhau. Tất cả điều này nghe có vẻ quá kỹ thuật cho hầu hết mọi người, nhưng điều quan trọng là phải hiểu cơ bản về cách thức một web crawler hoạt động như thế nào.



Vì vậy, về cơ bản ba bước có liên quan đến các thủ tục web crawler. Đầu tiên, các con nhện tìm kiếm bắt đầu thu thập nội dung ở tất cả các trang trong website của bạn. Sau đó, nó tiếp tục lập chỉ mục các từ và nội dung của trang web, cuối cùng nó ghé thăm các liên kết ngoài (địa chỉ trang web hoặc URL). Khi con nhện không tìm thấy gì ở website của bạn thì nó sẽ xóa khỏi chỉ số. Tuy nhiên, một số con nhện sẽ kiểm tra lại lần thứ hai để xác minh lại xem website của bạn có thật sự là trống.

Điều đầu tiên một con nhện cần phải làm khi đến thăm trang web của bạn, nó phải tìm kiếm một tập tin gọi là “robots.txt”. Tập tin này hướng dẫn con nhện phần nào nạp vào chỉ mục, và phần nào bỏ qua. Cách duy nhất để kiểm soát thông tin trên website, những thông tin nào cho con nhện tìm kiếm và những gì phải bỏ qua bạn phải sử dụng một tập tin robots.txt. Tất cả các con nhện có nghĩa vụ điều có quy tắc riêng của nó, nó tìm kiếm và mỗi bước thực hiện điều phải tuân theo quy tắc đã đặt ra cho nó. May mắn thay, các công cụ tìm kiếm như Google hay Bing cuối cùng đã làm việc cùng nhau trên cùng một tiêu chuẩn.

Không có nhận xét nào:

Đăng nhận xét