Web Crawler
Pengertian: Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait atau berhubungan langsung dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan dan sesuai dengan yang dicari.
Ketika web crawl search engine mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi keyword. Berdasar kaninformasi yang dikumpulkan web crawl, search engine akan menentukan situs dan mengindex informasinya. Website tersebut kemudian dimasukkan ke dalam database search engine dan dilakukan proses penentuan ranking setiap halamannya.
Kelebihan :
- Suatu program atau script otomatis yang relatif simple.
- Dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait atau berhubungan langsung dengan search engine.
- Fungsi web crawler untuk search engine jauh lebih kompleks bahkan detail
- Algoritma search engine raksasa seperti google tidak mudah terungkap.
Kekurangan :
- Beroperasi hanya sekali, misalnya untuk suatu projek yang hanya sekali jalan.
- Secara umum web crawler mengakses sebuah url website melalui internet, proses crawling dapat dilakukan dengan teknik multi-thread agar optimal.
- Konten seperti teks dan metadata akan disimpan pada media penyimpanan, sedangkan link/ url yang ditemukan akan disimpan kedalam daftar antrian, dan dijadwalkan untuk proses berikutnya.
Sumber:
http://salis-rosyida-i.blog.ugm.ac.id/2013/09/17/macam-macam-search-engine-mesin-pencari/
0 komentar:
Posting Komentar