Jumat, 02 Juni 2017

fungsi Crawler pada Search engine

CRAWLER


      Crawler bertugas untuk mengindeks, membuat rangking, menyusun dan menata halaman dalam bentuk indeks terstruktur agar bisa dicari dalam waktu yang sangat cepat.

     Obyek dari crawler adalah isi halaman, file, folder dan direktori web, sedangkan subyek dari robots.txt adalah mesin pencari/search engine crawler.

Crawler ini penting dipahami untuk SEO.

      Crawler akan berhadapan dengan robotsg.txt yang akan memandu mesin pencari/search engine seperti google, yahoo dan bing untuk mengindeks sebuat blog atau website, sehingga crawler akan tahu mana halaman, folder atau file yang boleh diindeks atau tidak, semakin lengkap sebuah panduan dalam robots.txt akan lebih baik, dengan demikian robot crawler akan dengan cepat mengindeks isi website, kebanyakan halaman situs berisi link ke halaman lain.

     Sebuah spider dapat memulai dari manapun, apabila ia melihat sebuah link kepada halaman lain, maka ia akan segera menuju ke sana dan mengambilnya.

       Search engine seperti Alta vista mempunyai banyak spider yang bekerja secara pararel. Sangat direkomendasikan untuk tidak menggunakan javascript pada menu utama, gunakanlah tag noscript, hyal ini dikarenakan javascript tidak bisa diambil oleh spider untuk search engine, dan semua link yang mengandung javascript akan ditolak sebagai halaman teks.

Crawlers Pada Search Engine

Berikut ini adalah contoh-contoh dari Crawler:

1.Teleport Pro

      Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

2.HTTrack

       Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com

3.Googlebot

       Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.

4.Yahoo!Slurp

       Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.



5.YaCy

     Sedikit berbeda dengan web crawler  lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central.

     Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de) untuk pencarian dokumen di bidang sains.

Cara Kerja Web Crawler

    Web crawler atau yang dikenal juga dengan istilah web spider bertugas untuk mengumpulkan semua informasi yang ada di dalam halaman web. Web crawler bekerja secara otomatis dengan cara memberikan sejumlah alamat website untuk dikunjungi serta menyimpan semua informasi yang terkandung didalamnya. Setiap kali web crawler mengunjungi sebuah website, maka web crawler tersebut akan mendata semua link yang ada dihalaman yang dikunjunginya itu untuk kemudian di kunjungi lagi satu persatu. Proses web crawler dalam mengunjungi setiap dokumen web disebut dengan web crawling atau spidering. Beberapa websites, khususnya yang berhubungan dengan pencarian menggunakan proses spidering untuk memperbaharui data data mereka. Web crawler biasa digunakan untuk membuat salinan secara sebagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat di proses lebih lanjut oleh system pengindexan. Crawler dapat juga digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web, dan crawler juga digunakan untuk memperoleh data yang khusus seperti mengumpulkan alamat e-mail.

    Web crawler termasuk kedalam bagian software agent atau yang lebih dikenal dengan istilah program bot. Secara umum crawler memulai prosesnya dengan memberikan daftar sejumlah alamat website untuk dikunjungi, disebut sebagai seeds. Setiap kali sebuah halaman web dikunjungi, crawler akan mencari alamat yang lain yang terdapat didalamnya dan menambahkan kedalam daftar seeds sebelumnya


Tips Agar Sering didatangi oleh Google Crawlers  :

Membuat sitemap dan atau daftar isi

     Sitemap (peta situs) blog berfungsi membantu search engine bot menjelajahi, menemukan dan mengindeks konten blog kita. Jika blog anda berplatform wordpress.org, cara paling mudah membuat sitemap adalah dengan memasang plugin bernama Google XML sitemaps. Sitemap sebenarnya hampir sama dengan halaman daftar isi yang sering kita buat di blog, hanya sitemap berisi kode-kode HTML yang dibaca oleh bot sedangkan daftar isi untuk dibaca oleh manusia. Jika anda ingin sitemap yang juga berfungsi sebagai daftar isi, gunakan plugin bernamaDagon Sitemap Generator. Beberapa themes seperti GoBlog Themes sudah menyediakan sitemap secara default seperti ini: Sitemap.

Mendaftarkan sitemap di Google Webmaster Tools .

    Sitemap blog anda perlu didaftarkan di Google Webmaster Tools. Google webmaster sendiri penting diikuti oleh semua pemilik blog agar anda dapat menganalisa semua data yang berkenaan dengan blog anda. Melalui uji sitemap, kita bisa mengetahui konten mana di blog yang belum terindeks Google. Daftarkan dulu blog anda di Google Webmaster Tools, lihat caranya disini

     Setelah terdaftar, masuk ke bagian “pengoptimalan” >> “peta situs” dan masukkan nama sitemap blog anda.

    Kolom yang perlu diisi disamping URL blog kita adalah: sitemap.xml, jadi lengkapnya adalah: namabloganda.com/sitemap.xml
Tips Agar Sering didatangi oleh Google Crawlers :

Internal link

      Internal link merupakan teknik onpage optimization, yaitu salah satu cara yang digunakan dalam SEO untuk meningkatkan online visibility dari sebuah blog. Internal link adalah link yang mengarah ke dalam blog kita sendiri. Buatlah link tersebut relevan dengan topik yang sedang dibahas. Berapa banyak internal link yang perlu ditambahkan dalam 1 artikel ? Tidak ada patokan, namun buatlah minimal 2 saja. Satu link mengarah ke homepage dan 1 link mengarah ke artikel lain yang kategorinya sejenis atau bahkan mengarah ke artikelnya itu sendiri. Internal link ini sama fungsinya seperti sitemap yaitu memudahkan Google Crawlers menjelajahi blog kita

Sumber:
http://clickforgamers.blogspot.co.id/2013/04/pengukuran-web-crawler-search-engine.html

0 komentar:

Posting Komentar