Mesin pencari terkemuka , seperti Google , Bing dan Yahoo! , menggunakan crawler untuk menemukan halaman hasil pencarian algoritmik mereka. Halaman yang terhubung dari halaman yang diindeks mesin pencari lain tidak perlu disampaikan karena mereka ditemukan secara otomatis . Dua direktori utama , Direktori Yahoo dan Open Directory Project keduanya membutuhkan penyerahan manual dan review editorial manusia. [ 30 ] Google menawarkan Google Webmaster Tools pakar seo terkeren yang feed XML Sitemap dapat dibuat dan diserahkan untuk bebas untuk memastikan bahwa semua halaman yang ditemukan , terutama halaman yang tidak dapat ditemukan dengan mengikuti link secara otomatis [ 31 ] Yahoo! sebelumnya dioperasikan layanan pengiriman dibayar yang menjamin merangkak untuk biaya per klik , . . [ 32 ] ini dihentikan pada tahun 2009 [ 33 ]
Crawler mesin pencari dapat melihat sejumlah faktor yang berbeda ketika merangkak situs. Tidak setiap halaman diindeks oleh search engine . Jarak halaman dari direktori root dari situs mungkin juga menjadi faktor dalam apakah atau tidak halaman dijelajahi . [ 34 ]
Untuk menghindari konten yang tidak diinginkan dalam indeks pencarian , webmaster dapat menginstruksikan spider tidak merangkak file tertentu atau direktori melalui file robots.txt standar dalam direktori root dari domain . Selain itu , sebuah halaman dapat secara eksplisit dikecualikan dari database mesin pencari dengan menggunakan tag meta khusus untuk robot . Ketika mesin pencari mengunjungi situs, robots.txt yang terletak di direktori root adalah file pertama dijelajahi . File robots.txt kemudian parsing , dan akan menginstruksikan robot untuk yang halaman tidak dapat dijelajahi . Sebagai crawler mesin pencari dapat menyimpan salinan cache dari file ini , mungkin pada halaman merangkak kesempatan webmaster tidak ingin dijelajahi . Halaman biasanya dicegah dari dijelajahi termasuk halaman login tertentu seperti shopping cart dan konten pengguna tertentu seperti hasil pencarian dari pencarian internal yang
Crawler mesin pencari dapat melihat sejumlah faktor yang berbeda ketika merangkak situs. Tidak setiap halaman diindeks oleh search engine . Jarak halaman dari direktori root dari situs mungkin juga menjadi faktor dalam apakah atau tidak halaman dijelajahi . [ 34 ]
Untuk menghindari konten yang tidak diinginkan dalam indeks pencarian , webmaster dapat menginstruksikan spider tidak merangkak file tertentu atau direktori melalui file robots.txt standar dalam direktori root dari domain . Selain itu , sebuah halaman dapat secara eksplisit dikecualikan dari database mesin pencari dengan menggunakan tag meta khusus untuk robot . Ketika mesin pencari mengunjungi situs, robots.txt yang terletak di direktori root adalah file pertama dijelajahi . File robots.txt kemudian parsing , dan akan menginstruksikan robot untuk yang halaman tidak dapat dijelajahi . Sebagai crawler mesin pencari dapat menyimpan salinan cache dari file ini , mungkin pada halaman merangkak kesempatan webmaster tidak ingin dijelajahi . Halaman biasanya dicegah dari dijelajahi termasuk halaman login tertentu seperti shopping cart dan konten pengguna tertentu seperti hasil pencarian dari pencarian internal yang
Tidak ada komentar:
Posting Komentar
Catatan: Hanya anggota dari blog ini yang dapat mengirim komentar.