it-swarm-id.com

Memblokir semua mesin pencari kecuali yang besar

Saya ingin entah bagaimana dapat memblokir semua mesin pencari kecuali Google, Yahoo & Bing (dan situs terkait mereka seperti Gambar Google) dari merayapi situs saya karena mereka mengkonsumsi banyak server dan bandwidth tetapi tidak membawa lalu lintas.

Apakah ini mudah dilakukan atau sulit? Akan lebih baik jika seseorang memelihara daftar mesin pencari kecil yang dapat disisipkan ke file robots.txt untuk memblokirnya.

Juga, saya menyadari bahwa saya tidak dapat memblokir perayap yang mengabaikan robots.txt atau situs-situs yang secara diam-diam menggores dan merayapi, tetapi bukan itu yang saya inginkan. Saya hanya ingin memblokir semua Altavistas, Hotbots, Lycos (apakah ini masih ada) dan crawler percobaan universitas tidak membuang-buang waktu saya.

2
Craig

Apa yang sudah Anda coba sejauh ini?

Menggunakan generator alat webmaster robots.txt Saya membuat ini:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Tapi saya belum mengujinya.

3
delete

Seberapa besar masalah itu?

Bot yang harus Anda perhatikan adalah bot yang tidak mengikuti aturan dan yang berpura-pura menjadi pengunjung biasa.

Lalu lintas Search Engine sah dan seperti yang ditunjukkan Dan Google juga dimulai sebagai proyek universitas kecil. Tidak adil untuk mendiskriminasikan anak-anak kecil, dan mungkin pada akhirnya tidak pintar.

Jawaban Kinopiko akan berfungsi, dan alat webmaster Google akan memungkinkan Anda membuat dan menguji robot.txt Anda (Konfigurasi situs, Akses Crawler), tetapi saya pikir jika lalu lintas dari mesin pencari asli adalah masalah bagi Anda, mungkin itu hosting Anda saat ini solusi bukanlah hal yang baik.

3
Sylver

Untuk yang tidak mengikuti aturan, Anda dapat mencoba menemukannya di log dan kemudian memblokirnya dengan IP.

Secara umum Anda dapat melihat bot dengan fakta bahwa ia membaca halaman terlalu cepat untuk menjadi manusia.

1
Sruly