it-swarm-id.com

Bagaimana Anda mengonfigurasi robots.txt untuk memungkinkan perayapan situs kecuali beberapa direktori?

Apa pengaturan awal atau umum terbaik untuk robots.txt untuk memungkinkan mesin pencari menelusuri situs, tetapi mungkin membatasi beberapa folder?

Apakah ada pengaturan umum yang harus selalu digunakan?

7
Mike

Alat Webmaster Google memiliki Bagian yang disebut "Akses crawler"

Bagian ini memungkinkan Anda untuk membuat robots.txt dengan mudah

Misalnya untuk mengizinkan semuanya kecuali blog, folder bernama test your robot.txt akan terlihat seperti

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

Konfigurasi terbaik, jika Anda tidak memiliki persyaratan khusus, tidak ada artinya sama sekali. (Meskipun Anda setidaknya ingin menambahkan file kosong untuk menghindari 404s mengisi log kesalahan Anda.)

Untuk memblokir direktori di situs, gunakan klausa 'Larang':

User-agent: *
Disallow: /example/

Ada juga klausa 'Izinkan' yang menggantikan klausa 'Larang' sebelumnya. Jadi, jika Anda tidak mengizinkan folder 'contoh', Anda mungkin ingin mengizinkan folder seperti 'contoh/foobar'.

Ingat bahwa robots.txt tidak mencegah siapa pun mengunjungi halaman tersebut jika mereka mau, jadi jika beberapa halaman harus tetap rahasia Anda harus menyembunyikannya di balik semacam otentikasi (mis. Nama pengguna/kata sandi).

Arahan lain yang mungkin ada di banyak file robots.txt adalah 'Peta Situs', yang menentukan lokasi peta situs XML Anda jika ada. Letakkan di atas garis sendiri:

Sitemap: /sitemap.xml

situs robots.txt resmi memiliki banyak informasi lebih lanjut tentang berbagai opsi. Tetapi secara umum, sebagian besar situs akan membutuhkan konfigurasi yang sangat sedikit.

1
DisgruntledGoat

Ini semua yang perlu Anda ketahui tentang file robots.txt

0
Jason