it-swarm-id.com

Kontrol atas Internet Archive selain hanya "Disallow /"?

Apakah ada mekanisme untuk mengontrol apa yang arsip Internet Arsipkan di situs? Saya tahu untuk melarang semua halaman saya bisa menambahkan :

User-agent: ia_archiver
Disallow: /
  1. Dapatkah saya memberi tahu bot bahwa saya ingin mereka merayapi situs saya sebulan sekali, atau setahun sekali?

  2. Saya memiliki situs/halaman yang tidak/tidak diarsipkan dengan benar karena aset tidak diambil. Apakah ada cara untuk memberi tahu bot Arsip Internet aset apa yang diperlukan jika situs itu akan direbut?

13
artlung

Catatan : Jawaban ini semakin usang.

Kontributor terbesar untuk koleksi web Internet Archive adalah Alexa Internet. Materi yang dirayapi Alexa untuk keperluannya telah disumbangkan ke IA beberapa bulan kemudian. Menambahkan aturan pelarangan yang disebutkan dalam pertanyaan tidak memengaruhi perayapan tersebut, tetapi Wayback akan 'berlaku surut' untuk menghormati mereka (menolak akses, materi masih ada di arsip - Anda harus mengecualikan robot Alexa jika Anda benar-benar ingin menyimpan materi Anda di luar Arsip Internet).

Mungkin ada cara untuk mempengaruhi perayapan Alexa, tapi saya tidak terbiasa dengan itu.

Sejak IA mengembangkan perayapnya sendiri (Heritrix), mereka telah mulai melakukan perayapan sendiri, tetapi perayapan tersebut cenderung menjadi perayapan yang ditargetkan (mereka melakukan perayapan pemilihan untuk Library of Congress dan telah melakukan perayapan nasional untuk Perancis dan Australia dll.). Mereka tidak terlibat dalam jenis perayapan skala dunia berkelanjutan yang dilakukan Google dan Alexa. Perayapan terbesar IA adalah proyek khusus untuk merayapi 2 miliar halaman.

Karena perayapan ini dioperasikan pada jadwal yang berasal dari faktor spesifik proyek, Anda tidak dapat memengaruhi seberapa sering mereka mengunjungi situs Anda atau jika mereka mengunjungi situs Anda.

Satu-satunya cara untuk secara langsung mempengaruhi bagaimana dan kapan IA menjelajah situs Anda adalah dengan menggunakan layanan Archive-It mereka. Layanan itu memungkinkan Anda menentukan penjelajahan khusus. Data yang dihasilkan akan (akhirnya) dimasukkan ke dalam koleksi web IA. Namun ini adalah layanan berlangganan berbayar .

8
Kris

Sebagian besar mesin pencari mendukung arahan "Crawl-delay", tetapi saya tidak tahu apakah IA melakukannya. Anda bisa mencobanya:

User-agent: ia_archiver
Crawl-delay: 3600

Ini akan membatasi penundaan antara permintaan hingga 3600 detik (yaitu 1 jam), atau ~ 700 permintaan per bulan.

Saya tidak berpikir # 2 mungkin - bot IA mengambil aset sesuai dan ketika cocok. Mungkin memiliki batas ukuran file untuk menghindari penggunaan penyimpanan yang terlalu banyak.

2
DisgruntledGoat