it-swarm-id.com

Hentikan robot dari mendapatkan konten situs / artikel

Ini bukan pertanyaan tentang pengindeks, kebanyakan dari mereka mematuhi robots.txt file.

Tapi mungkin Anda memperhatikan kasus yang dipublikasikan di mana Facebook atau Skype mengikuti URL yang diposting oleh pengguna atau yang dikirim melalui pesan instan pribadi menggunakan platform ini. Saya percaya keduanya tidak (atau tidak akan segera) melakukan hal ini sendirian.

Masalahnya adalah bahwa kunjungan mereka ke URL tertentu tidak perlu mematuhi robots.txt dan mereka mungkin melakukan 'cadangan' teks apa yang mereka lihat. Meskipun saya mengelola situs yang cukup standar (organisasi nirlaba, hobi, blog), saya tidak suka 'alat pemasaran utama' ini (ini adalah asumsi terbaik apa itu). Karena itu saya memikirkan cara yang elegan untuk menghindari mengendus/merayapi yang datang dari situs-situs ini setelah mereka mendapatkan tautan. Sesuatu seperti

  • seluruh halaman tidak ditampilkan sampai tes manusia berlalu (maka cookie diatur sehingga ini tidak diperlukan lagi) - OR -

  • situs dapat diakses (halaman dengan semua modul hadir dll, tidak ada masalah dengan judul artikel yang diterbitkan di dalamnya) tetapi konten artikel utama (com_content) pada awalnya kosong dan diganti secara otomatis menggunakan Ajax segera

Apakah Anda punya ide bagaimana menerapkan pencegahan terhadap perayap ini sehingga mereka tidak akan mendapatkan konten apa pun dari URL situs yang mereka kunjungi?

5
miroxlav

Tidak ada solusi yang mudah, karena bot memiliki perilaku yang berbeda. Saya akan membaginya menjadi 4 kategori dan solusi untuk masing-masing:

  1. Perayap yang sah (mis. Google) - ini biasanya menghormati robots.txt dan seperti yang Anda katakan, Anda tidak tertarik dengan itu.

  2. Scrappers yang sah (mis. Facebook) - ini biasanya memiliki agen pengguna yang tepat, sehingga Anda dapat memblokir ini berdasarkan itu (agen pengguna).

  3. Perayap yang tidak menghormati robots.txt - cara termudah adalah membuat tautan tak terlihat (untuk manusia) di laman Anda, letakkan rel = nofollow (untuk tidak memiliki masalah dengan perayap sah) ke tautan itu. Tautan harus menuju ke halaman, di mana Anda akan mencatat IP, UA dan hal-hal serupa dari crawler. Kemudian Anda dapat menerapkan pemeriksaan terhadap log itu dan jika ada kecocokan, Anda tidak akan perlu konten.

  4. Salah satu scrappers - mirip dengan Facebook, tetapi dengan agen pengguna palsu. Satu-satunya solusi yang layak adalah memeriksa dukungan cookie, namun itu bukan jaminan 100% itu akan berhasil. Ini juga akan memblokir pengguna yang memiliki cookie yang dinonaktifkan.

3
Ivo

Salah satu metode akan memblokir akses dari crawler, meskipun ini tergantung pada kemampuan untuk mengidentifikasi mereka.

Artikel berikut memiliki beberapa contoh bagus tentang cara meningkatkan keamanan Joomla.

http://docs.joomla.org/Htaccess_examples_%28security%29

Salah satu metode adalah dengan menggunakan atribut HTTP_REFERER untuk memblokir akses misalnya untuk gambar kecuali mereka diambil dari halaman di situs Anda.

Lain adalah dengan menggunakan atribut HTTP_USER_AGENT untuk memblokir akses ke mesin tertentu.

Untuk menentukan string HTTP_USER_AGENT tambahan, Anda perlu memeriksa log akses Anda, atau, yang saya lakukan pada satu kesempatan adalah memodifikasi ekstensi Redirect untuk menambahkan HTTP_USER_AGENT dalam komentar.

3
Peter Wiseman

Jika Anda tidak ingin konten dapat diakses oleh publik, maka gunakan ACL Joomla untuk membatasi akses, menghapus akses untuk grup pengguna default (publik). Jika Anda tidak melakukan itu, atau sesuatu yang serupa, maka konten Anda publik, orang dapat melihatnya, bot dapat melihatnya.

Jika Anda tidak ingin konten Anda dilihat oleh siapa pun, jangan publikasikan ke dunia. Jika Anda mempublikasikannya ke dunia, Anda tidak perlu banyak bicara tentang siapa yang melihatnya.

3
Seth Warburton