it-swarm-id.com

Bagaimana saya bisa mendeteksi tautan yang mengarah ke penghuni liar domain?

Saya tahu cara menemukan tautan mati yang mengarah ke 404 halaman. Namun, akhir-akhir ini tidak banyak tautan yang mati, tetapi malah berakhir dengan penghuni liar domain. Saya menyadari ini adalah hal yang sulit, tetapi apakah ada cara untuk mengetahui apakah suatu situs web sebenarnya penghuni domain tanpa benar-benar pergi ke setiap situs dengan browser saya dan memeriksanya untuk melihat apakah ada gambar seorang gadis dengan ransel dll .?

4
delete

Metode deteksi yang mungkin untuk halaman/domain terparkir:

Temukan frasa sampah

Lakukan pencarian kasus sensitif untuk frasa sampah umum umum seperti, "apa yang Anda butuhkan, ketika Anda membutuhkannya" dan "sumber Anda untuk hampir semua hal!".

Temukan undangan untuk dibeli

Cari teks seperti "tanyakan tentang domain ini" dan "domain ini mungkin untuk dijual".

Uji 404s pada subhalaman acak

Kunjungi testdomain.com/randomstring. Jika Anda mendapatkan 404, atau halaman itu sendiri berisi teks '404' atau 'tidak ditemukan', itu mungkin tidak diparkir.

Tes untuk pengalihan pada subhalaman acak

Sistem domain terparkir lainnya mengalihkan testdomain.com/randomstring ke testdomain.com.

Cari nama domain dalam tag meta

Beberapa templat domain terparkir menggunakan format berikut untuk tag meta penulis:

<meta name="author" content="Nameofdomain.com" />

Lainnya memasukkannya ke dalam deskripsi:

<meta name="description" content="nameofdomain.com">

Dalam setiap kasus, domain adalah hanya hal dalam atribut 'konten'. Ini tidak mungkin terjadi pada situs aktif.

Cari tag frameset

Beberapa templat domain terparkir menggunakan tag <frameset> dengan beberapa bingkai internal untuk menarik konten eksternal (seringkali dari 'information.com'), tetapi sebaliknya tidak menampilkan hal lain di halaman.

Gunakan beberapa tes

Tidak satu pun dari tes ini yang merupakan indikator yang dapat diandalkan untuk domain terparkir sendiri. Anda mungkin harus menggabungkan beberapa pengujian untuk membuat algoritme Anda sendiri, lalu menguji dan memperbaikinya berdasarkan serangkaian domain terparkir yang dikenal dan yang aktif.

2
Nick

Ada beberapa hal yang dapat Anda cari. Apakah elemen dominan pada halaman adalah iFrame? Apakah responsnya 301/302 yang membuat Anda keluar dari domain? (banyak penghuni liar hanya akan 302 atau 301 Anda ke halaman arahan mereka). Apakah rasio tautan/teksnya sangat tinggi?

Saya akan mengatakan itu sangat sulit, tetapi setidaknya itu beberapa karakteristik umum.

Tampaknya ada juga sebuah proyek di halaman Wikipedia linkrot yang merujuk pada beberapa proyek yang mencoba melakukan ini: http://en.wikipedia.org/wiki/Wikipedia_talk:Linkrot - detailnya samar.

0
Mark Henderson