it-swarm-id.com

Apakah ada indeks alamat IP yang digunakan oleh indeks bot?

Saya memiliki halaman yang mendapat lalu lintas minimal, tetapi saya mengatur notifikasi statis saat mendapat untung. Sekarang, saya ingin bot diabaikan, jadi yang saya lakukan sekarang adalah menambahkan bot yang saya lihat ke daftar "no notify".

Apakah ada daftar referensi dari alamat IP yang digunakan oleh robot pengindeksan?

mis. daftar seperti:

$no_mail = array(
    '67.195.115.105', // yahoo bot
    '207.46.199.50', // msn bot
    '61.135.249.246', //youdao bot
    '207.46.199.32', // msn bot
);
7
artlung

http://www.user-agents.org/ mungkin apa yang Anda cari.

5

Semua mesin pencari menggunakan sejumlah besar alamat IP. Anda akan ingin melihat string agen pengguna sebagai gantinya. Periksa halaman ini untuk daftar yang baik dari semua crawler.

Dalam PHP, sesuatu seperti ini akan berfungsi:

$bots = array( 'googlebot', 'msnbot', 'Slurp', 'mediapartners-google' );
$isRobot = false;
$ua = strtolower( $_SERVER['HTTP_USER_AGENT'] );

foreach ( $bots as $bot ) {
  if ( strpos( $ua, $bot ) !== false )
    $isRobot = true;
}

if ( !$isRobot ) {
  // do your thing
}
2
DisgruntledGoat

Mengapa tidak Anda taruh saja ini di file robots.txt Anda?

User-agent: *
Disallow: /path/page-you-dont-want-crawled.html

Dengan begitu Anda tidak perlu terus berburu bot. Saya berani bertaruh apa pun yang dimiliki Google, Yahoo, dan MSN memiliki ratusan bot dan mereka mungkin memiliki alamat IP yang berbeda dan yang baru dibuat setiap saat. Menambahkan hal di atas harus melakukan hal yang sama untuk halaman file Anda tanpa semua kesulitan.

1
Ben Hoffman

Ada beberapa kode untuk mengenali bot di http://ekstreme.com/phplabs/search-engine-authentication (serta artikel Pusat Bantuan Google di http://www.google .com/support/webmaster/bin/answer.py? answer = 8055 tentang memverifikasi Googlebot). Ada juga beberapa kode di http://ekstreme.com/phplabs/crawlercontroller.php yang dapat digunakan untuk mengenali perayap, yang Anda dapat dengan mudah memperluas untuk mengenali perayap "baik" dan juga peramban spam. itu mengenali sekarang.

Secara umum, penting untuk tidak bergantung pada nama agen-pengguna atau alamat IP saja, karena beberapa agen-pengguna dapat digunakan oleh pengguna normal dan beberapa alamat IP mungkin dibagikan.

Yang mengatakan, jika Anda hanya menggunakan ini untuk pemberitahuan email, saya mungkin hanya mengabaikan pola yang diketahui sederhana di agen-pengguna dan hidup dengan positif palsu & negatif palsu. Periksa file log Anda untuk perayap yang paling umum yang aktif di situs Anda dan cukup periksa bagian unik dari nama agen-pengguna (mungkin cukup hanya menggunakan "googlebot | Slurp | msurbot | bingbot").

1
John Mueller

Salah satu cara atau yang lain jika Anda serius menyaring bot Anda perlu menerapkan beberapa daftar lokal juga. Terkadang IP yang kelihatan acak terobsesi dengan situs web yang saya kelola. Proyek universitas, bot yang diimplementasikan dengan buruk, yang tampaknya bersifat eksperimental tetapi tidak dikenal secara umum, semacam itu.

Juga: bot Cuil (Twiceler) adalah iblis.

1
Thomas

Bisakah Anda mengakses agen pengguna? Bagi saya itu cara yang lebih baik untuk mengetahui siapa pengguna sebenarnya, dan apa itu bot - lebih tangguh untuk perayap sah mengubah alamat, dan jika ada yang menyamar sebagai bot, Anda mungkin tidak ingin mendapatkan email bagaimanapun.

0
Cebjyre

Coba ini...

$UI_Agent = $_SERVER['HTTP_USER_AGENT'];

if(eregi("bot", $UI_Agent)) {
    // do your bot stuff here
}

HTH, Bud

0
Bud