it-swarm-id.com

Bagaimana cara mendeteksi bot mesin pencari dengan andal dalam situs web asp.net?

Apa cara terbaik untuk mendeteksi aktivitas bot yang dihasilkan (klik/kunjungan halaman) dll di situs web asp.net? Kami memiliki situs web tempat kami melacak prospek yang dihasilkan ke situs web eksternal, kami melacak IP pengguna yang menghasilkan prospek, tetapi kami melihat banyak prospek yang dihasilkan oleh Google dan bot pencarian lainnya. Apa cara terbaik untuk memfilter aktivitas ini. Saya telah mendengar pengujian string agen pengguna dan penyaringan berdasarkan pada alamat IP yang diketahui, keduanya tersedia sebagai data dump dari berbagai sumber, saya tidak yakin mana yang terbaik untuk digunakan.

Terima kasih.

2
user1081

Seperti kata @Kinopiko, Bot, terutama yang teratas seperti google, atau meninggalkan UserAgent yang jelas.

Saya tidak tahu seperti apa kode Anda sehingga saya tidak bisa memberi tahu Anda apa yang harus dilakukan selain untuk menemukan UserAgent di Asp.Net Anda melihat Request.UserAgent di WebForm, CodeBehind, atau MVC Controller.

2
Sruly

Maaf, tetapi saya tidak tahu tentang situs web asp.net, tetapi mesin pencari yang memiliki reputasi baik akan mengirimi Anda string agen pengguna yang memberi tahu Anda itu adalah bot, dan itu harus tersedia di file log Anda. Hadiah lain adalah mereka mencari /robots.txt.

Pemeriksa saya terlihat seperti ini (Perl):

sub is_bot
{
    my ($user_agent) = @_;
    if ($user_agent =~
    /msnbot
        |www\.cuil\.com
    |Yahoo!\s+Slurp
    |Googlebot
    |Speedy\sSpider
    |MLBot
    |princeton crawler
    |accelobot
    |crawler\@dotnetdotcom
    |help\.naver\.com
    |GingerCrawler
    |Sosospider
    |www.exabot.com
    |Baiduspider
    |Ask\sJeeves
    |Java\/
    |telehouse\.ru
    |Tagoobot
    |Baypup
    |SimilarPages
    |Spinn3r
    |VoilaBot
    |Yandex
    |Xenu\sLink\sSleuth
    |www\.searchme\.com
    |MJ12bot
    |kilomonkey\.com
    |Mediapartners-Google
    |Sogou\sweb\sspider
    |YoudaoBot
    |seexie\.com
    |Yahoo.*Slurp
    |YahooCacheSystem
    |crawler\@nutch\.biz
    |psbot
    |ia_archiver-web\.archive\.org
    |sbider
    |xrss\.eu
    |scoutjet
        |www\.puritysearch\.net
        |Bing
        |BaiduImagespider
        |baidu\.jp
        |facebookexternalhit
        |ssllabs\.com
        |Python-urllib
        |drupal\.org
        |HTTrack
        |Willow\s+Internet\s+Crawler\s+by\s+Twotrees
    /x) {
    return 1;
    }
    return;
}

Jika Anda melihat kode sumber awstats Anda akan menemukan sesuatu yang lebih baik daripada yang di atas.

0
delete