it-swarm-id.com

Konfigurasi ekstensi Externallogin yang buruk menyebabkan masalah pengindeksan mesin pencari

Tinjauan Singkat

Situs web Joomla saya memiliki masalah aneh dengan robot mesin pencari. Saya telah memeriksa SEMUA hal standar yang dapat dilakukan webmaster untuk memastikan itu bukan masalah sepele dengan file robots.txt atau parameter pengoptimalan mesin pencari lainnya. Orang-orang IT di universitas saya tidak mengerti apa yang sedang terjadi dan begitu juga orang-orang yang mencoba membantu di forum Joomla.

Saya mengajukan pertanyaan ini di stackexchange Pro Webmaster juga. Tetapi saya mulai curiga bahwa mungkin ada beberapa pengaturan tersembunyi di suatu tempat di Joomla yang menyebabkan masalah ini. Jadi, saya mengajukan pertanyaan ini di sini untuk melihat apakah ada pengaturan yang saya lewatkan di suatu tempat.

Masalah sebenarnya dimulai di sini.

Situs web yang dimaksud adalah: http://gsa.ece.umd.edu/ . Ini berjalan menggunakan Joomla 2.5.x (terbaru). Situs itu sudah ada sejak sekitar pertengahan Desember 2013, dan saya perhatikan sejak awal bahwa situs tersebut tidak diindeks dengan benar di Google. Secara khusus saya melihat pesan berikut ketika saya mencari situs web di Google:

ECEGSA - University of Maryland

A description for this result is not available because of this site's robots.txt – learn more.

Masalahnya adalah pada bulan Desember sampai sekitar bulan Maret saya menggunakan file robots.txt Joomla default yaitu:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Tidak ada yang seharusnya menghentikan Google dari mencari situs web saya. Dan yang lebih membingungkan, ketika saya pergi ke alat Google Webmaster, di bawah tab "URL yang Diblokir", ketika saya mencoba banyak tautan di situs, semuanya ditampilkan sebagai "Diizinkan". Saya kemudian mencoba menambahkan sitemap, meletakkannya di file robots.txt. Itu tidak membantu. Hasil pencarian persis sama, perilaku yang sama di tab "URL Diblokir" pada alat webmaster. Sekarang juga, tab "sitemaps" mengatakan untuk beberapa tautan sebuah kesalahan mengatakan "URL dirubah". Saya mencoba tautan-tautan yang tepat di "URL yang Diblokir" dan diizinkan!

Saya kemudian mencoba menghapus file robots.txt. Tidak ada gunanya. Masalah yang persis sama.

Berikut ini contoh tangkapan layar dari alat Webmaster. Index Status for my website showing no crawl errors and no blocked URLs, in direct contradiction to what the sitemap tab says and what the search result says! FRUSTRATION!

Pada titik ini saya tidak dapat memberikan penjelasan rasional mengapa hal ini terjadi dan tidak seorang pun di departemen TI di sini. Tidak seorang pun di forum Joomla yang dapat memahami apa yang sedang terjadi.

Adakah yang tahu kalau ada kemungkinan konflik di konfigurasi situs Joomla berdasarkan apa yang dijelaskan di atas?

5

PEMBARUAN: Masalah telah diatasi dengan memperbaiki konfigurasi ekstensi

Saya telah menggunakan plugin bernama externallogin untuk memungkinkan pengguna saya login menggunakan CAS Universitas (Server Otentikasi Pusat). Ternyata plugin ini menambahkan 303 redirect ke respons HTTP Header ke SEMUA halaman saya, karena kesalahan konfigurasi.

Jadi, sebagai akibatnya, tidak ada halaman saya yang diindeks dengan benar karena Google (a) menghukum 303 pengalihan atau mungkin karena (b) halaman yang diarahkan oleh 303 pengalihan ke ( https: //login.umd. edu / ) memiliki robots.txt yang melarang semua bot.

[~ # ~] fix [~ # ~]
Untuk memperbaiki masalah ini, jika Anda pernah mengalaminya, Anda harus memperbaiki konfigurasi plugin sebagai berikut:
1. Di menu ekstensi, di bawah "Login Eksternal>", buka konfigurasi server.
2. Di tab koneksi, untuk "Login Otomatis/Keluar", pilih 'Tidak'. Kesalahan terjadi jika Anda memilih 'Ya' di langkah 2, karena dalam kasus ini, ekstensi secara otomatis menambahkan 303 redirect ke semua halaman situs web Anda, untuk memeriksa apakah pengguna telah masuk ke CAS di sesi browser, dan jika demikian secara otomatis Anda login ke situs. Fitur ini akan menyebabkan masalah pengindeksan mesin pencari.

Ucapan Terima Kasih
Terima kasih kepada @ stephen-ostermiller ( jawaban yang relevan di Pro Webmaster ) karena mengarahkan saya ke arah yang benar dengan membuat saya menyadari bahwa itu adalah redirect 303 yang ditambahkan oleh ekstensi.

2