it-swarm-id.com

Apakah mesin pencari merayapi PDF dan jika ada apakah ada aturan untuk diikuti saat membuatnya

Situs web yang saya kerjakan memiliki beberapa ratus PDF di dalamnya. Saya tidak berpikir saya pernah melihat salah satu dari mereka kembali dalam pencarian tetapi ada yang terhubung langsung dari situs. Mereka juga penuh dengan kata kunci karena mereka adalah dokumen produk.

Apakah ada hal khusus yang perlu kita lakukan untuk membuat Google atau mesin pencari lain merayapi mereka?

Apakah ada aturan keras dan cepat untuk membuat PDF agar Google lebih menyukainya? Sebagai contoh, apakah saya harus menjalankannya melalui ghostscript untuk membersihkan tag PDF rusak yang dibuat Adobe selama pembuatan?

22
Ben Hoffman

Google pasti mengindeks PDF file dan Anda dapat mencari hanya PDF file dengan menambahkan filetype:pdf ke permintaan pencarian Anda ( contoh ).

Saya akan mengatakan hal-hal utama yang harus dilakukan untuk mengoptimalkan PDF sehingga mudah diindeks adalah:

  • Berikan nama file yang berarti
  • Lengkapi semua properti metadata dokumen (judul, penulis, kata kunci, dll)
  • Pastikan PDF Anda terdiri dari teks aktual dan bukan gambar yang dipindai
  • Pastikan Anda memiliki konten yang bagus dengan penggunaan judul yang benar, seperti halnya Anda menggunakan dokumen HTML

Untuk tips lainnya baca Mengoptimalkan PDF Dokumen dan Sebelas Tips Untuk Mengoptimalkan PDF Untuk Mesin Pencari

17
Dan Diplo

Saya tidak yakin tentang mesin pencari lain, tetapi sejauh menyangkut Google aturan utamanya adalah untuk tidak mengecualikan mereka melalui robots.txt

Ini adalah pengumuman awal mereka untuk mendukung pencarian PDF.

1
intlect

Sama seperti membuat situs web yang patuh tidak ada salahnya dengan SEO Anda, membuat PDFAnda _ dapat diakses tidak ada salahnya. Pemeriksa aksesibilitas bawaan Adobe jauh dari sempurna, tetapi setidaknya memperbaiki area-area tersebut akan membantu Anda memulai.

Saya mungkin menghabiskan 5 menit untuk setiap 4 atau 5, sebagian besar teks PDF yang kami pasang online. Waktu naik secara merata tergantung pada jumlah halaman, dan seberapa kompleks halaman itu.

Dengan asumsi Anda memiliki Adobe Acrobat Pro untuk melakukan pengeditan Anda:

  • Jalankan Pemeriksaan Penuh Aksesibilitas. (Pemeriksaan cepat tidak ada artinya bagi saya)
  • Perbarui informasi meta di properti dokumen (kata kunci, subjek, bahasa, dll)
  • Pastikan tag ditambahkan
  • Pastikan teks ditandai sebagai teks, gambar sebagai gambar, latar belakang sebagai latar belakang
  • Tandai bulu yang tidak berguna (seperti dekorasi atau desain) sebagai latar belakang
  • Tambahkan alt teks yang baik ke gambar
  • Pastikan dalam urutan membaca, teks tersebut dipesan dengan benar
  • Di bilah alat konten, pastikan teks tidak digandakan atau diterjemahkan secara keliru
  • Gunakan pemindai OCR pada halaman yang dipindai

Untuk pengeditan lebih lanjut seperti tabel dan kesalahan Adobe yang benar-benar aneh, kami menggunakan plugin yang disebut CommonLook. CommonLook menyelesaikan pekerjaannya, tetapi saya membencinya hampir sama seperti saya membenci alat Adobe.

Biasakan diri dengan alat Touch Up Reading Order, bilah alat Tags, bilah alat Membaca Bilah alat dan bilah alat Konten. Pekerjaan saya membutuhkan dokumen yang sepenuhnya sesuai sebelum keluar di web, tetapi siapa pun dapat mengambil manfaat dari beberapa pemberian tag dan properti dokumen sederhana.

1
MrChrister