Pengertian dan Fungsi Robot TXT Website

Pengertian dan Fungsi Robots.txt Pada Website

The Robots Exclusion Protocol (REP) atau Robots.txt adalah sebuah file yang berisikan peraturan crawling untuk Search Engine. Umumnya fungsi robots.txt digunakan untuk memblokir halaman yang tidak ingin di index atau diikuti oleh Search Engine. Entah itu mengizinkan Google dan sebangsanya untuk crawling website, ataupun tidak.

Terletak di root folder website kalian. Bersamaan dengan .htaccess dan subfolder lain. Beberapa tahun terakhir Robots.txt sangatlah populer bagi pengguna website baik wordpress, blogger, joomla dan lainnya. Karena fitur ini memberikan kemudahan pada developer untuk mengatur privasi website mereka.

Mau tau pengertian dan fungsi robots.txt pada website?

Search Engine Apa Yang Support Robots.txt?

Coba kita lihat tabel dibawah!

Robots value Google Yahoo! MSN / Live / Bing Ask
index Yes Yes Yes Yes
noindex Yes Yes Yes Yes
none Yes Doubt Doubt Yes
follow Yes Doubt Doubt Yes
nofollow Yes Yes Yes Yes
noarchive Yes Yes Yes Yes
nosnippet Yes No No No
noodp Yes Yes Yes No
noydir No use Yes No use No use

Fungsi Perintah Robots.txt

  • index : Membiarkan halaman yang dimaksud untuk dilihat dan diindex pada pencarian
  • noindex : Tidak mengizinkan mesin pencari mengindeks halaman yang dimaksud
  • noimageindex : Tidak mengizinkan gambar untuk di index mesin pencari. Ini digunakan oleh instagram
  • follow : Pada defaultnya semua halaman memiliki perintah follow. Agar tiap halaman diikuti oleh robot pencarian
  • nofollow : Kebalikan dari follow. Memblokir akses robot pencarian terhadap link
  • noarchive : Tidak mengizinkan mesin pencari memberikan data cadangan halaman yang dimaksud
  • nocache : Sama seperti noarchive hanya saja khusus dibagian cache
  • nosnippet : Tidak mengizinkan mesin pencari memunculkan kalimat potongan dari Halaman yang dimaksud
  • noodp : Tidak mengizinkan mesin pencari menggunakan deskripsi halaman dari DMOZ
  • noydir : Perintah khusus Yahoo! directory
  • none : ini perintah yang paling mantap. Artinya Robot pencarian dilarang melakukan apapun
  • Disallow : Perintah untuk tidak mengizinkan search engine

Contoh Robots.txt File Yang Benar

Robots.txt Website WordPress
Tampilan Robots TXT

Untuk melihat file Robots.txt di website, kalian cukup akses URL website dan diikuti dengan /robots.txt. Contoh : Yoast Robots atau NeilPatel Robots Kurang lebih, tampilan default dari robots.txt file adalah seperti ini :

User-agent: *
Disallow: /ebooks/*.pdf

User-agent: Googlebot-Image
Disallow: /images/
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Dari kedua kode diatas, mereka memiliki fitur yang berbeda. Khusus untuk kode paragraf kedua, itu adalah robots txt default yang di generate oleh WordPress. Untuk selengkapnya lihat penjelasan dibawah.

  • User-agent: * —  Mendeklarasikan semua jenis Search Engine Robot (*)
  • Disallow: /ebooks/*.pdf — Melarang semua jenis robot, untk mengakses semua url (*) ebooks dan file PDF
  • User-agent: Googlebot-Image — Mendeklarasikan Googlebot image untuk tidak mengakses gambar
  • Disallow: /images/ — Disallow Google Bot Image mengakses url /images/
  • Disallow: /wp-admin/ — Disallow Google Bot Image mengakses url /wp-admin/

Perlukah Menulis Sitemap di Robots.txt?

Memang secara teori menulis Sitemap di Robots.txt adalah benar. Tapi saya rasa hal itu tidak terlalu berguna untuk sekarang. Pasalnya, kita tetap wajib untuk membuat akun di Google Search Console atau Bing Webmaster Tools.

Barulah dari panel tersebut, kita bisa submit Sitemap website secara menyeluruh. Baca disini untuk cara submit sitemap ke Google, Bing, dan Yandex.

Ini alasan kenapa banyak website tidak menginput sitemap di file robots. Semoga bermanfaat!

Leave a Response