Menghapus duplikat konten dari Google
Ini adalah bagian overview dari Google Webmaster Tools yang mengatakan “Google saat ini tidak dapat mengakses halaman anda karena adanya pembatasan robots.txt”. Arghh!
Ini dikarenakan karena beberapa malam yang lalu, saya membuat beberapa perubahan pada situs untuk menghapus duplikat konten di Google. Google (dan mesin pencari lainnya) tidak suka duplikat konten, jadi dengan menghapus arsip halaman, kategori, feed, dll dari indeks mereka, saya harus mampu untuk mengurangi jumlah keseluruhan halaman dari situs ini yang terdaftar dan pada saat yang sama meningkatkan kualitas hasil telusur (posisi saya dan mudah-mudahan dalam indeks). Idealnya, saya dapat langsung menuju lokasi mesin pencari hanya untuk mengindeks halaman depan dan halaman posting.
Aku berdasarkan perubahan pada beberapa informasi di web saya yang menyebabkan beberapa masalah, jadi ini adalah apa yang saya lakukan dan catatan berikut ini, mudah-mudahan orang lain saya tidak akan mengulang kesalahan yang saya perbuat, namun terdapat pengecualian, gunakan petunjuk ini dengan hati-hati, Saya tidak bertanggung jawab jika orang lain melakukan kesalahan yang saya perbuat
Pertama, saya membuat beberapa perubahan pada bagian <head> di WordPress template:
<?php if(is_single() || is_page() || is_home()) { ?>
<meta name=”robots” content=”all” />
<?php } else { ?>
<meta name=”googlebot” content=”noindex,noarchive,follow,noodp” />
<meta name=”robots” content=”noindex,noarchive,follow” />
<meta name=”msnbot” content=”noindex,noarchive,follow” />
<?php }?>
Karena konten yang dihasilkan WordPress secara dinamis, ini memberitahu mesin pencari mana yang harus di index, dan yang harus keluar, tergantung jenis halaman. Jadi, pada dasarnya, jika ini merupakan posting halaman, satu halaman, atau halaman muka maka Google akan mengindexnya, jika tidak mengikuti aturan yang sesuai untuk Google, MSN atau search engine lainnya, memberitahu mereka tidak mengindeks arsip atau halaman tetapi follow untuk setiap link, Google tidak menyertakan setiap informasi direktori. Hal ini berdasarkan saran dari askapache.com tetapi diubah karena standar perilaku untuk mengindeks spider, follow all, jadi saya tidak perlu menetapkan aturan khusus untuk Google dan MSN seperti pada contoh.
Selanjutnya, berikut nasihat untuk menggunakan robots.txt untuk menghindari duplikasi konten, saya mulai mengedit file robots.txt. Cukup untuk mengatakan bahwa hasil akhir akan terlihat pada web server dan bagi mereka yang berpikir bahwa penerbitan lokasi robots.txt adalah ide yang buruk (karena isi efektif adalah daftar tempat-tempat bahwa saya tidak ingin ...
... orang mengklik link tersebut), maka dari itu saya berpikir dengan cara seperti ini: robots.txt adalah standar banyak file di web server, oleh kebutuhan yang harus dibaca dan karena itu tidak boleh digunakan untuk tujuan keamanan.Perubahan yang telah saya buat untuk memblokir folder tertentu:
Disallow: /blog/page
Disallow: /blog/tags
Disallow: /blog/wp-admin
Disallow: /blog/wp-content
Disallow: /blog/wp-includes
Disallow: /*/feed
Disallow: /*/trackback
Saya juga memblokir ekstensi file tertentu:
Disallow: /*.css$
Disallow: /*.html$
Disallow: /*.js$
Disallow: /*.ico$
Disallow: /*.opml$
Disallow: /*.php$
Disallow: /*.shtml$
Disallow: /*.xml$
Kemudian, saya memblokir URL yang mengandung “?” Kecuali mereka yang diakhiri dengan “?:”
Allow: /*?$
Disallow: /*?
Masalahnya di <head> ini karena saya memblokir semua file yang menggunakan .php
Disallow: /*.php$
Contohnya http://www.netrix.freetzi.com/blog/ setara dengan http://www.netrix.freetzi.com/blog/index.php maka saya telah efektif menghentikan spider mengakses halaman index. Saya tidak yakin spider menyatakan halaman tersebut adalah duplikat. Saya menyelesaikan masalah ini dengan menggunakan file robots.txt yang mengijinkan file index.php terindex (dan beberapa file penting yaitu sitemap.xml)
Allow: /blog/index.php
Allow: /sitemap.xml
Ada juga bahwa wildcard (*,?) tidak membolehkan yang berlaku dan arahan robots.txt file sehingga akan gagal validasi. Setelah sedikit riset saya menemukan bahwa mesin pencari utama setiap ditambahkan dukungan untuk perangkat tambahan mereka sendiri ke robots.txt spesifikasi:
- Google (Googlebot), Yahoo! (Slurp) and Ask (Teoma) support
allowdirectives. - Googlebot, MSNbot and Slurp support wildcards.
- Teoma, MSNbot and Slurp support crawl delays.
Oleh karena itu, saya membuat beberapa kode blok, satu untuk masing-masing mesin pencari utama dan menangkap semua spider, jadi struktur dasarnya adalah:
# Google
User-agent: Googlebot
# Tambahkan url disini
# MSN
User-agent: msnbot
# Tambahkan url disini
# Yahoo!
User-agent: Slurp
# Tambahkan url disini
# Ask
User-agent: Teoma
# Tambahkan url disini
# Untuk semua user-agent
User-agent: *
# Tambahkan url disini
Hanya untuk tambahan, saya menambahkan beberapa kode untuk Alexa archiver dan Google AdSense.
# Alexa archiver
User-agent: ia_archiver
Disallow: /
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Akhirnya, saya menemukan bahwa Google, Yahoo, ask.com dan Microsoft sekarang mendukung sitemap autodiscovery melalui robots.txt.
- Kesalahan sewaktu mengoptimalkan website
- Download Google Chrome 5 Offline Installer
- Backlink meningkatkan PageRank?
- Download Google Chrome terbaru 10.0.648.127
- Perbandingan WordPress dan blogger untuk SEO
- Google Update Pagerank April 2010
- Google Wave akan menjadi saingan Facebook
- Google Squared, mesin pencari baru dari Google
Keyword Masuk:
cara menghapus hasil telusuran pada google, menghapus duplikat konten google webmaster
Blogging, Search Engine, Seo, Tips & Trik, Tutorial, Website, Blog, Duplikat, Google, Hapus, Seo, Website
Paling Sering Dibaca:
6 Comments
Tenang saja, kalau hosting kita dikasih bandwidth 2GB/bln insyallah gk akan habis kok…
Kecuali kalau jumlah halaman website kita lebih dari 250 halaman, mungkin harus upgrade ke 1GB/Bln. Kalau jumlah pengunjung Anda sudah sampai puluh ribuan saya sarankan tingkatkan bandwidth hosting Anda.
Bagaimana sih caranya menggunakan robot.txt dari webmaster google, cara merubah text disallow menjadi allow. Apa itu directory html? Dan cara upload robot.txt ke blog kita.
Tinggalkan Komentar
Posting Terbaru
- Penelitian tentang kiamat 2012 bangsa maya
- Download Opera 10.60 Beta
- Antivirus paling ringan dan cepat
- Kumpulblogger.Com Kena Hack Yahoo! Open Hack Day atau kenapa??
- Awasi akses proteksi flashdisk
- Mempercepat koneksi Dial-Up
- Cara mudah memperbaiki boot Windows 7 dengan Startup Repair
- Memperbaiki startup Windows 7 tanpa DVD Instalasi Windows 7
- Download AVG Antivirus Free Edition 2012 Gratis
- Download gratis Microsoft Office 2010 beta home dan business
Label
2011 2012 Antivirus Aplikasi Backlink Blog Blogger Browser Download Facebook Firefox Foto Gadget Google Internet Internet Explorer 9 Kaspersky Kaspersky Internet Security Kiamat Komputer Mempercepat Mesum Nibiru Nokia Pagerank Plugin Search Engine Seo Situs Software Tampilan Tema Tips Trik Update Video Virus Website Windows Windows 7 Windows 8 Windows Seven Windows Vista Windows XP Yahoo
WP Cumulus Flash tag cloud by Roy Tanck requires Flash Player 9 or better.
Komentar Terakhir
- claudya on Hosting domain gratis di 50webs.com
- bayu on Cara mudah memperbaiki boot Windows 7 dengan Startup Repair
- tyanzilva on Kode tombol rahasia handphone Samsung
- Dede on Cara mempercepat proses restart
- admin on Cara membuat website di 000webhost.com
- yega on Cara membuat website di 000webhost.com
- New Computer Tablet on Antivirus paling ringan dan cepat
- lowongan kerja on Cara menginstall tema Windows 7
Top Commentators
angga (1)
bayu (1)
claudya (1)
Dede (1)
Dody Irawan (1)
fahmi (1)
lowongan kerja (1)
New Computer Tablet (1)
Nurhasan Abdurrohman (1)
tyanzilva (1)
Services
Cari Artikel
Posting Acak
- Cara menginstall Vista dari Flash Drive
- Misteri kematian Noordin M Top
- Cara Install Windows XP
- Hubungan daratan arab dan hari kiamat
- Microsoft meluncurkan Windows 7 SP1 pada 22 Februari 2011
- Menggabungkan partisi hardisk
- Memotong gambar di Microsoft Word
- Mempercepat proses shutdown Windows 7
- Ping blog Anda ke FeedBurner
- Cara menghapus recent documents
Arsip
- February 2012 (5)
- January 2012 (12)
- December 2011 (12)
- November 2011 (18)
- October 2011 (17)
- September 2011 (13)
- August 2011 (17)
- April 2011 (10)
- March 2011 (10)
- February 2011 (9)
- January 2011 (5)
- December 2010 (7)
- June 2010 (7)
- May 2010 (10)
- April 2010 (10)
- March 2010 (12)
- February 2010 (11)
- January 2010 (8)
- December 2009 (10)
- November 2009 (6)
- October 2009 (5)
- September 2009 (5)
- August 2009 (8)
- July 2009 (5)
- June 2009 (4)
- May 2009 (6)
- April 2009 (5)
- March 2009 (5)
- February 2009 (4)
- January 2009 (7)






bagus sekali mas…saya juga skg mengalami itu jadi bingung???
sperti ini mas statiknya
Googlebot 232 4.71 MB 21 Jun 2009 – 09:17
Unknown robot (identified by ‘spider’) 18 329.64 KB 21 Jun 2009 – 13:02
Yahoo Slurp 18 166.06 KB 21 Jun 2009 – 10:49
Unknown robot (identified by empty user agent string) 8 186.17 KB 18 Jun 2009 – 07:16
Unknown robot (identified by ‘robot’) 6 123.15 KB 18 Jun 2009 – 04:20
Google Sitemaps 2 626 Bytes 10 Jun 2009 – 23:25
MSNBot
saya takutnya bandwith kita jadi k.o…
mohon infonya mas!!!