Robots.txt คืออะไร ?

Robots.txt คืออะไร ?
robots.txt เป็นไฟล์ที่บอกให้ Search Engine เช่น google ,yahoo มาเก็บข้อมูลในหน้าเว็บของเรา ซึ่งในทางปฏิบัติแล้ว มันจะเก็บทุกส่วนของเว็บไซต์เรา ซึ่งถ้าเราไม่ต้องการให้มันเรียกเก็บข้อมูลในส่วนไหน เราก็สามารถป้องกันได้ ด้วยไฟล์ robots.txt นี้เอง

โรบอต (Robot) เป็นโปรแกรมเก็บข้อมูลในอินเตอร์เน็ต ซึ่งบางครั้ง เรียกว่าสไปเดอร์ (Spider) หรือ ครอว์เลอร์(Crawler) จะทําหน้าที่รวบรวมไฟล์ HTML เพื่อมาเป็นข้อมูล สําหรับสร้างดัชนีค้นหา ให้กับ เสิร์จเอ็นจิน (Search Engine) โดยทั่วไปแล้ว โรบอตจะกลับมาที่เว็บไซต์ที่อ่านไปแล้ว เพื่อตรวจสอบ การเปลี่ยนแปลง ตามระยะเวลาที่กําหนด

ดังนั้นเราต้องสร้างไฟล์ robots.txt ขึ้นมา เพื่อกำหนดว่าจะให้ Robot เข้าไปยังโฟลเดอร์ไหนได้บ้าง

แต่คำถามตอนนี้คือ จะสร้างมันยังไง ?

วิธีการคือให้สร้างไฟล์ที่ชื่อ robots.txt ขึ้นมาจากนั้นนำมาวางไว้ที่ Root Directory (ไดเรกเทอรี่เริ่มต้นของเว็บไซค์)
เช่นเว็บของผมนะ http://www.idatabaseblog.com/robots.txt

หลังจากนั้นก็อปปี้ข้อความนี้ลงไปในไฟล์ robotx.txt ครับ

User-Agent: *
Allow: /
Sitemap: http://yourdomain.com/sitemap.xml

ซึ่งข้อความข้างต้นนี้เป็นรูปแบบพื้นฐานในการสร้างไฟล์ robots.txt ที่ถูกต้องครับ
โดย Allow: / หมายควายว่า ให้มันเก็บข้อมูลได้ทั้งหมดเลยครับ ส่วน
Sitemap: http://yourdomain.com/sitemap.xml  ให้ใส่ที่อยู่ URL ของ sitemap เราครับ ^^

ที่นี้เราลองมาดูตัวอย่างนี้แล้วกันนะครับ เป็นกรณีที่สร้างไฟล์ robots.txt ให้เก็บข้อมูลในบางส่วนที่เราต้องการเปิดเผย

User-agent: *
Allow: /content
Disallow: /admin
Allow: /pic
Disallow: /xxx
Sitemap: http://yourdomain.com/sitemap.xml

จากตัวอย่างนี้จะเห็นได้ว่า

คำสั่ง Allow ก็คืออนุญาติให้มันเก็บไดเรกทอรี่ที่ระบุไว้ซึ่งในตัวอย่างคือ โพลเดอร์ content และ pic

ส่วนคำสั่ง Disallow ก็คือคำสั่งที่ไม่อนุญาติให้มันเก็บไดเรกทอรี่ที่ระบุไว้ซึ่งในตัวอย่างคือ admin และ xxx

เห็นไหมครับ การสร้างไฟล์ robots.txt ง่ายจะตาย แถมมีข้อดีหลายอย่างด้วยในการทำ SEO

แต่ทั้งนี้ทั้งนั้น ก่อนที่ผมจะเขียนบทความนี้มีหลายคนถามผมมาเยอะเลยเกินว่า จะสร้างไฟล์ robots.txt ยังไงให้เจ๋ง

อันนี้ผมก็ตอบไม่ได้นะครับ ผมก็เลยบอกว่า ถ้าอยากสร้างให้เจ๋งๆ ลองไปแงะประตูบ้าน เว็บดังๆเขาดูสิ ว่าเขาเขียนอะไรบ้าง ^^

http://www.google.com/robots.txt

User-agent: *
Allow: /searchhistory/
Disallow: /news?output=xhtml&
Allow: /news?output=xhtml
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalogues
Disallow: /news
Disallow: /nwshp
Allow: /news?btcid=
Disallow: /news?btcid=*&
Allow: /news?btaid=
Disallow: /news?btaid=*&
Disallow: /setnewsprefs?
Disallow: /index.html?
Disallow: /?
Disallow: /addurl/image?
Disallow: /pagead/
Disallow: /relpage/
Disallow: /relcontent
Disallow: /sorry/
Disallow: /imgres
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /default
Disallow: /m?
Disallow: /m/?
Disallow: /m/lcb
Disallow: /m/news?
Disallow: /m/setnewsprefs?
Disallow: /m/search?
Disallow: /m/trends
Disallow: /wml?
Disallow: /wml/?
Disallow: /wml/search?
Disallow: /xhtml?
Disallow: /xhtml/?
Disallow: /xhtml/search?
Disallow: /xml?
Disallow: /imode?
Disallow: /imode/?
Disallow: /imode/search?
Disallow: /jsky?
Disallow: /jsky/?
Disallow: /jsky/search?
Disallow: /pda?
Disallow: /pda/?
Disallow: /pda/search?
Disallow: /sprint_xhtml
Disallow: /sprint_wml
Disallow: /pqa
Disallow: /palm
Disallow: /gwt/
Disallow: /purchases
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local?
Disallow: /local_url
Disallow: /froogle?
Disallow: /products?
Disallow: /froogle_
Disallow: /product_
Disallow: /products_
Disallow: /print
Disallow: /books
Disallow: /patents?
Disallow: /scholar?
Disallow: /complete
Disallow: /sponsoredlinks
Disallow: /videosearch?
Disallow: /videopreview?
Disallow: /videoprograminfo?
Disallow: /maps?
Disallow: /mapstt?
Disallow: /mapslt?
Disallow: /maps/stk/
Disallow: /maps/br?
Disallow: /mapabcpoi?
Disallow: /center
Disallow: /ie?
Disallow: /sms/demo?
Disallow: /katrina?
Disallow: /blogsearch?
Disallow: /blogsearch/
Disallow: /blogsearch_feeds
Disallow: /advanced_blog_search
Disallow: /reader/
Disallow: /uds/
Disallow: /chart?
Disallow: /transit?
Disallow: /mbd?
Disallow: /extern_js/
Disallow: /calendar/feeds/
Disallow: /calendar/ical/
Disallow: /cl2/feeds/
Disallow: /cl2/ical/
Disallow: /coop/directory
Disallow: /coop/manage
Disallow: /trends?
Disallow: /trends/music?
Disallow: /notebook/search?
Disallow: /music
Disallow: /musica
Disallow: /musicad
Disallow: /musicas
Disallow: /musicl
Disallow: /musics
Disallow: /musicsearch
Disallow: /musicsp
Disallow: /musiclp
Disallow: /browsersync
Disallow: /call
Disallow: /archivesearch?
Disallow: /archivesearch/url
Disallow: /archivesearch/advanced_search
Disallow: /base/search?
Disallow: /base/reportbadoffer
Disallow: /base/s2
Disallow: /urchin_test/
Disallow: /movies?
Disallow: /codesearch?
Disallow: /codesearch/feeds/search?
Disallow: /wapsearch?
Disallow: /safebrowsing
Disallow: /reviews/search?
Disallow: /orkut/albums
Disallow: /jsapi
Disallow: /views?
Disallow: /c/
Disallow: /cbk
Disallow: /recharge/dashboard/car
Disallow: /recharge/dashboard/static/
Disallow: /translate_c
Disallow: /translate_suggestion
Disallow: /s2/profiles/me
Allow: /s2/profiles
Disallow: /s2
Disallow: /transconsole/portal/
Disallow: /gcc/
Disallow: /aclk
Disallow: /cse?
Disallow: /tbproxy/
Disallow: /MerchantSearchBeta/
Disallow: /ime/
Disallow: /websites?
Disallow: /shenghuo/search?
Disallow: /support/forum/search?
Disallow: /reviews/polls/
Disallow: /hosted/images/
Disallow: /hosted/life/
Disallow: /newspapers?
Disallow: /search2001/search?

ฮ่าๆๆๆ เทพไหมล่ะพี่น้อง ไม่รู้มันจะเขียนเอาโล่หรือยังไงไม่รู้ -*-

เอาล่ะ บทความนี้ขอจบเพียงเท่านี้แล้วกัน หวังว่าจะถูกใจใครไม่มากก็น้อยนะครับ ^^
นำมาจากhttp://www.idatabaseblog.com/index.php/2008/10/05/robots_txt_exampleครับเห็นว่าน่าสนใจดี

 

bastrad  Thaiseoboard

เทคนิคการป้องกันไม่ให้คู่แข่งสปายเวปคุณ

ทคนิคง่ายๆ เพียงแค่ใส่คำสั่งเหล่านี้ลงไปใน “robots.txt”

User-agent: *
Disallow:

User-agent: rogerbot
Disallow: /

User-agent: exabot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: gigabot
Disallow: /

User-agent: AhrefsBot
Disallow: /

คำสั่งเหล่านี้เป็นการบล๊อกบอท Tool ต่างๆ เช่น Ahrefs, SEOMoz, MajesticSEO

ที่จริงแล้วยังมีบอทมากกว่านี้ และเป็นบอทที่ไม่เป็นที่รู้จักอีกมากมาย การจะบล๊อกให้หมดนั้นจึงเป็นเรื่องยาก

หากคุณต้องการคัดกรองให้เหลือแต่บอทที่สำคัญจริงๆ คุณสามารถใช้คำสั่งได้ดังนี้

User-agent: googlebot
Allow:/

User-agent: msnbot
Allow:/

User-agent: slurp
Allow:/

User-agent: bingbot
Allow:/

User-agent: *
Disallow: /

บางกรณีจะใช้ robots.txt ไม่ได้ผล ต้องแก้ไขด้วยการใส่คำสั่งใน .htaccess

RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_USER_AGENT} ^rogerbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^exabot [OR]
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^dotbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^gigabot [OR]
RewriteCond %{HTTP_USER_AGENT} ^AhrefsBot
RewriteRule ^.* – [F,L]

เพียงแค่นี้คุณก็สามารถบล๊อกบอทที่ไม่จำเป็นได้แล้ว

Credit: VIP116

Google image redirect มาทำให้คนค้นภาพ แล้วเข้าเว็บเรากันเถอะ

เคยสงสัยใช่ไหมครับ ว่าบางเว็บไซต์เวลาเราค้นภาพเจอแล้ว เมื่อกดคลิกจะดูรูป เราก็จะเด้งเข้าเว็บนั้นทันที

ซึ่ง ก็มีประโยชน์ต่อ User นะครับเวลาค้นเจอภาพของเว็บเราผ่าน Google image นั้นก็จะได้เข้ามาอ่านเนื้อหาในเว็บเราด้วย เป็นการดึงดูด User อีกทางนึง

มีส่วนในการเพิ่ม Traffic ให้กับเว็บเราอย่างมาก

อ่า..ก็พล่ามน้ำ ๆ มาพอสมควรแล้วมาในส่วนของเนื้อหากันเลยครับ

Google image redirect เพื่อ Traffic สำหรับ WordPress นะครับ

ก็แค่โหลดและติดตั้ง Google Images Redirect wordpress plugin ตามลิงค์ด้านล่างครับ

โค๊ด:
http://wordpress.org/extend/plugins/google-images-redirect/

เป็น plugin ที่เก่ากว่าสองปีแล้วครับ เพราะเนื่องจากเป็นแค่สคริปที่ไม่ต้องใช้การพัฒนามากมายอะไร เมื่อติดตั้งแล้วจะให้เราเลือกว่าจะให้โค้ดไปอยุ่ที่ส่วน Header หรือ Footer แค่นั้นครับ

Google image redirect เพื่อ Traffic สำหรับ Blogger หรือเว็บไซต์อื่น ๆ ที่ไม่ใช่ WordPress นะครับ
จะมีโค้ด 3 แบบให้เลือกไปใส่ให้เหมาะสมกับเว็บไซต์ของท่านนะครับ (เลือกโค้ดใดโค้ดนึงนะครับ)

แบบที่ 1

โค๊ด:
<script language=’Javascript’>if(parent.location != self.location){parent.location=self.location;}</script>

แบบที่ 2

โค๊ด:
<script type=’text/JavaScript’>if (parent.frames.length > 0)top.location.replace(document.location);</script>

แบบที่ 3

โค๊ด:
<script type=”text/javascript”>
 <!–
 if (parent.frames.length > 0) { parent.location.href = location.href; }
 –>
 </script>

source : bornvirtual

สำหรับ Blogger ก็ให้เลือกแก้ไข html แล้วหาตัว </head> แล้ววางโค้ดลงไปก่อนส่วนนั้นแล้ว save นะครับ

จาก นั้นทดสอบโดยเข้าไปที่การค้นหารูปภาพของ Google แล้วพิมพ์ site:yourdomain.com (yourdomain = ชื่อโดเมนของท่าน) จากนั้น Google จะแสดงรูปภาพของเว็บท่านขึ้น แล้วลองคลิ๊กเพื่อดูรูปภาพครับ Google จากจะ redirect เข้าเว็บเราไปในทันที จากที่แต่ก่อนจะคาอยู่ที่หน้า google นะครับ

ก็เป็นอันเรียบร้อยครับสำหรับการแนะนำครับผม

 

Credit : www.thaiseoboard.com/index.php/topic,297327.msg4091411

วางเครื่อง COLO เว็บ&เกมส์ เริ่มต้น 2000 บาท เท่านั้น


|=========|
|   ประกาศ!      |
|=========|

รับวางที่ Sheeplink เมืองทอง ราคาพิเศษ


เพียง 2,000 บาท

รับวางที่ ISPIO กสท .บางรัก  ราคาพิเศษ


เพียง 2,200 บาท

ใหม่ล่่าสุด!

รับวางที่ CSLOX รัชดา  ราคาพิเศษ
สาย 1Gbps


เพียง 2,500 บาท


เอามาวางเยอะๆลดให้อีกครับ

สนใจติดต่อได้ครับ

http://www.Onairnetwork.net

email/msn: admin[@t]onairnetwork.net

083-739-8895  วิว

084-111-1310 ตั้ม

Ninevps.com – บริการ เช่า VPS เน็ทเร็ว เสถียร IP วงใหม่ !!!

เริ่มต้นเพียง 700 บาท/เดือน เท่านั้น!!!


ip : 111.223.32.XX

ที่บริษัท PROEN

เน็ท 1Gbps สายตรง

CPU : Xeon Quad X3220
M/B : TYAN S5201 Socket 775
RAM : DDR2 8GB Buss 800MHz
HDD : Western Black 1.5 TB x 3 ทำ Raid 0 บนการ์ด Raid Adaptec
Power Supply : Zippy PSL-6C00V 1200W
CASE : PC SERVER HiBase 4Hotswap

Net: เพิ่มตามปริมาณของลูกค้า วางแผนไว้ถึง 2 Gbps สายตรง

รายละเอียดเพิ่มเติม : www.ninevps.com

————————————————————-

VPS ( Virtual Private Server ) เซิร์ฟเวอร์เสมือน คืออะไร

บริการ คือบริการสำหรับลูกค้าที่ต้องการใช้งานเซิร์ฟเวอร์เพียงผู้เดียว เปรียบเสมือนมีเซิร์ฟเวอร์ส่วนตัว แต่มีงบประมาณไม่สูงถึงขนาดจะ ซื้อและดูแลเซิร์ฟเวอร์ด้วยตัวเอง คล้ายกับ Dedicate Server โดยสามารถ Remote เข้าไปจัดการแก้ไข Setup ค่าต่างๆบนเซิร์ฟเวอร์ได้ด้วยตนเอง

บริการ VPS จะเป็นการจำลองขึ้นมาโดยในทางปฏิบัติแล้วผู้ใช้บริการรายอื่นๆก็จะมีการใช้ งานบนเซิร์ฟเวอร์ตัวเดียวกันนี้ แต่จะมีการแบ่งทรัพยากรออกจากกันอย่างชัดเจน ยกตัวอย่างเช่น มีผู้ใช้บริการ 3 รายบนเซิร์ฟเวอร์ตัวเดียวกันหากรายที่ 1 ทำการ reboot เครื่องผู้ใช้บริการคนที่ 2 และ 3 ก็ยังสามารถ ใช้งานได้เป็นปกติรวมถึงทรัพยากรต่างๆเช่น CPU , Memory , Harddisk จะถูกกำหนดไว้ตายตัวว่าผู้ใช้บริการแต่ละรายสามารถใช้งานได้ปริมาณเท่าไหร่ และผู้ใช้บริการแต่ละราย สามารถเลือกระบบปฏิบัติการได้เองว่าต้องการใช้งาน Windows หรือ Linux

การแชร์ทรัพยากรในลักษณะของ VPS จึงทำให้ค่าบริการมีราคาต่ำกว่า Dedicate Server หรือการมีเซิร์ฟเวอร์ส่วนตัวจริงๆ แต่การทำงานจะไม่ต้องเกี่ยวข้องกับผู้ใช้บริการรายอื่นๆ แยกจากกันโดยเด็ดขาดทำให้สามารถใช้งานได้อย่างเป็นอิสระ เทคโนโลยีนี้ถูกคาดหมายว่าในอนาคตเซิร์ฟเวอร์ส่วนใหญ่จะถูกเปลี่ยนมาเป็น VPS ทั้งหมด ท่านสามารถนำบริการ VPS นี้ไปใช้งานเป็นเซิร์ฟเวอร์ต่างๆได้เช่น Web Server , Mail Server , Database Server , FTP Server , File Server ฯลฯ

Please visit VPS for more detail.