ไฟล์ robots.txt คืออะไร

robots.txt คืออะไร?

ในการเก็บข้อมูลเว็บไซต์ของ Search Engine ไม่ว่าจะเป็น Google, Yahoo, Bing และอื่นๆ ตัว Search Engine เองจะมีซอฟท์แวร์ที่พัฒนาขึ้นซึ่งเราเรียกว่า Search Engine Robot ที่จะทำตัวเหมือนแมงมุม เดินไต่ไปตามเว็บต่างๆ ผ่าน Link ที่เชื่อมต่อกันไปเรื่อยๆ ของแต่ละเว็บไซต์ เพื่อเข้ามาเก็บข้อมูลเนื้อหา ไฟล์ และรูปภาพ บนเว็บของเรานำไปสร้างเป็นดัชนีข้อมูลของแต่ละเว็บว่ามีข้อมูลอะไรบ้างให้กับ Search Engine

จากสถิติการเข้าถึงของพวก Search Engine Robot บน Server ที่เราให้บริการ ทำให้เราเห็นว่า Search Engine Robot นี้มีมากมายหลายประเภท บางตัวเข้ามาดูเว็บไซต์แค่หน้าแรกไม่ไต่ไปตาม Link ไหนต่อ บางตัวเข้ามาเก็บเฉพาะรูปภาพ บางตัวเข้ามาเก็บไฟล์อย่างเดียว จุดที่น่าสนใจคือเราเห็นว่า Search Engine Robot พวกนี้จะแวะเวียนเข้ามาบ่อยๆ กับเว็บไซต์ที่มีเนื้อหาอัปเดทใหม่ๆ อย่างสม่ำเสมอ และ หากเนื้อหาที่อัปเดทนั้น เป็นที่สนใจของผู้ชม เว็บก็มักจะได้รับการจัดอันดับเว็บไซต์ให้อยู่ในอันดับต้นๆ ในรายการผลการค้นหา

Search Engine Robot พวกนี้ทำงานกันแบบอัตโนมัติ เมื่อมีเว็บไซต์เกิดขึ้นบนโลกอินเตอร์เน็ต และมีเนื้อหาถูกสร้างขึ้น พวก Search Engine Robot ก็จะเข้าไปเก็บข้อมูลของเว็บไซต์นั้นเลยทันที จุดนี้เองเป็นจุดที่เข้ามาของ robots.txt เพราะในกรณีที่เว็บไซต์ของเรามีข้อมูลบางอย่างที่สำคัญ ยกตัวอย่างเช่นข้อมูลรายชื่อสมาชิกเว็บไซต์ ข้อมูลที่เป็นเอกสารลับภายในองค์กร ซึ่งเราไม่อยากให้ Search Engine นำข้อมูลนี้ไปเผยแพร่และทำดัชนีการค้นหา ไม่ต้องการให้เปิดเผยเป็นสาธารณะ เราก็สามารถใช้ประโยชน์จากไฟล์ robots.txt เพื่อบอก Search Engine Robot ว่าอย่าเข้ามาเก็บข้อมูลในส่วนนี้นะ

ไฟล์ robots.txt อยู่ตรงไหน

เพื่อให้ไฟล์ robots.txt มีผล เราจำเป็นต้อง upload ไฟล์ robots.txt ไว้ที่ Document root ของโฮสติ้งของเรา ถ้าเป็น Plesk Control Panel ก็ให้อัปโหลดไว้ที่แฟ้ม httpdoc หากเป็น DirectAdmin Control Panel ก็ให้อัปโหลดไว้ที่แฟ้ม public_html ได้เลย หากต้องการเรียกดูว่าไฟล์ robots.txt ของเว็บไซต์นั้นเขียนค่าอะไรลงไปบ้างเราก็สามารถทำได้โดย พิมพ์ URL ของเว็บลงในเบราว์เซอร์ แล้วตามด้วย /robots.txt

ก็จะเห็นไฟล์ robots.txt ของ google และการตั้งค่าแฟ้มที่อนุญาติ และไม่อนุญาติให้เข้าถึงเอาไว้

ส่วนผลลัพท์ที่จะแสดงมีอยู่ 3 แบบคือ

1. พบไฟล์ robots.txt

2. ไม่มีไฟล์ robots.txt

3. ไม่พบเว็บ หรือเจอ error 404

ซึ่งหากคุณไม่มีไฟล์ robots.txt หรือหาไม่เจอ ก็ต้องทำการสร้างไฟล์ขึ้นมา ซึ่งสามารถสร้างโดยใช้โปรแกรม notepad หรือ notepad++ ก็ได้ ไฟล์ที่สร้างนี้จะต้องชื่อ robots.txt เท่านั้น และต้องเอาไฟล์นี้ไปวางไว้ที่ public_html

วิธีการสร้างไฟล์ robots.txt

คุณสามารถสร้าง robots.txt ได้ด้วยโปรแกรม text editor อะไรก็ได้ตามที่ถนัด ไม่ว่าจะเป็น Notepad++, Sublime Atom หรือจะใช้ Notepad ที่มีติดเครื่องอยู่แล้วก็ได้ จากนั้นเพิ่ม code ดังนี้

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://sandbox.in.th/wp-sitemap.xml

ทีนี้เรามาดูความหมายของแต่ละคำสั่งกัน

User-agent: *

เป็นการบอกให้ Search engine ใดๆ ก็ตามที่มาถึงหน้าเว็บเรา หากรู้ชื่อก็สามารถระบุลงไปแทนก็ได้นะ เช่น Googlebot, Bingbot หรือ Yahoooot ในกรณีนี้เราใช้เป็น เพื่อระบุว่า Search Engine Robot ทุกตัว

User-agent: Googlebot
Disallow: /wp-admin/     //ไม่อนุญาตให้เข้าถึงโฟลเดอร์ wp-admin
Allow: /wp-admin/admin-ajax.php  //อนุญาตให้เข้า Folder หรือ Directory นี้ได้
Sitemap:  // จะเรียกตำแหน่ง XML ของเว็บที่เชื่อมโยงกับ URL ที่ระบุไว้ 

** คำสั่ง sitemap นี้จะรองรับเฉพาะ Google, Ask, Bing, และ Yahoo เท่านั้น**

Allow: /

เป็นการระบุ / ในค่านี้คือเราอนุญาติให้เข้า Search Engine Bot ถึงเว็บไซต์ได้ทุกส่วน

Disallow: /admin-area/

เป็นการระบุไม่ให้ Search Engine Bot เข้าไปเก็บข้อมูลในแฟ้ม /admin-area ได้

นอกจากเรื่องการอนุญาติและ การห้ามเข้าไปยังตำแหน่งตรงนั้นตรงนี้ของเว็บไซต์แล้ว robots.txt ยังสามารถกำหนดค่า Crawl-Delay เพื่อระบุให้ bot เข้าตาม Link ให้ช้าลงเพื่อป้องกัน Web Server ทำงานหนักจนเกินไป และอีกค่านึงที่สำคัญก็คือ robots.txt สามารถกำหนดตำแหน่งที่อยู่ของไฟล์ sitemap.xml เพื่อให้ Search Engine Robot มีแผนที่ URL และ Link ทั้งหมดของเว็บไซต์เรา จะได้ไต่ได้สะดวกขึ้นอีกด้วย หากใครยังไม่มีไฟล์ และไม่รู้ว่ามันคือไฟล์อะไรอีกเนี่ย ก็สามารถศึกษาเพิ่มเติมได้ที่

sitemap.xml คือไฟล์อะไรมีไว้ทำไม

มาดูอีกตัวอย่างกัน

User-agent: *
Allow: /
Disallow: /admin-area/
Crawl-delay: 60
admin-area

ค่า Crawl-Delay 60 ข้างต้นจะแสดงถึงจำนวนวินาที ที่ Bot จะไต่ไปถาม URL ได้ กล่าวคือ 60 วินาที ไป URL นึง แล้วหากต้องการไปอีก URL นึงให้รอ 60 วินาที และ ค่า Sitemap ข้างต้น ก็ระบุว่าไฟล์ sitemap.xml อยู่ที่ ตำแหน่ง https://domain.com/sitemap.xml ให้ Search Engine Robot ไต่เก็บข้อมูลตามลิงค์นี้ได้เลย

สำหรับท่านที่ไม่อยากสร้างไฟล์นี้เอง เกรงว่าจะพิมพ์ตกผิมผิด ก็สามารถสร้างได้จากเครื่องมืออัตโนมัติตาม URL ด้านล่างนี้ได้

https://www.seoptimer.com/robots-txt-generator

https://en.ryte.com/free-tools/robots-txt-generator/

สำหรับผู้ที่ใช้งาน WordPress ท่านสามารถสร้างไฟล์ robots.txt ได้จาก Plugin นี้ได้เลยแบบอัตโนมัติ
วิธีสร้าง robots.txt ผ่าน Plugin All In One SEO

มาทดสอบ robots.txt ไฟล์กัน

robots.txt นี้หากตั้งไว้ดีมันจะส่งผลให้กับการทำ SEO ด้วย ดังนั้น ไฟล์ robots.txt ถือว่าเป็นส่วนสำคัญที่ห้ามมองข้ามเป็นอันขาด และเพื่อให้แน่ใจว่าเราวางตำแหน่งไฟล์ robots.txt ไว้ถูกที่แล้วเราสามารถทำการทดสอบได้ผ่านเครื่องมือ robots.txt Tester บน Google Search Console ว่า URL ที่เรากำหนดให้เข้าได้ Robot สามารถเข้าได้จริงมั้ย และส่วนที่กำหนดให้เข้าไม่ได้ ไม่สามารถเข้าได้จริงรึเปล่า

หมายเหตุ
ไม่ใช่ทุก Search Engine Robot จะเชื่อฟังไฟล์ robots.txt บาง Search Engine ชื่อดังทางฝั่งจีน และรัสเซียไม่เชื่อฟังไฟล์นี้นะ

Was this article helpful?

Related Articles