กำลังรวบรวมไฟล์ robots txt

โกลอฟนามาตรการทางสังคมและจดหมาย ไฟล์ robots.txt— ไฟล์ข้อความในรูปแบบ .txt ซึ่งอนุญาตให้โรบ็อตการค้นหาเข้าถึงเซิร์ฟเวอร์ http จามรี vyzanennya, Robots.txt - เชมาตรฐานสำหรับหุ่นยนต์ ซึ่งได้รับการรับรองโดยสมาคม W3C เมื่อวันที่ 30 มิถุนายน พ.ศ. 2537 และได้รับการยอมรับโดยสมัครใจจากคนส่วนใหญ่ระบบเสียง

- ไฟล์ robots.txt ประกอบด้วยชุดคำสั่งสำหรับโรบ็อตการค้นหาที่ป้องกันการจัดทำดัชนี

ไฟล์เพลง

หน้าและแคตตาล็อกบนเว็บไซต์

มาดูคำอธิบายของ robots.txt สำหรับตัวเลือกนี้ หากเว็บไซต์ไม่ได้บล็อกโรบ็อตไม่ให้เข้าถึงเว็บไซต์ตัวอย่าง robots.txt อย่างง่าย:

ตัวแทนผู้ใช้: * อนุญาต: /

ที่นี่โรบอตอนุญาตให้จัดทำดัชนีของทั้งไซต์ได้อย่างสมบูรณ์ไฟล์ robots.txt จะต้องอยู่ในไดเรกทอรีรากของเว็บไซต์ของคุณ

เพื่อให้สามารถเข้าถึงได้ตามที่อยู่ต่อไปนี้:

Your_site.ru/robots.txt

หากต้องการวางไฟล์ robots.txt ไว้ที่รากของไซต์ จำเป็นต้องมีการเข้าถึงผ่าน FTP - อย่างไรก็ตาม ระบบปฏิบัติการ (CMS) ทำให้สามารถสร้าง robots.txt ได้โดยตรงจากแผงควบคุมของเว็บไซต์หรือผ่านการใช้ตัวจัดการ FTPหากไฟล์พร้อมใช้งาน คุณสามารถดาวน์โหลด robots.txt จากเบราว์เซอร์ของคุณแทนได้ ทำไมคุณถึงต้องการ robots.txt? Roots.txt สำหรับไซต์เป็นสิ่งสำคัญ จำเป็นต้องมี robots.txt- ตัวอย่างเช่นใน จำเป็นต้องมี SEO robots.txt เพื่อรวมหน้าจากการจัดทำดัชนี เพื่อไม่ให้รบกวนเนื้อหาที่เกี่ยวข้องและอื่นๆ อีกมากมาย- อย่างไร อะไร ตอนนี้ และเหตุใดจึงมีการอธิบายไว้แล้วในบทความเกี่ยวกับเรื่องนี้ เราจะไม่อยู่กับใครเลย

ไฟล์ robots.txt ที่จำเป็น

ไปยังทุกไซต์? และเช่นนั้นและไม่ใช่เนื่องจากเว็บไซต์ robots.txt ปิดใช้งานหน้าเว็บโดยอัตโนมัติ ดังนั้นสำหรับไซต์ขนาดเล็กที่มีโครงสร้างเรียบง่ายและหน้าเว็บแบบคงที่ ข้อบกพร่องที่คล้ายกันจึงสามารถสังเกตเห็นได้ อย่างไรก็ตาม สำหรับไซต์ขนาดเล็ก อาจมีข้อบกพร่องอยู่บ้างคำสั่ง robots.txt เช่น คำสั่ง Host หรือ Sitemap แต่ราคาต่ำกว่าวิธีสร้าง robots.txt ชิ้นส่วน Robots.txt เป็นไฟล์ข้อความและสร้างไฟล์ robots.txt คุณสามารถเร่งความเร็วอะไรก็ได้โปรแกรมแก้ไขข้อความ- ทุกอย่างง่ายดายและการสร้างไฟล์ robots.txt จะไม่สร้างปัญหาให้กับมือใหม่

ฉันจะแสดงให้คุณดูด้านล่างเกี่ยวกับวิธีการเขียน robots.txt และสิ่งที่ควรเขียนด้วย robots on butts

สร้าง robots.txt ออนไลน์ ทางเลือกสำหรับคนขี้เกียจสร้างโรบ็อตออนไลน์และอัปโหลดไฟล์ robots.txt มันดูพร้อมแล้วการสร้าง robots txt online ให้บริการที่หลากหลาย คุณสามารถเลือกได้ หัวหน้า - เข้าใจอย่างชัดเจนว่าสิ่งใดจะถูกบล็อกและสิ่งใดที่ได้รับอนุญาตเป็นอย่างอื่นการสร้างไฟล์ robots.txt ออนไลน์อาจกลายเป็นโศกนาฏกรรมได้

เพื่อให้คุณสามารถแก้ไขในภายหลังได้อย่างง่ายดาย

การค้นหาสิ่งที่เราจะปิดเล็กน้อยนั้นคุ้มค่าอย่างยิ่ง ให้ความเคารพ - ส่งคืนไฟล์โรบ็อตของคุณก่อนแล้วอัปโหลดไปยังไซต์นิ่ง ไฟล์ koristuvach robots.txtแม่นยำยิ่งขึ้น มันสะท้อนถึงโครงสร้างของการแลกเปลี่ยน ซึ่งแตกต่างจากที่สร้างและดึงดูดจากไซต์อื่นโดยอัตโนมัติ อ่านต่อเพื่อทราบว่าคุณต้องใส่ใจเป็นพิเศษเมื่อแก้ไข robots.txtการแก้ไข robots.txt

เมื่อคุณสร้างไฟล์ robots.txt ทางออนไลน์หรือด้วยตนเอง คุณก็สามารถทำได้

เมื่อคุณสร้างไฟล์ robots.txt ทางออนไลน์หรือด้วยตนเอง คุณก็สามารถทำได้แก้ไข robots.txt - คุณสามารถเปลี่ยนแทนได้ตลอดเวลา เพียงปฏิบัติตามกฎและไวยากรณ์ของ robots.txt ต่อไปนี้ในกระบวนการทำงานบนไซต์ ไฟล์โรบ็อตอาจมีการเปลี่ยนแปลง และหากคุณแก้ไข robots.txt อย่าลืมอัปเดตไซต์ที่อัปเดต รุ่นปัจจุบันไฟล์ที่มีการเปลี่ยนแปลงมากมาย

ต่อไปเรามาดูกฎสำหรับการตั้งค่าไฟล์กัน วิธีเปลี่ยนไฟล์ robots.txtและ “อย่าสับไม้”

กำหนดค่า robots.txt อย่างถูกต้องช่วยให้คุณสามารถแยกข้อมูลส่วนตัวออกจากผลการค้นหาของเครื่องมือค้นหาที่ยอดเยี่ยม

อย่างไรก็ตามอย่าลืมสิ่งนั้น

คำสั่ง robots.txt ไม่เกิน kerivnitstvo ก่อนดำเนินการ ไม่ใช่ zakhist

- โรบ็อตของเครื่องมือค้นหาที่เชื่อถือได้ เช่น Yandex และ Google ถูกควบคุมโดยคำสั่ง robots.txt โรบ็อตอื่นๆ สามารถเพิกเฉยต่อพวกมันได้อย่างง่ายดาย ความเข้าใจที่ถูกต้องสั่งให้หุ่นยนต์แยกวิเคราะห์คำสั่งที่ระบุตัวแทนผู้ใช้ของชื่อของมัน

ตัวอย่างของ robots.txt ที่มีอินพุต User-agent จำนวนมาก:

# จะถูกเลือกโดยหุ่นยนต์ Yandex ทั้งหมด User-agent: Yandex Disallow: /*utm_ # จะถูกเลือกโดยหุ่นยนต์ทั้งหมดโดย Google User-agent: Googlebot Disallow: /*utm_ # จะถูกเลือกโดยหุ่นยนต์ทั้งหมดโดยหุ่นยนต์ Yandex และผู้ใช้ Google -ตัวแทน: * อนุญาต: / *utm_

คำสั่งตัวแทนผู้ใช้สร้างคำสั่งสำหรับหุ่นยนต์เฉพาะ และทันทีหลังจากคำสั่ง User-agent คำสั่งและคำสั่งสามารถส่งโดยตรงไปยังหุ่นยนต์ที่เลือก

แอปพลิเคชันมักจะใช้คำสั่ง Disallow ซึ่งมีค่า /*utm_

โอ้ที่รัก ทุกอย่างถูกปิดแล้ว

robots.txt ที่กำหนดค่าอย่างถูกต้องจะป้องกันการมีการถ่ายโอนแถวว่างระหว่างคำสั่ง "User-agent", "Disallow" และคำสั่งที่บังคับใช้ "Disallow" ภายใน "User-agent" ปัจจุบัน

ตัวอย่างการแปลแถวที่ไม่ถูกต้องใน robots.txt: ตัวอย่างการแปลแถวที่ถูกต้องใน robots.txt:ตัวแทนผู้ใช้: Yandex ไม่อนุญาต: /*utm_ อนุญาต: /*id= ตัวแทนผู้ใช้: * ไม่อนุญาต: /*utm_ อนุญาต: /*id=

อย่างที่คุณเห็นจากก้น

ส่วนแทรกใน robots.txt จะถูกวางไว้ในบล็อก สกินที่ใช้วางคำจารึกสำหรับหุ่นยนต์เฉพาะหรือสำหรับหุ่นยนต์ทั้งหมด “*”นอกจากนี้ สิ่งสำคัญคือต้องแน่ใจว่าลำดับและการเรียงลำดับคำสั่งใน robots.txt ถูกต้องเมื่อใช้หลายคำสั่ง เช่น "Disallow" และ "Allow"

คำสั่ง "อนุญาต" เป็นส่วนแยกต่างหากของคำสั่ง ซึ่งคล้ายกับคำสั่ง "Disallow" ของ robots.txt ซึ่งเป็นคำสั่งในการปกป้อง

ก้น

นอนหลับ vikoristannya

คำสั่งใน robots.txt:

ตัวแทนผู้ใช้: * อนุญาต: /blog/page ไม่อนุญาต: /blog

วิธีการนี้จะป้องกันไม่ให้โรบอตทั้งหมดสร้างดัชนีหน้าเว็บทั้งหมดที่ขึ้นต้นด้วย “/blog” แต่อนุญาตให้สร้างดัชนีหน้าเว็บที่ขึ้นต้นด้วย “/blog/page” ก้นหน้า robots.txt อยู่ในประเภทที่ถูกต้อง: User-agent: * Disallow: /blog อนุญาต: /blog/pageเริ่มแรกทั้งส่วนจะถูกบล็อก จากนั้นจึงอนุญาตให้มีบางส่วนได้

อีกหนึ่ง

ก้นที่ถูกต้อง

robots.txt

จากคำสั่งเพิ่มเติม:

ตัวแทนผู้ใช้: * อนุญาต: / ไม่อนุญาต: /blog อนุญาต: /blog/page

เปลี่ยนกลับเป็นลำดับคำสั่งที่ถูกต้องใน robots.txtและคุณจะตีความคำสั่งอย่างไรก็เป็นทางเลือกของคุณ

ตัวเลือกทั้งสองจะถูกต้อง Golovne - อย่าหลงทาง.

สำหรับการสร้าง robots.txt ที่ถูกต้อง จำเป็นต้องระบุลำดับความสำคัญที่จะสงวนไว้เพื่อให้โรบ็อตดึงดูดในพารามิเตอร์ของคำสั่งอย่างถูกต้อง

เราจะมาดูรายละเอียดเกี่ยวกับคำสั่ง Disallow และ Allow โดยละเอียดยิ่งขึ้นอีกเล็กน้อย จากนั้นจึงดูไวยากรณ์ของ robots.txtการรู้ไวยากรณ์ของ robots.txt จะทำให้คุณใกล้ชิดยิ่งขึ้น สร้าง robots txt ที่สมบูรณ์แบบด้วยมือของคุณเองไวยากรณ์ robots.txt

โรบ็อตของระบบค้นหาลงนามคำสั่ง robots.txt โดยสมัครใจ — มาตรฐานสำหรับโรบ็อต แต่ไม่ใช่เครื่องมือค้นหาทั้งหมดที่จะตีความไวยากรณ์ของ robots.txt ในลักษณะเดียวกัน:

  1. ไฟล์ robots.txt มีไวยากรณ์ที่เขียนอย่างเคร่งครัด แต่ในขณะเดียวกัน เขียน robots txt;
  2. ไม่ใช่เรื่องยากเพราะโครงสร้างของมันเรียบง่ายและเข้าใจง่าย
  3. แกนคือรายการกฎง่ายๆ เฉพาะซึ่งคุณสามารถค้นหาและปิดได้
  4. ส่วนประกอบต่างๆ ของ robots.txt
  5. คำสั่งผิวเริ่มต้นด้วย
  6. แถวใหม่
  7. อย่าป้อนคำสั่งมากกว่าหนึ่งคำสั่งในหนึ่งแถว
  8. อย่าเจาะรูที่หูของแถว
  9. พารามิเตอร์คำสั่งถูกวางไว้ในแถวเดียว
  10. ไม่จำเป็นต้องกำหนดกรอบพารามิเตอร์และคำสั่งที่ส่วนเท้า
  11. พารามิเตอร์ของคำสั่งไม่ปรากฏว่าครอบคลุมจุดที่อยู่หลังอาการโคม่า
  12. คำสั่งใน robots.txt ถูกระบุในรูปแบบ - [Name_directive]:[required space][value][required space];
  13. อนุญาตให้แสดงความคิดเห็นใน robots.txt หลังเครื่องหมาย #;
  14. การถ่ายโอนแถวว่างสามารถตีความได้ว่าเป็นจุดสิ้นสุดของคำสั่ง User-agent
  15. คำสั่ง Disallow: (ที่มีค่าว่าง) เทียบเท่ากับ Allow: / - อนุญาตทุกอย่าง;
  16. คำสั่ง "อนุญาต", "ไม่อนุญาต" ไม่ต้องการพารามิเตอร์มากกว่าหนึ่งตัว
  17. ชื่อของไฟล์ robots.txt ไม่อนุญาตให้มีผู้เขียนที่ดี ชื่อของไฟล์คือ Robots.txt หรือ ROBOTS.TXT
  18. การเขียนชื่อของคำสั่งและพารามิเตอร์โดยนักเขียนผู้ยิ่งใหญ่นั้นได้รับความเคารพด้วยน้ำเสียงที่ไม่ดี และตามมาตรฐานของ robots.txt และไม่คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ มักจะไม่คำนึงถึงชื่อไฟล์และไดเร็กทอรี
  19. ไม่อนุญาตให้ใช้สัญลักษณ์ของตัวอักษรประจำชาติใน robots.txt

เครื่องมือค้นหาที่แตกต่างกันบางรายการอาจตีความไวยากรณ์ของ robots.txt แตกต่างออกไป และบางจุดสามารถละเว้นได้

ตัวอย่างเช่น หากคุณป้อนคำสั่ง "User-agent" จำนวนหนึ่งโดยไม่มีการแปลแถวว่าง Yandex จะยอมรับคำสั่ง "User-agent" ทั้งหมดอย่างถูกต้อง ตราบใดที่ Yandex เห็นบันทึกที่มีการมองเห็นในแถว "User-agent" . หุ่นยนต์อาจมีแต่สิ่งที่จำเป็นและไม่มีอะไรฟุ่มเฟือยอย่าคิดนะ วิธีเขียนทุกอย่างใน robots txtอะไรสามารถและฉันจะจำมันได้อย่างไร?

หุ่นยนต์ในอุดมคติ txt

- อันที่มีแถวน้อยกว่าแต่มีความหมายมากกว่า "Tiness เป็นน้องสาวของพรสวรรค์"ไวราซที่นี่อยู่ก่อนแม่น้ำเสียอีก วิธียืนยัน robots.txt

เพื่อ

- อันที่มีแถวน้อยกว่าแต่มีความหมายมากกว่า ตรวจสอบ robots.txtคุณสามารถตรวจสอบความถูกต้องของไวยากรณ์และโครงสร้างของไฟล์ได้อย่างรวดเร็วโดยใช้บริการออนไลน์อย่างใดอย่างหนึ่ง ตัวอย่างเช่น Yandex และ Google เสนอบริการที่มีประสิทธิภาพสำหรับผู้ดูแลเว็บ ซึ่งรวมถึงการวิเคราะห์ robots.txt: ตรวจสอบไฟล์ robots.txt จาก Yandex.Webmaster: http://webmaster.yandex.ru/robots.xmlตรวจสอบ robots.txt ออนไลน์

จำเป็น เพิ่ม robots.txt ลงในไซต์ไปยังไดเร็กทอรีราก

- มิฉะนั้นบริการสามารถบอกคุณได้อะไร

ฉันไม่สนใจที่จะเพิ่ม robots.txt - ขอแนะนำให้ตรวจสอบ robots.txt ก่อนว่าสามารถเข้าถึงได้จากที่อยู่ของไฟล์หรือไม่ เช่น your_site.ru/robots.txtนอกจากบริการยืนยันจาก Yandex และ Google แล้วยังไม่มีบริการอื่นทางออนไลน์อีกด้วย เครื่องมือตรวจสอบ robots.txt Robots.txt กับ Yandex และ Google

เป็นความคิดส่วนตัวที่การแทรกบล็อกคำสั่งที่อยู่ติดกัน User-agent: Yandex ใน robots.txt Yandex รับรู้ในเชิงบวกมากขึ้น บล็อกด้านล่างของคำสั่งด้วย User-agent: *

สถานการณ์นี้คล้ายคลึงกับ robots.txt และ Google

การแทรกคำสั่งเพิ่มเติมสำหรับ Yandex และ Google ช่วยให้สามารถจัดทำดัชนีไซต์ผ่าน robots.txtซึ่งไฟล์ robots.txt มักถูกใช้ในทางที่ผิด

Disallow บล็อกการจัดทำดัชนีของไซต์หรือส่วนใดส่วนหนึ่งของไซต์ ขึ้นอยู่กับเส้นทางที่ระบุในพารามิเตอร์ของคำสั่ง Disallow

วิธีที่ robots.txt ป้องกันการจัดทำดัชนีเว็บไซต์มีดังนี้

ตัวแทนผู้ใช้: * Disallow: /

ตัวอย่างนี้บล็อกทั้งไซต์จากโรบ็อตทั้งหมดจากการจัดทำดัชนี

พารามิเตอร์คำสั่ง Disallow อนุญาตให้ใช้อักขระพิเศษ * และ $:

* - ไม่ว่าจะมีสัญลักษณ์กี่ตัวก็ตาม พารามิเตอร์ /page* ก็ตอบสนอง /page, /page1, /page-be-cool, /page/kak-skazat เป็นต้น

อย่างไรก็ตาม ไม่จำเป็นต้องระบุ * พารามิเตอร์สกิน เนื่องจาก ตัวอย่างเช่น คำแนะนำจะถูกตีความแตกต่างออกไป:

ตัวแทนผู้ใช้: Yandex Disallow: /page ตัวแทนผู้ใช้: Yandex Disallow: /page*

$ - ระบุประเภทที่แน่นอนของค่าพารามิเตอร์การปิดเครื่อง: User-agent: Googlebot Disallow: /page$ใน

ถึงผู้ชายคนนี้ คำสั่ง Disallow ได้รับการป้องกันโดย /page แต่ไม่ได้รับการปกป้องโดยการจัดทำดัชนีของหน้า /page1, /page-be-cool หรือ /page/kak-skazatยักชโช ปิดการจัดทำดัชนีไซต์ robots.txtในระบบการค้นหาสามารถตอบสนองการเคลื่อนไหวดังกล่าวโดยมีคำเตือน “ถูกบล็อกโดยไฟล์ robots.txt” หรือ “url ถูกจำกัดโดย robots.txt” (URL ถูกบล็อกโดยไฟล์ robots.txt)

  • คุณต้องการอะไร
  • ป้องกันการจัดทำดัชนีของหน้า
  • คุณสามารถเร่งความเร็วได้ไม่เพียงแต่ robots txt เท่านั้น แต่ยังรวมถึงแท็ก html ที่คล้ายกันด้วย:
  • - อย่าจัดทำดัชนีแทนเพจ

- อย่าไปด้านข้างเพื่อรับข้อความ

- ห้ามจัดทำดัชนีแทนและติดตามข้อความในเพจ- เนื้อหาในทำนองเดียวกัน = "ไม่มี"

อนุญาตการจัดทำดัชนี: robots.txt อนุญาต

อนุญาต - คำสั่งที่อนุญาต

นี่คือระยะเวลาของคำสั่ง Disallowคำสั่งนี้มีไวยากรณ์คล้ายกับ Disallow

ตัวอย่างวิธีที่ robots.txt ป้องกันการจัดทำดัชนีของเว็บไซต์ นอกเหนือจากบางหน้า:

ตัวแทนผู้ใช้: * Disallow: /Allow: /page

ห้ามจัดทำดัชนีทั้งไซต์

นอกเหนือจากหน้าที่ขึ้นต้นด้วย /page

ไฟล์เพลง

ไม่อนุญาตและอนุญาตโดยมีค่าพารามิเตอร์ว่าง

คำสั่ง Disallow ว่างเปล่า:

ตัวแทนผู้ใช้: * ไม่อนุญาต:

วิธีที่ robots.txt ป้องกันการจัดทำดัชนีเว็บไซต์มีดังนี้

การไม่ปิดกั้นสิ่งใด ๆ หรืออนุญาตให้มีการจัดทำดัชนีของทั้งไซต์จะเทียบเท่ากับ:

คำสั่งอนุญาตให้ว่างเปล่า:ตัวแทนผู้ใช้: * อนุญาต: การไม่อนุญาตอะไรเลยหรือบล็อกการจัดทำดัชนีของเว็บไซต์โดยสมบูรณ์จะเทียบเท่ากับ:กระจกเงาหลักของไซต์: robots.txt Host

คำสั่งโฮสต์ใช้เพื่อแทรกหุ่นยนต์ Yandex ลงในกระจกส่วนหัวของไซต์ของคุณ

- จากระบบเสียงยอดนิยมทุกคำสั่ง

Mysite.ru www.mysite.ru

คุณสามารถใช้หุ่นยนต์ Yandex เป็นกระจกและหัวได้- คำสั่งโฮสต์ระบุไว้ในบล็อกของคำสั่ง "User-agent: Yandex" และในฐานะพารามิเตอร์ สิ่งสำคัญคือต้องระบุที่อยู่ไซต์โดยไม่มี "http://"

ตัวอย่าง robots.txt จากวัตถุประสงค์ของมิเรอร์ส่วนหัว:

ตัวแทนผู้ใช้: Yandex Disallow: /page Host: mysite.ru

เหมือนกระจกไฟปรากฏขึ้น ชื่อโดเมน mysite.ru โดยไม่มี www

ดังนั้นผลการค้นหาจะระบุที่อยู่ประเภทนี้

ตัวแทนผู้ใช้: Yandex Disallow: /page Host: www.mysite.ru

ในฐานะมิเรอร์พื้นฐาน ชื่อโดเมนคือ www.mysite.ruคำสั่งโฮสต์ในไฟล์ robots.txt

สามารถใช้ได้เพียงครั้งเดียว หากมีการระบุคำสั่ง Host มากกว่าหนึ่งครั้ง คำสั่งแรกจะใช้ได้ และคำสั่ง Host อื่นๆ จะถูกละเว้น คุณต้องการซื้อกระจกแบรนด์สำหรับหุ่นยนต์กูเกิล เร่งความเร็วบริการของกูเกิล

เครื่องมือสำหรับเว็บมาสเตอร์

แผนผังไซต์: แผนผังไซต์ robots.txt

ด้วยความช่วยเหลือของคำสั่งแผนผังไซต์ robots.txt คุณสามารถระบุการติดตั้งใช้งานบนไซต์ได้

ตัวอย่างของ robots.txt จากที่อยู่และการ์ดไซต์ที่กำหนด:

ตัวแทนผู้ใช้: * ไม่อนุญาต: /page แผนผังไซต์: http://www.mysite.ru/sitemap.xml เพิ่มที่อยู่และการ์ดไซต์ผ่านทางคำสั่งแผนผังไซต์ใน robots.txt

อนุญาตให้โรบ็อตการค้นหาพิจารณาว่าแผนที่นั้นสามารถมองเห็นได้บนเว็บไซต์หรือไม่ และพิมพ์เพื่อทำดัชนีหรือไม่

คำสั่ง Clean-param คำสั่ง Clean-param ช่วยให้คุณสามารถปิดการใช้งานเพจที่มีพารามิเตอร์ไดนามิกจากการจัดทำดัชนี.

อย่างไรก็ตาม หน้าเว็บที่คล้ายกันอาจมี URL ของหน้าเว็บที่แตกต่างกัน

พูดง่ายๆ ก็คือ ไซต์นี้มีให้บริการตามที่อยู่ที่แตกต่างกัน

งานของเราคือการรวบรวมที่อยู่แบบไดนามิกทั้งหมดของคุณ ซึ่งอาจมีอยู่นับล้าน

ซึ่งปิดพารามิเตอร์ไดนามิกทั้งหมด

vikorista ในคำสั่ง robots.txt Clean-param

ไวยากรณ์ของคำสั่ง Clean-param คือ:

ทำความสะอาดพารามิเตอร์: parm1[&parm2&parm3&parm4&..&parmn] [ทาง]

ลองดูที่หน้าที่มี URL ต่อไปนี้:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

ก้น robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # สำหรับ page.html เท่านั้น

ในเวลานี้ เรา "ขอให้" หุ่นยนต์ยานเดกซ์บุกหน้าเว็บไซต์ของเราไม่เกินหนึ่งครั้งเป็นเวลาสามวินาที ระบบเสียงบางระบบรองรับรูปแบบเศษส่วนเป็นพารามิเตอร์.

คำสั่ง robots.txt แบบหน่วงเวลาการรวบรวมข้อมูล

บทความนี้มีตัวอย่างโค้ดที่เหมาะสมที่สุดในความคิดของฉันสำหรับไฟล์ robots.txt ภายใต้ WordPress ซึ่งคุณสามารถแก้ไขได้บนเว็บไซต์ของคุณ สำหรับผู้เริ่มต้น เดาอะไร?แค่ต้องการ robots.txt

- ไฟล์ robots.txt เป็นสิ่งจำเป็นโดยเฉพาะสำหรับโรบ็อตการค้นหา เพื่อ "บอก" ว่าไซต์ควรรวมส่วน/หน้าที่ใด และส่วนใดไม่ควรรวมไว้

หน้าที่ปิดจากร้านจะไม่ถูกประมวลผลไปยังดัชนีเครื่องมือค้นหา (Yandex, Google ฯลฯ )

ตัวเลือกที่ 1: โค้ด robots.txt ที่ดีที่สุดสำหรับ WordPress

    ตัวแทนผู้ใช้: * Disallow: /cgi-bin # classic... Disallow: /?

    # พารามิเตอร์ทั้งหมดจะถูกบันทึกลงในพารามิเตอร์หลัก Disallow: /wp- # ไฟล์ WP ทั้งหมด: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Disallow: /search # search Disallow: /author/ # archives of authors Disallow: *?attachment_id= # ด้านไฟล์แนบ นี่คือการเปลี่ยนเส้นทาง... */ - สำหรับลำดับความสำคัญ) อนุญาต: /*/*.css # ตรงกลาง /wp- (/*/ - สำหรับลำดับความสำคัญ) อนุญาต: /wp-*.png # รูปภาพในปลั๊กอิน, แคช พ่อ ฯลฯอนุญาต: /wp-*.jpg # ภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.jpeg # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯอนุญาต: /wp-*.gif # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.svg # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯเราอาจมีรูปภาพวางอยู่รอบๆ ซึ่งอาจมีการจัดทำดัชนี และอาจมีไฟล์ที่ไม่พึงประสงค์บางไฟล์วางอยู่ที่นั่นซึ่งไม่มีอะไรจะหยิบได้

    อนุญาต: สามารถเป็น "ก่อน" หรือ "หลัง" Disallow: .

    • แถวอื่นๆ ปิดกั้นหุ่นยนต์ไม่ให้ “เดิน” เพื่อรับคำสั่ง ซึ่งขึ้นต้นด้วย:
    • Disallow: /cgi-bin – ปิดไดเร็กทอรีสคริปต์บนเซิร์ฟเวอร์
    • Disallow: /feed - ปิดฟีด RSS ของบล็อก
    • Disallow: /trackback - ปิดการแจ้งเตือน
    • Disallow: ?s= หรือ Disallow: *?s= - ปิดหน้าการค้นหา
  1. Disallow: */page/ - ปิดการแบ่งหน้าทุกประเภท

    กฎแผนผังไซต์: http://example.com/sitemap.xml สั่งให้โรบอตไปยังไฟล์ที่มีแผนผังไซต์ในรูปแบบ XML

    หากคุณมีไฟล์ดังกล่าวบนไซต์ของคุณ ให้เขียนเส้นทางใหม่ไปยังไฟล์ใหม่

ไฟล์ดังกล่าวสามารถรวบรวมได้จากนั้นก็ไปที่ผิวหนังอย่างเห็นได้ชัด

ในแถวโฮสต์: site.ru เรามีกระจกเงาที่สำคัญของไซต์ หากไซต์มีมิเรอร์ (สำเนาของไซต์ในโดเมนอื่น) ดังนั้นเพื่อให้ยานเดกซ์จัดทำดัชนีอีกครั้งจำเป็นต้องระบุมิเรอร์ส่วนหัวคำสั่งโฮสต์: ยานเดกซ์ไม่เข้าใจ Google ไม่เข้าใจ!

หากไซต์ทำงานภายใต้โปรโตคอล https จะต้องระบุไว้ในโฮสต์: โฮสต์: http://example.com

จากเอกสาร Yandex: “โฮสต์เป็นคำสั่งอิสระและดำเนินการในตำแหน่งใดก็ได้ในไฟล์ (หน้าตัด)”

ดังนั้นเราจึงวางไว้ด้านบนหรือท้ายไฟล์ผ่านแถวว่าง

เนื่องจากจำเป็นต้องมีการมองเห็นฟีดที่ซ่อนอยู่ ตัวอย่างเช่น สำหรับ Yandex Zen หากคุณต้องการเชื่อมต่อไซต์กับช่อง (ขอบคุณผู้วิจารณ์ "ดิจิทัล")

เป็นไปได้ว่าคุณอาจเปิดฟีดที่จำเป็นที่นี่อีกครั้ง

ในขณะเดียวกัน ฟีดก็มีรูปแบบของตัวเองในพาดหัวข่าวของวิดีโอ ดังนั้นระบบเสียงใดๆ จึงเข้าใจว่าไม่เป็นเช่นนั้น

ฝั่ง HTML

และเฟดและเห็นได้ชัดว่าปฏิบัติต่อมันแตกต่างออกไป

ตัวเลือกที่ 2: robots.txt มาตรฐานสำหรับ WordPress

ฉันไม่รู้ว่าเป็นใคร แต่ฉันคือตัวเลือกแรก!

ดังนั้นจึงสมเหตุสมผลมากกว่า - ฉันไม่จำเป็นต้องทำซ้ำส่วนนี้เพื่อระบุคำสั่ง Host สำหรับ Yandex ซึ่งเป็นแบบหน้าตัด (แน่นอนว่าเป็นหุ่นยนต์ในเทมเพลตสถานที่ใด ๆ โดยไม่ระบุหุ่นยนต์ใด ๆ )

    เนื่องจากมีคำสั่ง Allow ที่ไม่เป็นไปตามมาตรฐาน จึงใช้ได้กับ Yandex และ Google และหากไม่เปิดโฟลเดอร์อัพโหลดสำหรับโรบ็อตอื่นๆ ที่พวกเขาไม่เข้าใจ ดังนั้นใน 99% ของกรณีจะไม่มีอะไรเลวร้ายเกิดขึ้น

  1. ฉันยังไม่ได้สังเกตว่าหุ่นยนต์ตัวแรกไม่ทำงานตามที่ต้องการ

รหัสคำแนะนำส่วนใหญ่ไม่ถูกต้อง

ขอขอบคุณผู้วิจารณ์ที่ชี้ให้เห็นถึงความไม่ถูกต้อง แม้ว่าฉันจะต้องคิดออกว่ามันคืออะไรสำหรับตัวเอง

ฉันรู้สึกตื่นเต้นมากเกี่ยวกับเรื่องนี้ (ฉันเมตตา):

โรบ็อต (ไม่ใช่ Yandex และ Google) - ไม่เข้าใจคำสั่งมากกว่า 2 คำสั่ง: User-agent: และ Disallow:

Yandex Host Directive: คุณต้องปฏิบัติตามกฎหลังจาก Disallow: เนื่องจากโรบ็อต (ไม่ใช่ Yandex และ Google) อาจไม่เข้าใจกฎเหล่านั้นและอาจปฏิเสธ robots.txt สำหรับยานเดกซ์เองเมื่อพิจารณาจากเอกสารแล้วการ vikorize Host ก็เป็นสิ่งเดียวกัน: แม้ว่าคุณต้องการสร้าง robots.txt ในโฮสต์แถวเดียว: www.site.ru เพื่อกาวมิเรอร์ทั้งหมดของไซต์เข้าด้วยกัน . 3. แผนผังไซต์: คำสั่งแบบตัดขวางสำหรับ Yandex และ Google และบางทีสำหรับโรบ็อตอื่น ๆ ด้วยเช่นกัน ดังนั้นเราจึงเขียนต่อท้ายผ่านแถวว่างและใช้ได้กับโรบ็อตทุกตัวในคราวเดียว จากการแก้ไขเหล่านี้ รหัสที่ถูกต้องอาจมีลักษณะดังนี้:ตัวแทนผู้ใช้: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin ไม่อนุญาต: *?s= อนุญาต: /wp-admin/admin-ajax.php แผนผังไซต์: http://example.com/sitemap.xml มาเพิ่มให้กับตัวเราเองหากคุณต้องการปกป้องเพจหรือกลุ่มของเพจ คุณสามารถเพิ่มกฎ (คำสั่ง) ด้านล่าง

ไม่อนุญาต:

- ตัวอย่างเช่น เราจำเป็นต้องปิดรายการทั้งหมดในหมวดหมู่จากการจัดทำดัชนี

  • ข่าว
  • แล้วก่อนหน้านี้

หากคุณต้องการปิดทางเข้า /news เราจะเขียนว่า:

ไม่อนุญาต: */news

  • ข่าว
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

คุณยังสามารถอ่านคำสั่ง robots.txt ได้ในหน้าช่วยเหลือของ Yandex (แต่โปรดทราบว่ากฎบางข้อที่อธิบายไว้นั้นอาจไม่มีผลกับ Google)

การยืนยัน robots.txt และเอกสารประกอบ

คุณสามารถตรวจสอบและปฏิบัติตามกฎด้านล่าง:

  • ยานเดกซ์: http://webmaster.yandex.ru/robots.xml
  • Google มีราคาที่ต้องจ่าย คอนโซลการค้นหา- จำเป็นต้องได้รับอนุญาตและการมองเห็นไซต์ในแผงของผู้ดูแลเว็บ
  • บริการสำหรับสร้างไฟล์ robots.txt: http://pr-cy.ru/robots/
  • บริการสำหรับการสร้างและการตรวจสอบ robots.txt: https://seolib.ru/tools/generate/robots/

การรวบรวมข้อมูลล่าช้า - หมดเวลาสำหรับหุ่นยนต์ของพระเจ้า (ตั้งแต่ปี 2018 ไม่ครอบคลุมถึงชะตากรรม)

ยานเดกซ์

หลังจากวิเคราะห์รายการในช่วงสองปีที่ผ่านมาเพื่อสนับสนุนการจัดทำดัชนี เราพบว่าสาเหตุหลักประการหนึ่งที่ทำให้ความต้องการเอกสารเพิ่มขึ้นคือคำสั่งการหน่วงเวลาการรวบรวมข้อมูลที่กำหนดค่าไม่ถูกต้องใน robots.txt […] เพื่อให้เจ้าของไซต์ไม่ มีการพูดคุยกันมากขึ้น เพื่อให้แน่ใจว่าหน้าที่จำเป็นทั้งหมดของไซต์ปรากฏขึ้นและได้รับการอัปเดตเพื่อค้นหาความเร็ว เราจึงมีแนวโน้มที่จะปรากฏในรูปแบบของคำสั่ง Crawl-delay

เมื่อหุ่นยนต์ยานเดกซ์สแกนไซต์ราวกับว่าเป็นสวรรค์ มันจะสร้างการโจมตีที่เหนือธรรมชาติบนเซิร์ฟเวอร์

คุณสามารถขอให้หุ่นยนต์ “เปลี่ยนกระดาษห่อ”

สำหรับสิ่งนี้ คุณต้องใช้คำสั่ง Crawl-delay

ระบุชั่วโมงและวินาทีที่หุ่นยนต์ต้องยืน (ตรวจสอบ) เพื่อสแกนสกินของไซต์

หากต้องการจัดการกับโรบ็อตที่ไม่ปฏิบัติตามมาตรฐาน robots.txt ต้องระบุการรวบรวมข้อมูล-ความล่าช้าในกลุ่ม (ในส่วน User-Agent) ทันทีหลังจาก Disallow และ Allow

หุ่นยนต์ Yandex เข้าใจค่าการยิง เช่น 0.5 (ps วินาที)

สิ่งนี้ไม่ได้รับประกันว่าโรบ็อตการค้นหาจะเข้าถึงไซต์ของคุณภายในไม่กี่วินาที แต่ช่วยให้คุณเร่งความเร็วในการรวบรวมข้อมูลไซต์ได้

ตัวแทนผู้ใช้: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1.5 # หมดเวลาใน 1.5 วินาที User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* .gif การรวบรวมข้อมูลล่าช้า: 2 # หมดเวลา 2 วินาที

Google

Googlebot ไม่เข้าใจคำสั่ง Crawl-delay

คุณสามารถระบุการหมดเวลาสำหรับโรบ็อตได้ในแผงควบคุมของผู้ดูแลเว็บ
ฉันกำลังเขียนบทความเกี่ยวกับ robots.txt ในบล็อกของฉัน

ฉันต้องการชี้ให้เห็นคำตอบของข้อความนี้ (ฉันไม่ทราบคำว่า "เช่นนั้น" ที่แน่ชัดจากเอกสารประกอบ):

ฉันจำเป็นต้องรวมมิเรอร์ทั้งหมด และเพื่อจุดประสงค์นี้ ฉันจำเป็นต้องเพิ่มคำสั่ง Host ให้กับไฟล์ robots.txt:

โฮสต์: site.ru ตัวแทนผู้ใช้: * Disallow: /asd

คุณจะใช้ Host: site.ru อย่างถูกต้องอย่างไร?

Chi vkazuvatime ชนะ robots scho site.ru นั้นเป็นกระจกเงา

โตโต้

คำสั่งนี้ไม่ได้อยู่ในส่วน แต่แนบมา (ที่จุดเริ่มต้นของไฟล์) โดยไม่ต้องกำหนด User-agent ใด ๆ

นอกจากนี้ เราต้องการทราบว่าต้องเพิ่มคำสั่ง Sitemap ไว้ตรงกลางของส่วน หรือสามารถเพิ่มระหว่างขอบเขตได้ เช่น ผ่านแถวว่าง หลังส่วน

ตัวแทนผู้ใช้: Yandex ไม่อนุญาต: /asd ตัวแทนผู้ใช้: * ไม่อนุญาต: /asd แผนผังไซต์: http://example.com/sitemap.xml

โรบ็อตเข้าใจคำสั่งแผนผังไซต์หรือไม่

--
ฉันตั้งใจแน่วแน่ที่จะปฏิเสธหลักฐานของคุณ ซึ่งอาจทำให้ฉันสงสัยได้อย่างชัดเจน
เรื่อง:

ขอให้เป็นวันที่ดี!

คำสั่งโฮสต์และแผนผังไซต์เป็นแบบภาคตัดขวาง ดังนั้นโรบ็อตจะใช้คำสั่งเหล่านี้โดยไม่คำนึงถึงตำแหน่งในไฟล์ robots.txt ที่มีการระบุไว้

ด้วยความเคารพ Platon Shchukin

บริการสนับสนุนยานเดกซ์ วิสโนวอคสิ่งสำคัญคือต้องจำไว้ว่าการเปลี่ยนแปลงใน robots.txt จะปรากฏบนเว็บไซต์ที่ทำงานของคุณเท่านั้นหลังจากผ่านไป 2-3 เดือน (2-3 เดือน)

เป็นที่ชัดเจนว่า Google อาจเพิกเฉยกฎใน robots.txt และนำไซต์ดังกล่าวเข้าสู่ดัชนี เนื่องจากเป็นสิ่งสำคัญที่ไซต์จะต้องไม่ซ้ำใครและมีคุณค่า และเพียงเพราะต้องอยู่ในดัชนี

อย่างไรก็ตาม คนอื่นๆ มีความอ่อนไหวต่อสมมติฐานง่ายๆ ที่ว่าเครื่องมือเพิ่มประสิทธิภาพที่ไม่สมบูรณ์อาจระบุกฎใน robots.txt อย่างไม่ถูกต้อง จึงปิดหน้าการจัดทำดัชนีที่จำเป็นและกีดกันหน้าการจัดทำดัชนีที่ไม่จำเป็น ฉันมีแนวโน้มที่จะอายมากขึ้นจากความอับอายอื่นในบริการ avi1.ru คุณสามารถเพิ่มการรองรับ SMM ให้กับ 7 รายการยอดนิยมได้ทันที มาตรการทางสังคม- ในกรณีนี้ เพื่อเพิ่มความเคารพต่อบริการระดับต่ำบนไซต์

สวัสดีตอนบ่ายผู้อ่านบล็อก "World of Webmaster" ที่รัก!

ไฟล์

robots.txt

- มากกว่านั้น

ไฟล์ด้วยความเคารพ – นี่คือไฟล์ที่แสดงเครื่องมือค้นหาว่าหน้าและเอกสารใดบนเว็บไซต์ที่สามารถเพิ่มลงในดัชนีได้ และสิ่งใดที่ไม่สามารถเพิ่มได้จำเป็นต้องใช้เครื่องมือค้นหาเพื่อสร้างดัชนีเว็บไซต์ทั้งหมด แต่ไม่ถูกต้องเสมอไป ตัวอย่างเช่น หากคุณสร้างเว็บไซต์โดยใช้เอ็นจิ้น (WordPress, Joomla ฯลฯ) คุณจะมีโฟลเดอร์ที่จัดระเบียบงานแผงการบริหาร

- เป็นที่ชัดเจนว่าข้อมูลในโฟลเดอร์เหล่านี้ไม่สามารถจัดทำดัชนีได้ ในกรณีนี้ ไฟล์ robots.txt จะถูกสร้างขึ้น ซึ่งจำกัดการเข้าถึงของเครื่องมือค้นหา

นอกจากนี้ ไฟล์ robots.txt ยังระบุที่อยู่ของการ์ดไซต์ (ซึ่งจะได้รับการปรับปรุงโดยการจัดทำดัชนีด้วยเครื่องมือค้นหา) รวมถึงโดเมนหลักของไซต์ (กระจกส่วนหัว)กระจกเงา

- นี่คือสำเนาที่สมบูรณ์ของเว็บไซต์ กล่าวคือ

หากมีไซต์หนึ่ง ดูเหมือนว่าหนึ่งในนั้นเป็นโดเมนหลัก และอีกไซต์หนึ่งเป็นมิเรอร์

ดังนั้นไฟล์จึงมีฟังก์ชั่นมากมายและที่สำคัญด้วย!

ไวยากรณ์สำหรับไฟล์ robots.txt

File Robots มีกลุ่มของกฎที่บอกสิ่งนี้หรือระบบค้นหาว่าอะไรสามารถจัดทำดัชนีได้และสิ่งใดบ้างที่ไม่สามารถทำได้สามารถมีกฎได้เพียงบล็อกเดียว (สำหรับระบบเสียงทั้งหมด) หรืออาจมีได้หลายกฎสำหรับระบบเสียงเฉพาะใดๆสกินบล็อกเริ่มต้นด้วยตัวดำเนินการ "User-Agent" ซึ่งระบุประเภทของระบบการค้นหาที่ใช้กฎ
ผู้ใช้-

File Robots มีกลุ่มของกฎที่บอกสิ่งนี้หรือระบบค้นหาว่าอะไรสามารถจัดทำดัชนีได้และสิ่งใดบ้างที่ไม่สามารถทำได้สามารถมีกฎได้เพียงบล็อกเดียว (สำหรับระบบเสียงทั้งหมด) หรืออาจมีได้หลายกฎสำหรับระบบเสียงเฉพาะใดๆตัวแทน:

(กฎสำหรับหุ่นยนต์ "A")

บี

(กฎสำหรับหุ่นยนต์ "B")

แอปพลิเคชันแสดงให้เห็นว่าตัวดำเนินการ User-Agent รับพารามิเตอร์ - ชื่อของโรบ็อตเครื่องมือค้นหาจนกว่าจะมีการตั้งค่ากฎ

ฉันจะร่างโครงร่างหลักด้านล่าง:

หลังจาก User-Agent จะมีโอเปอเรเตอร์อื่นๆ

คำอธิบายแกน:

ไวยากรณ์เดียวกันนี้ใช้ได้กับตัวดำเนินการทั้งหมด

โตโต้

ตัวดำเนินการจะต้องเขียนดังนี้:
ตัวดำเนินการ 1: พารามิเตอร์ 1
ตัวดำเนินการ 2: พารามิเตอร์ 2
ในลักษณะนี้ ขั้นแรกเราเขียนชื่อของตัวดำเนินการ (ไม่ว่าจะเป็นตัวอักษรขนาดใหญ่หรือเล็ก) จากนั้นเราใส่กล่องคู่และระบุพารามิเตอร์ของตัวดำเนินการนี้ผ่านช่องว่าง

จากนั้นจากตัวดำเนินการแถวใหม่ สองตัวกำลังอธิบายตัวเอง
สำคัญ! แถวว่างหมายความว่าบล็อกกฎสำหรับเรื่องตลกนี้เสร็จสมบูรณ์แล้ว ดังนั้นอย่าเพิ่มตัวดำเนินการในแถวว่าง
ไฟล์ก้น robots.txt
มาดูตัวอย่างง่ายๆ ของไฟล์ robots.txt เพื่อทำความเข้าใจลักษณะเฉพาะของไวยากรณ์ให้ดียิ่งขึ้น:
ตัวแทนผู้ใช้: Yandex

อนุญาต: /folder1/

ไม่อนุญาต: /file1.html

ไฟล์ประกอบด้วยสามบล็อก: อันแรกสำหรับ Yandex ส่วนอีกอันสำหรับเครื่องมือค้นหาทั้งหมดและอันที่สามมีที่อยู่การ์ดเว็บไซต์ (สร้างขึ้นโดยอัตโนมัติสำหรับเครื่องมือค้นหาทั้งหมดดังนั้นคุณไม่จำเป็นต้องระบุ "ผู้ใช้" -ตัวแทน").

ยานเดกซ์ได้รับอนุญาตให้จัดทำดัชนีโฟลเดอร์โฟลเดอร์ 1 และทั้งหมดเข้าด้วยกัน แต่พวกเขาบล็อกการสร้างดัชนีของเอกสาร file1.html ซึ่งอยู่ในไดเร็กทอรีรากบนโฮสติ้ง

เรายังกำหนดโดเมนหลักให้กับเว็บไซต์ Yandex ด้วย

อีกบล็อกหนึ่งสำหรับระบบเสียงทั้งหมด

ที่นั่นเราบล็อกเอกสาร "document.php" รวมถึงโฟลเดอร์ "folderxxx", "folderyyy/folderzzz" และ "feed"

โปรดจำไว้ว่าเราบล็อกคำสั่งอื่นในดัชนีไม่ใช่โฟลเดอร์ทั้งหมด โฟลเดอร์yyy แต่เฉพาะโฟลเดอร์ที่อยู่ตรงกลางของโฟลเดอร์นี้ - folderzzz

โตโต้

เราระบุวิธีใหม่สำหรับ "folderzzz"

ดังนั้นก่อนอื่นคุณต้องทำงานเพื่อปกป้องเอกสารซึ่งไม่ได้อยู่ในไดเรกทอรีรากของไซต์ แต่อยู่ตรงกลางของโฟลเดอร์อื่น

การสร้างจะใช้เวลาน้อยกว่าสองชั่วโมง:

สามารถตรวจสอบความถูกต้องของการสร้างไฟล์โรบอตได้ในแผงผู้ดูแลเว็บ Yandex หากไฟล์แสดงข้อผิดพลาด ดัชนีจะแสดงขึ้นมาการสร้างไฟล์ robots.txt สำหรับไซต์ของคุณเป็นเรื่องง่าย เนื่องจากคุณยังไม่มีไฟล์

สิ่งนี้จะช่วยให้เว็บไซต์ของคุณพัฒนาโดยใช้เครื่องมือค้นหา

  • คุณยังสามารถอ่านบทความอื่นๆ ของเราเกี่ยวกับวิธีการเมตาแท็ก i.htaccess
  • ) เราสามารถไปยังส่วนที่ใช้งานได้จริงหรือแม่นยำยิ่งขึ้นไปที่การเตรียมสถานที่ก่อนส่งมอบ
  • วันนี้เราจะมาดูวิธีการสร้าง robots.txt?
  • robots.txt เป็นไฟล์ที่มีพารามิเตอร์การจัดทำดัชนีสำหรับเครื่องมือค้นหา

เนื่องจากการมีอยู่ของกระจกเหล่านี้ ทำให้ไซต์นี้มีเอกลักษณ์เฉพาะตัว

แน่นอนว่า PS ไม่ชอบเนื้อหาที่ไม่ซ้ำใคร ไม่อนุญาตให้ไซต์ดังกล่าวได้รับความนิยมในการค้นหาเพิ่มขึ้น

จะบันทึกไฟล์ robots.txt ได้อย่างไร?

  • ไฟล์ใดๆ ที่ใช้ก่อนทำงานกับบริการภายนอกต่างๆ รวมถึงระบบเสียง จะต้องอยู่ภายใต้กฎการเติม (ไวยากรณ์) ต่อไปนี้ ฉันมีแนวโน้มที่จะอายมากขึ้นจากความอับอายอื่น;
  • แกนกฎสำหรับหุ่นยนต์:

ชื่อของไฟล์ robots.txt สามารถขึ้นต้นด้วยตัวอักษรตัวเล็กได้

ไม่ควรเรียกว่า Robots.txt หรือ ROBOTS.TXT

  1. ขวา:รูปแบบข้อความ "Unix" รูปแบบนี้เหนือกว่าแผ่นจดบันทึกของ Windows ดังนั้นการสร้าง robots.txt จึงเป็นเรื่องง่าย;
  2. ผู้ประกอบการหุ่นยนต์และตอนนี้เรามาพูดถึงผู้ควบคุมหุ่นยนต์กันดีกว่า ในความคิดของฉันมีเกือบ 6 รายการ แต่มีเพียง 4 รายการที่จำเป็น:;
  3. ผู้ใช้ตัวแทน- โอเปอเรเตอร์นี้ใช้เพื่อกำหนดระบบการค้นหาที่จะกล่าวถึงกฎการทำดัชนี ด้วยความช่วยเหลือนี้ คุณสามารถระบุกฎที่แตกต่างกันสำหรับ PS ที่แตกต่างกันได้;
  4. ก้นหุ้น: ตัวแทนผู้ใช้: Yandexไม่อนุญาต - ตัวดำเนินการที่ป้องกันการจัดทำดัชนีของโฟลเดอร์ เพจ หรือไฟล์นี้;

ก้นหุ้น: Disallow: /page.html

ขวา:

เจ้าภาพ

- ตัวดำเนินการ CIM กำหนดที่อยู่หลัก (โดเมน) ให้กับไซต์ ก้นหุ้น: โฮสต์: เว็บไซต์
ยานเดกซ์ แผนผังเว็บไซต์
หุ่นยนต์ Yandex เข้าใจค่าการยิง เช่น 0.5 (ps วินาที) หุ่นยนต์ Yandex เข้าใจค่าการยิง เช่น 0.5 (ps วินาที)
- ระบุตามที่อยู่ของแผนที่บนเว็บไซต์ - ระบุตามที่อยู่ของแผนที่บนเว็บไซต์
พื้นที่เก็บข้อมูล: แผนผังไซต์: site/sitemap.xml ด้วยวิธีนี้ ฉันบล็อก Yandex ไม่ให้สร้างดัชนีหน้าเพจ ตอนนี้เครื่องมือค้นหา Yandex จะไม่อยู่ในดัชนีเลย

หากมีการระบุ ระบบการค้นหาจะถูกระบุใน User-agent และกฎการจัดทำดัชนีจะถูกกำหนด

แกนเป็นแผ่นเล็ก:

ระบบโปชูโควา

ผู้ประกอบการหุ่นยนต์

พารามิเตอร์ตัวแทนผู้ใช้

ยานเดกซ์ Mail.ru เดินเตร่
สแต็คแรมเบลอร์ / หากคุณต้องการตั้งค่ากฎการทำดัชนีสำหรับระบบย่อยทั้งหมด คุณต้องสร้างรายการต่อไปนี้:
ตัวแทนผู้ใช้: * เพื่อ vikoristuvat เป็นพารามิเตอร์ของดาวหลัก ผู้ดำเนินการรายนี้ยากกว่าเล็กน้อย ดังนั้นเขาจึงต้องระมัดระวังเรื่องเงินฝากของเขา
ลงทะเบียนหลังจากตัวดำเนินการ User-agent ความเมตตาใดๆ อาจนำไปสู่ผลลัพธ์ที่เลวร้ายยิ่งกว่านั้นอีก ได้รับการคุ้มครองอะไรบ้าง?
พารามิเตอร์ ก้น การจัดทำดัชนีของเว็บไซต์
ไม่อนุญาต: / ไฟล์ที่ตัวเร่งปฏิกิริยารูท /ชื่อไฟล์
ไม่อนุญาต: /page.html ไฟล์ตามที่อยู่เพลง /path/ชื่อของไฟล์
ไม่อนุญาต: /dir/page.html การจัดทำดัชนีโฟลเดอร์ /ชื่อโฟลเดอร์/

ฉันจะพูดอีกครั้ง: ให้ความเคารพอย่างมากเมื่อทำงานกับผู้ดำเนินการรายนี้

เป็นเรื่องปกติที่ผู้คนมักจะหลีกเลี่ยงการจัดทำดัชนีไซต์ของตน แล้วสงสัยว่าพวกเขาไม่สนใจอะไร

ไม่มีเหตุผลที่จะพูดเกี่ยวกับการตัดสินใจของผู้ปฏิบัติงาน

สิ่งที่เขียนไว้ข้างต้นก็เพียงพอแล้ว

คุณต้องการที่จะฉ้อโกงไฟล์ robots.txt จริง ๆ หรือไม่?

จับ:

ตัวแทนผู้ใช้: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /tag โฮสต์: site.ru แผนผังเว็บไซต์:site.ru/sitemap.xml
ก่อนที่จะพูด ตัวอย่างนี้สามารถใช้เป็นไฟล์อ้างอิง robots.txt โดยผู้ที่มีเว็บไซต์ที่ทำงานบน WordPress

อย่างไรก็ตาม คนอื่นๆ มีความอ่อนไหวต่อสมมติฐานง่ายๆ ที่ว่าเครื่องมือเพิ่มประสิทธิภาพที่ไม่สมบูรณ์อาจระบุกฎใน robots.txt อย่างไม่ถูกต้อง จึงปิดหน้าการจัดทำดัชนีที่จำเป็นและกีดกันหน้าการจัดทำดัชนีที่ไม่จำเป็น ฉันมีแนวโน้มที่จะอายมากขึ้นจากความอับอายอื่นผู้ที่มีไซต์ดั้งเดิมเขียนเองฮ่าฮ่าฮ่า น่าเสียดายที่ไม่มีสิ่งใดสำหรับทุกคน เพราะผิวมีความเป็นของตัวเองการสร้าง robots.txt ด้วยข้อมูลที่เราได้ให้ไว้นี้ไม่ใช่เรื่องสำคัญ

ลาก่อนเพื่อน! ฉันมีแนวโน้มที่จะอายมากขึ้นจากความอับอายอื่นรูปปั้นด้านหน้า

เอาล่ะสตั๊ด.

- นี่คือไฟล์หลักที่มีนามสกุล .txt ซึ่งสามารถสร้างได้โดยใช้แผ่นจดบันทึก Windows พื้นฐาน

ไฟล์นี้

ให้คำแนะนำในการจัดทำดัชนีสำหรับโรบ็อตการค้นหา

วางไฟล์ไดเร็กทอรีรากนี้ไว้บนโฮสติ้ง

เมื่อเข้าสู่ไซต์ โรบ็อตการค้นหาจะเปิดไฟล์ robots.txt ก่อนเพื่อดึงคำแนะนำก่อนดำเนินการต่อไป และค้นหาว่าไฟล์และไดเร็กทอรีใดได้รับการป้องกันก่อนที่จะสร้างดัชนี

ไฟล์

มีลักษณะแนะนำสำหรับระบบเสียง

4. อย่าบล็อกโรบ็อตการค้นหาเพียงตัวเดียว (เช่น Googlebot) ก่อนที่จะสร้างดัชนี และบล็อกโรบ็อตการค้นหาอื่นๆ ทั้งหมดก่อนที่จะสร้างดัชนี:

ตัวแทนผู้ใช้: googlebot ไม่อนุญาต:
ตัวแทนผู้ใช้: * Disallow: /admin/ Disallow: /wp-content/ Disallow: /images/
ตัวแทนผู้ใช้: * Disallow: /News/webnews.html Disallow: /content/page.php
ตัวแทนผู้ใช้: * Disallow: /page.php Disallow: /links.htm Disallow: /secret.html

กฎพื้นฐานสำหรับการเขียน robots.txt

เมื่อเขียนไฟล์ robots.txt มักมีการเปลี่ยนแปลง

เพื่อให้มีเอกลักษณ์เฉพาะตัว เรามาดูกฎพื้นฐานกัน:
1. คุณต้องเขียนแทนไฟล์จากอักษรตัวใหญ่
2. ในคำสั่ง Disallow คุณต้องระบุอย่างน้อยหนึ่งไดเร็กทอรีหรือหนึ่งไฟล์
3. แถว “User-agent” ไม่มีความผิดในการเว้นว่างไว้
หากคำแนะนำใช้กับหุ่นยนต์เสียงทั้งหมด ก็จำเป็นต้องระบุดาว และหากใช้กับหุ่นยนต์เสียงเฉพาะ ให้ระบุชื่อของมัน
4. ไม่สามารถแลกเปลี่ยนคำสั่ง Disallow และ User-agent ได้
5. สำหรับคำสั่ง Host ซึ่งใช้สำหรับ Yandex ที่อยู่ของเว็บไซต์ของเราจะต้องระบุโดยไม่มีโปรโตคอล HTTP และไม่มีเครื่องหมายทับต่อท้าย 6. เมื่อเลือกไดเร็กทอรีก่อนสร้างดัชนี จำเป็นต้องใส่เครื่องหมายทับด้วย 7. ตรวจสอบไฟล์ robots.txt ก่อนที่จะอัปโหลดไปยังเซิร์ฟเวอร์