โกลอฟนามาตรการทางสังคมและจดหมาย ไฟล์ robots.txt— ไฟล์ข้อความในรูปแบบ .txt ซึ่งอนุญาตให้โรบ็อตการค้นหาเข้าถึงเซิร์ฟเวอร์ http จามรี vyzanennya, Robots.txt - เชมาตรฐานสำหรับหุ่นยนต์ ซึ่งได้รับการรับรองโดยสมาคม W3C เมื่อวันที่ 30 มิถุนายน พ.ศ. 2537 และได้รับการยอมรับโดยสมัครใจจากคนส่วนใหญ่ระบบเสียง
- ไฟล์ robots.txt ประกอบด้วยชุดคำสั่งสำหรับโรบ็อตการค้นหาที่ป้องกันการจัดทำดัชนี
ไฟล์เพลง
หน้าและแคตตาล็อกบนเว็บไซต์
มาดูคำอธิบายของ robots.txt สำหรับตัวเลือกนี้ หากเว็บไซต์ไม่ได้บล็อกโรบ็อตไม่ให้เข้าถึงเว็บไซต์ตัวอย่าง robots.txt อย่างง่าย:
ตัวแทนผู้ใช้: * อนุญาต: /
ที่นี่โรบอตอนุญาตให้จัดทำดัชนีของทั้งไซต์ได้อย่างสมบูรณ์ไฟล์ robots.txt จะต้องอยู่ในไดเรกทอรีรากของเว็บไซต์ของคุณ
เพื่อให้สามารถเข้าถึงได้ตามที่อยู่ต่อไปนี้:
Your_site.ru/robots.txt
หากต้องการวางไฟล์ robots.txt ไว้ที่รากของไซต์ จำเป็นต้องมีการเข้าถึงผ่าน FTP - อย่างไรก็ตาม ระบบปฏิบัติการ (CMS) ทำให้สามารถสร้าง robots.txt ได้โดยตรงจากแผงควบคุมของเว็บไซต์หรือผ่านการใช้ตัวจัดการ FTPหากไฟล์พร้อมใช้งาน คุณสามารถดาวน์โหลด robots.txt จากเบราว์เซอร์ของคุณแทนได้ ทำไมคุณถึงต้องการ robots.txt? Roots.txt สำหรับไซต์เป็นสิ่งสำคัญ จำเป็นต้องมี robots.txt- ตัวอย่างเช่นใน จำเป็นต้องมี SEO robots.txt เพื่อรวมหน้าจากการจัดทำดัชนี เพื่อไม่ให้รบกวนเนื้อหาที่เกี่ยวข้องและอื่นๆ อีกมากมาย- อย่างไร อะไร ตอนนี้ และเหตุใดจึงมีการอธิบายไว้แล้วในบทความเกี่ยวกับเรื่องนี้ เราจะไม่อยู่กับใครเลย
ไฟล์ robots.txt ที่จำเป็น
ไปยังทุกไซต์? และเช่นนั้นและไม่ใช่เนื่องจากเว็บไซต์ robots.txt ปิดใช้งานหน้าเว็บโดยอัตโนมัติ ดังนั้นสำหรับไซต์ขนาดเล็กที่มีโครงสร้างเรียบง่ายและหน้าเว็บแบบคงที่ ข้อบกพร่องที่คล้ายกันจึงสามารถสังเกตเห็นได้ อย่างไรก็ตาม สำหรับไซต์ขนาดเล็ก อาจมีข้อบกพร่องอยู่บ้างคำสั่ง robots.txt เช่น คำสั่ง Host หรือ Sitemap แต่ราคาต่ำกว่าวิธีสร้าง robots.txt ชิ้นส่วน Robots.txt เป็นไฟล์ข้อความและสร้างไฟล์ robots.txt คุณสามารถเร่งความเร็วอะไรก็ได้โปรแกรมแก้ไขข้อความ- ทุกอย่างง่ายดายและการสร้างไฟล์ robots.txt จะไม่สร้างปัญหาให้กับมือใหม่
ฉันจะแสดงให้คุณดูด้านล่างเกี่ยวกับวิธีการเขียน robots.txt และสิ่งที่ควรเขียนด้วย robots on butts
สร้าง robots.txt ออนไลน์ ทางเลือกสำหรับคนขี้เกียจสร้างโรบ็อตออนไลน์และอัปโหลดไฟล์ robots.txt มันดูพร้อมแล้วการสร้าง robots txt online ให้บริการที่หลากหลาย คุณสามารถเลือกได้ หัวหน้า - เข้าใจอย่างชัดเจนว่าสิ่งใดจะถูกบล็อกและสิ่งใดที่ได้รับอนุญาตเป็นอย่างอื่นการสร้างไฟล์ robots.txt ออนไลน์อาจกลายเป็นโศกนาฏกรรมได้
เพื่อให้คุณสามารถแก้ไขในภายหลังได้อย่างง่ายดาย
การค้นหาสิ่งที่เราจะปิดเล็กน้อยนั้นคุ้มค่าอย่างยิ่ง ให้ความเคารพ - ส่งคืนไฟล์โรบ็อตของคุณก่อนแล้วอัปโหลดไปยังไซต์นิ่ง ไฟล์ koristuvach robots.txtแม่นยำยิ่งขึ้น มันสะท้อนถึงโครงสร้างของการแลกเปลี่ยน ซึ่งแตกต่างจากที่สร้างและดึงดูดจากไซต์อื่นโดยอัตโนมัติ อ่านต่อเพื่อทราบว่าคุณต้องใส่ใจเป็นพิเศษเมื่อแก้ไข robots.txtการแก้ไข robots.txt
เมื่อคุณสร้างไฟล์ robots.txt ทางออนไลน์หรือด้วยตนเอง คุณก็สามารถทำได้
เมื่อคุณสร้างไฟล์ robots.txt ทางออนไลน์หรือด้วยตนเอง คุณก็สามารถทำได้แก้ไข robots.txt - คุณสามารถเปลี่ยนแทนได้ตลอดเวลา เพียงปฏิบัติตามกฎและไวยากรณ์ของ robots.txt ต่อไปนี้ในกระบวนการทำงานบนไซต์ ไฟล์โรบ็อตอาจมีการเปลี่ยนแปลง และหากคุณแก้ไข robots.txt อย่าลืมอัปเดตไซต์ที่อัปเดต รุ่นปัจจุบันไฟล์ที่มีการเปลี่ยนแปลงมากมาย
ต่อไปเรามาดูกฎสำหรับการตั้งค่าไฟล์กัน วิธีเปลี่ยนไฟล์ robots.txtและ “อย่าสับไม้”
กำหนดค่า robots.txt อย่างถูกต้องช่วยให้คุณสามารถแยกข้อมูลส่วนตัวออกจากผลการค้นหาของเครื่องมือค้นหาที่ยอดเยี่ยม
อย่างไรก็ตามอย่าลืมสิ่งนั้น
คำสั่ง robots.txt ไม่เกิน kerivnitstvo ก่อนดำเนินการ ไม่ใช่ zakhist
- โรบ็อตของเครื่องมือค้นหาที่เชื่อถือได้ เช่น Yandex และ Google ถูกควบคุมโดยคำสั่ง robots.txt โรบ็อตอื่นๆ สามารถเพิกเฉยต่อพวกมันได้อย่างง่ายดาย ความเข้าใจที่ถูกต้องสั่งให้หุ่นยนต์แยกวิเคราะห์คำสั่งที่ระบุตัวแทนผู้ใช้ของชื่อของมัน
ตัวอย่างของ robots.txt ที่มีอินพุต User-agent จำนวนมาก:
# จะถูกเลือกโดยหุ่นยนต์ Yandex ทั้งหมด User-agent: Yandex Disallow: /*utm_ # จะถูกเลือกโดยหุ่นยนต์ทั้งหมดโดย Google User-agent: Googlebot Disallow: /*utm_ # จะถูกเลือกโดยหุ่นยนต์ทั้งหมดโดยหุ่นยนต์ Yandex และผู้ใช้ Google -ตัวแทน: * อนุญาต: / *utm_
คำสั่งตัวแทนผู้ใช้สร้างคำสั่งสำหรับหุ่นยนต์เฉพาะ และทันทีหลังจากคำสั่ง User-agent คำสั่งและคำสั่งสามารถส่งโดยตรงไปยังหุ่นยนต์ที่เลือก
แอปพลิเคชันมักจะใช้คำสั่ง Disallow ซึ่งมีค่า /*utm_
โอ้ที่รัก ทุกอย่างถูกปิดแล้ว
robots.txt ที่กำหนดค่าอย่างถูกต้องจะป้องกันการมีการถ่ายโอนแถวว่างระหว่างคำสั่ง "User-agent", "Disallow" และคำสั่งที่บังคับใช้ "Disallow" ภายใน "User-agent" ปัจจุบัน
ตัวอย่างการแปลแถวที่ไม่ถูกต้องใน robots.txt: ตัวอย่างการแปลแถวที่ถูกต้องใน robots.txt:ตัวแทนผู้ใช้: Yandex ไม่อนุญาต: /*utm_ อนุญาต: /*id= ตัวแทนผู้ใช้: * ไม่อนุญาต: /*utm_ อนุญาต: /*id=
อย่างที่คุณเห็นจากก้น
ส่วนแทรกใน robots.txt จะถูกวางไว้ในบล็อก สกินที่ใช้วางคำจารึกสำหรับหุ่นยนต์เฉพาะหรือสำหรับหุ่นยนต์ทั้งหมด “*”นอกจากนี้ สิ่งสำคัญคือต้องแน่ใจว่าลำดับและการเรียงลำดับคำสั่งใน robots.txt ถูกต้องเมื่อใช้หลายคำสั่ง เช่น "Disallow" และ "Allow"
คำสั่ง "อนุญาต" เป็นส่วนแยกต่างหากของคำสั่ง ซึ่งคล้ายกับคำสั่ง "Disallow" ของ robots.txt ซึ่งเป็นคำสั่งในการปกป้อง
ก้น
นอนหลับ vikoristannya
คำสั่งใน robots.txt:
ตัวแทนผู้ใช้: * อนุญาต: /blog/page ไม่อนุญาต: /blog
วิธีการนี้จะป้องกันไม่ให้โรบอตทั้งหมดสร้างดัชนีหน้าเว็บทั้งหมดที่ขึ้นต้นด้วย “/blog” แต่อนุญาตให้สร้างดัชนีหน้าเว็บที่ขึ้นต้นด้วย “/blog/page” ก้นหน้า robots.txt อยู่ในประเภทที่ถูกต้อง: User-agent: * Disallow: /blog อนุญาต: /blog/pageเริ่มแรกทั้งส่วนจะถูกบล็อก จากนั้นจึงอนุญาตให้มีบางส่วนได้
อีกหนึ่ง
ก้นที่ถูกต้อง
robots.txt
จากคำสั่งเพิ่มเติม:
ตัวแทนผู้ใช้: * อนุญาต: / ไม่อนุญาต: /blog อนุญาต: /blog/page
เปลี่ยนกลับเป็นลำดับคำสั่งที่ถูกต้องใน robots.txtและคุณจะตีความคำสั่งอย่างไรก็เป็นทางเลือกของคุณ
ตัวเลือกทั้งสองจะถูกต้อง Golovne - อย่าหลงทาง.
สำหรับการสร้าง robots.txt ที่ถูกต้อง จำเป็นต้องระบุลำดับความสำคัญที่จะสงวนไว้เพื่อให้โรบ็อตดึงดูดในพารามิเตอร์ของคำสั่งอย่างถูกต้อง
เราจะมาดูรายละเอียดเกี่ยวกับคำสั่ง Disallow และ Allow โดยละเอียดยิ่งขึ้นอีกเล็กน้อย จากนั้นจึงดูไวยากรณ์ของ robots.txtการรู้ไวยากรณ์ของ robots.txt จะทำให้คุณใกล้ชิดยิ่งขึ้น สร้าง robots txt ที่สมบูรณ์แบบด้วยมือของคุณเองไวยากรณ์ robots.txt
โรบ็อตของระบบค้นหาลงนามคำสั่ง robots.txt โดยสมัครใจ — มาตรฐานสำหรับโรบ็อต แต่ไม่ใช่เครื่องมือค้นหาทั้งหมดที่จะตีความไวยากรณ์ของ robots.txt ในลักษณะเดียวกัน:
- ไฟล์ robots.txt มีไวยากรณ์ที่เขียนอย่างเคร่งครัด แต่ในขณะเดียวกัน เขียน robots txt;
- ไม่ใช่เรื่องยากเพราะโครงสร้างของมันเรียบง่ายและเข้าใจง่าย
- แกนคือรายการกฎง่ายๆ เฉพาะซึ่งคุณสามารถค้นหาและปิดได้
- ส่วนประกอบต่างๆ ของ robots.txt
- คำสั่งผิวเริ่มต้นด้วย
- แถวใหม่
- อย่าป้อนคำสั่งมากกว่าหนึ่งคำสั่งในหนึ่งแถว
- อย่าเจาะรูที่หูของแถว
- พารามิเตอร์คำสั่งถูกวางไว้ในแถวเดียว
- ไม่จำเป็นต้องกำหนดกรอบพารามิเตอร์และคำสั่งที่ส่วนเท้า
- พารามิเตอร์ของคำสั่งไม่ปรากฏว่าครอบคลุมจุดที่อยู่หลังอาการโคม่า
- คำสั่งใน robots.txt ถูกระบุในรูปแบบ - [Name_directive]:[required space][value][required space];
- อนุญาตให้แสดงความคิดเห็นใน robots.txt หลังเครื่องหมาย #;
- การถ่ายโอนแถวว่างสามารถตีความได้ว่าเป็นจุดสิ้นสุดของคำสั่ง User-agent
- คำสั่ง Disallow: (ที่มีค่าว่าง) เทียบเท่ากับ Allow: / - อนุญาตทุกอย่าง;
- คำสั่ง "อนุญาต", "ไม่อนุญาต" ไม่ต้องการพารามิเตอร์มากกว่าหนึ่งตัว
- ชื่อของไฟล์ robots.txt ไม่อนุญาตให้มีผู้เขียนที่ดี ชื่อของไฟล์คือ Robots.txt หรือ ROBOTS.TXT
- การเขียนชื่อของคำสั่งและพารามิเตอร์โดยนักเขียนผู้ยิ่งใหญ่นั้นได้รับความเคารพด้วยน้ำเสียงที่ไม่ดี และตามมาตรฐานของ robots.txt และไม่คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ มักจะไม่คำนึงถึงชื่อไฟล์และไดเร็กทอรี
- ไม่อนุญาตให้ใช้สัญลักษณ์ของตัวอักษรประจำชาติใน robots.txt
เครื่องมือค้นหาที่แตกต่างกันบางรายการอาจตีความไวยากรณ์ของ robots.txt แตกต่างออกไป และบางจุดสามารถละเว้นได้
ตัวอย่างเช่น หากคุณป้อนคำสั่ง "User-agent" จำนวนหนึ่งโดยไม่มีการแปลแถวว่าง Yandex จะยอมรับคำสั่ง "User-agent" ทั้งหมดอย่างถูกต้อง ตราบใดที่ Yandex เห็นบันทึกที่มีการมองเห็นในแถว "User-agent" . หุ่นยนต์อาจมีแต่สิ่งที่จำเป็นและไม่มีอะไรฟุ่มเฟือยอย่าคิดนะ วิธีเขียนทุกอย่างใน robots txtอะไรสามารถและฉันจะจำมันได้อย่างไร?
หุ่นยนต์ในอุดมคติ txt
- อันที่มีแถวน้อยกว่าแต่มีความหมายมากกว่า "Tiness เป็นน้องสาวของพรสวรรค์"ไวราซที่นี่อยู่ก่อนแม่น้ำเสียอีก วิธียืนยัน robots.txt
เพื่อ
- อันที่มีแถวน้อยกว่าแต่มีความหมายมากกว่า ตรวจสอบ robots.txtคุณสามารถตรวจสอบความถูกต้องของไวยากรณ์และโครงสร้างของไฟล์ได้อย่างรวดเร็วโดยใช้บริการออนไลน์อย่างใดอย่างหนึ่ง ตัวอย่างเช่น Yandex และ Google เสนอบริการที่มีประสิทธิภาพสำหรับผู้ดูแลเว็บ ซึ่งรวมถึงการวิเคราะห์ robots.txt: ตรวจสอบไฟล์ robots.txt จาก Yandex.Webmaster: http://webmaster.yandex.ru/robots.xmlตรวจสอบ robots.txt ออนไลน์
จำเป็น เพิ่ม robots.txt ลงในไซต์ไปยังไดเร็กทอรีราก
- มิฉะนั้นบริการสามารถบอกคุณได้อะไร
ฉันไม่สนใจที่จะเพิ่ม robots.txt - ขอแนะนำให้ตรวจสอบ robots.txt ก่อนว่าสามารถเข้าถึงได้จากที่อยู่ของไฟล์หรือไม่ เช่น your_site.ru/robots.txtนอกจากบริการยืนยันจาก Yandex และ Google แล้วยังไม่มีบริการอื่นทางออนไลน์อีกด้วย เครื่องมือตรวจสอบ robots.txt Robots.txt กับ Yandex และ Google
เป็นความคิดส่วนตัวที่การแทรกบล็อกคำสั่งที่อยู่ติดกัน User-agent: Yandex ใน robots.txt Yandex รับรู้ในเชิงบวกมากขึ้น บล็อกด้านล่างของคำสั่งด้วย User-agent: *
สถานการณ์นี้คล้ายคลึงกับ robots.txt และ Google
การแทรกคำสั่งเพิ่มเติมสำหรับ Yandex และ Google ช่วยให้สามารถจัดทำดัชนีไซต์ผ่าน robots.txtซึ่งไฟล์ robots.txt มักถูกใช้ในทางที่ผิด
Disallow บล็อกการจัดทำดัชนีของไซต์หรือส่วนใดส่วนหนึ่งของไซต์ ขึ้นอยู่กับเส้นทางที่ระบุในพารามิเตอร์ของคำสั่ง Disallow
วิธีที่ robots.txt ป้องกันการจัดทำดัชนีเว็บไซต์มีดังนี้
ตัวแทนผู้ใช้: * Disallow: /
ตัวอย่างนี้บล็อกทั้งไซต์จากโรบ็อตทั้งหมดจากการจัดทำดัชนี
พารามิเตอร์คำสั่ง Disallow อนุญาตให้ใช้อักขระพิเศษ * และ $:
* - ไม่ว่าจะมีสัญลักษณ์กี่ตัวก็ตาม พารามิเตอร์ /page* ก็ตอบสนอง /page, /page1, /page-be-cool, /page/kak-skazat เป็นต้น
อย่างไรก็ตาม ไม่จำเป็นต้องระบุ * พารามิเตอร์สกิน เนื่องจาก ตัวอย่างเช่น คำแนะนำจะถูกตีความแตกต่างออกไป:
ตัวแทนผู้ใช้: Yandex Disallow: /page ตัวแทนผู้ใช้: Yandex Disallow: /page*
$ - ระบุประเภทที่แน่นอนของค่าพารามิเตอร์การปิดเครื่อง: User-agent: Googlebot Disallow: /page$ใน
ถึงผู้ชายคนนี้ คำสั่ง Disallow ได้รับการป้องกันโดย /page แต่ไม่ได้รับการปกป้องโดยการจัดทำดัชนีของหน้า /page1, /page-be-cool หรือ /page/kak-skazatยักชโช ปิดการจัดทำดัชนีไซต์ robots.txtในระบบการค้นหาสามารถตอบสนองการเคลื่อนไหวดังกล่าวโดยมีคำเตือน “ถูกบล็อกโดยไฟล์ robots.txt” หรือ “url ถูกจำกัดโดย robots.txt” (URL ถูกบล็อกโดยไฟล์ robots.txt)
- คุณต้องการอะไร
- ป้องกันการจัดทำดัชนีของหน้า
- คุณสามารถเร่งความเร็วได้ไม่เพียงแต่ robots txt เท่านั้น แต่ยังรวมถึงแท็ก html ที่คล้ายกันด้วย:
- - อย่าจัดทำดัชนีแทนเพจ
- อย่าไปด้านข้างเพื่อรับข้อความ
- ห้ามจัดทำดัชนีแทนและติดตามข้อความในเพจ- เนื้อหาในทำนองเดียวกัน = "ไม่มี"
อนุญาตการจัดทำดัชนี: robots.txt อนุญาต
อนุญาต - คำสั่งที่อนุญาต
นี่คือระยะเวลาของคำสั่ง Disallowคำสั่งนี้มีไวยากรณ์คล้ายกับ Disallow
ตัวอย่างวิธีที่ robots.txt ป้องกันการจัดทำดัชนีของเว็บไซต์ นอกเหนือจากบางหน้า:
ตัวแทนผู้ใช้: * Disallow: /Allow: /page
ห้ามจัดทำดัชนีทั้งไซต์
นอกเหนือจากหน้าที่ขึ้นต้นด้วย /page
ไฟล์เพลง
ไม่อนุญาตและอนุญาตโดยมีค่าพารามิเตอร์ว่าง
คำสั่ง Disallow ว่างเปล่า:
ตัวแทนผู้ใช้: * ไม่อนุญาต:
วิธีที่ robots.txt ป้องกันการจัดทำดัชนีเว็บไซต์มีดังนี้
การไม่ปิดกั้นสิ่งใด ๆ หรืออนุญาตให้มีการจัดทำดัชนีของทั้งไซต์จะเทียบเท่ากับ:
คำสั่งอนุญาตให้ว่างเปล่า:ตัวแทนผู้ใช้: * อนุญาต: การไม่อนุญาตอะไรเลยหรือบล็อกการจัดทำดัชนีของเว็บไซต์โดยสมบูรณ์จะเทียบเท่ากับ:กระจกเงาหลักของไซต์: robots.txt Host
คำสั่งโฮสต์ใช้เพื่อแทรกหุ่นยนต์ Yandex ลงในกระจกส่วนหัวของไซต์ของคุณ
- จากระบบเสียงยอดนิยมทุกคำสั่ง
Mysite.ru www.mysite.ru
คุณสามารถใช้หุ่นยนต์ Yandex เป็นกระจกและหัวได้- คำสั่งโฮสต์ระบุไว้ในบล็อกของคำสั่ง "User-agent: Yandex" และในฐานะพารามิเตอร์ สิ่งสำคัญคือต้องระบุที่อยู่ไซต์โดยไม่มี "http://"
ตัวอย่าง robots.txt จากวัตถุประสงค์ของมิเรอร์ส่วนหัว:
ตัวแทนผู้ใช้: Yandex Disallow: /page Host: mysite.ru
เหมือนกระจกไฟปรากฏขึ้น ชื่อโดเมน mysite.ru โดยไม่มี www
ดังนั้นผลการค้นหาจะระบุที่อยู่ประเภทนี้
ตัวแทนผู้ใช้: Yandex Disallow: /page Host: www.mysite.ru
ในฐานะมิเรอร์พื้นฐาน ชื่อโดเมนคือ www.mysite.ruคำสั่งโฮสต์ในไฟล์ robots.txt
สามารถใช้ได้เพียงครั้งเดียว หากมีการระบุคำสั่ง Host มากกว่าหนึ่งครั้ง คำสั่งแรกจะใช้ได้ และคำสั่ง Host อื่นๆ จะถูกละเว้น คุณต้องการซื้อกระจกแบรนด์สำหรับหุ่นยนต์กูเกิล เร่งความเร็วบริการของกูเกิล
เครื่องมือสำหรับเว็บมาสเตอร์
แผนผังไซต์: แผนผังไซต์ robots.txt
ด้วยความช่วยเหลือของคำสั่งแผนผังไซต์ robots.txt คุณสามารถระบุการติดตั้งใช้งานบนไซต์ได้
ตัวอย่างของ robots.txt จากที่อยู่และการ์ดไซต์ที่กำหนด:
ตัวแทนผู้ใช้: * ไม่อนุญาต: /page แผนผังไซต์: http://www.mysite.ru/sitemap.xml เพิ่มที่อยู่และการ์ดไซต์ผ่านทางคำสั่งแผนผังไซต์ใน robots.txt
อนุญาตให้โรบ็อตการค้นหาพิจารณาว่าแผนที่นั้นสามารถมองเห็นได้บนเว็บไซต์หรือไม่ และพิมพ์เพื่อทำดัชนีหรือไม่
คำสั่ง Clean-param คำสั่ง Clean-param ช่วยให้คุณสามารถปิดการใช้งานเพจที่มีพารามิเตอร์ไดนามิกจากการจัดทำดัชนี.
อย่างไรก็ตาม หน้าเว็บที่คล้ายกันอาจมี URL ของหน้าเว็บที่แตกต่างกัน
พูดง่ายๆ ก็คือ ไซต์นี้มีให้บริการตามที่อยู่ที่แตกต่างกัน
งานของเราคือการรวบรวมที่อยู่แบบไดนามิกทั้งหมดของคุณ ซึ่งอาจมีอยู่นับล้าน
ซึ่งปิดพารามิเตอร์ไดนามิกทั้งหมด
vikorista ในคำสั่ง robots.txt Clean-param
ไวยากรณ์ของคำสั่ง Clean-param คือ:
ทำความสะอาดพารามิเตอร์: parm1[&parm2&parm3&parm4&..&parmn] [ทาง]
ลองดูที่หน้าที่มี URL ต่อไปนี้:
www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3
ก้น robots.txt Clean-param:
Clean-param: parm1&parm2&parm3 /page.html # สำหรับ page.html เท่านั้น
ในเวลานี้ เรา "ขอให้" หุ่นยนต์ยานเดกซ์บุกหน้าเว็บไซต์ของเราไม่เกินหนึ่งครั้งเป็นเวลาสามวินาที ระบบเสียงบางระบบรองรับรูปแบบเศษส่วนเป็นพารามิเตอร์.
คำสั่ง robots.txt แบบหน่วงเวลาการรวบรวมข้อมูล
บทความนี้มีตัวอย่างโค้ดที่เหมาะสมที่สุดในความคิดของฉันสำหรับไฟล์ robots.txt ภายใต้ WordPress ซึ่งคุณสามารถแก้ไขได้บนเว็บไซต์ของคุณ สำหรับผู้เริ่มต้น เดาอะไร?แค่ต้องการ robots.txt
- ไฟล์ robots.txt เป็นสิ่งจำเป็นโดยเฉพาะสำหรับโรบ็อตการค้นหา เพื่อ "บอก" ว่าไซต์ควรรวมส่วน/หน้าที่ใด และส่วนใดไม่ควรรวมไว้
หน้าที่ปิดจากร้านจะไม่ถูกประมวลผลไปยังดัชนีเครื่องมือค้นหา (Yandex, Google ฯลฯ )ตัวเลือกที่ 1: โค้ด robots.txt ที่ดีที่สุดสำหรับ WordPress
- แถวอื่นๆ ปิดกั้นหุ่นยนต์ไม่ให้ “เดิน” เพื่อรับคำสั่ง ซึ่งขึ้นต้นด้วย:
- Disallow: /cgi-bin – ปิดไดเร็กทอรีสคริปต์บนเซิร์ฟเวอร์
- Disallow: /feed - ปิดฟีด RSS ของบล็อก
- Disallow: /trackback - ปิดการแจ้งเตือน
- Disallow: ?s= หรือ Disallow: *?s= - ปิดหน้าการค้นหา
Disallow: */page/ - ปิดการแบ่งหน้าทุกประเภท
กฎแผนผังไซต์: http://example.com/sitemap.xml สั่งให้โรบอตไปยังไฟล์ที่มีแผนผังไซต์ในรูปแบบ XML
หากคุณมีไฟล์ดังกล่าวบนไซต์ของคุณ ให้เขียนเส้นทางใหม่ไปยังไฟล์ใหม่
ตัวแทนผู้ใช้: * Disallow: /cgi-bin # classic... Disallow: /?
# พารามิเตอร์ทั้งหมดจะถูกบันทึกลงในพารามิเตอร์หลัก Disallow: /wp- # ไฟล์ WP ทั้งหมด: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Disallow: /search # search Disallow: /author/ # archives of authors Disallow: *?attachment_id= # ด้านไฟล์แนบ นี่คือการเปลี่ยนเส้นทาง... */ - สำหรับลำดับความสำคัญ) อนุญาต: /*/*.css # ตรงกลาง /wp- (/*/ - สำหรับลำดับความสำคัญ) อนุญาต: /wp-*.png # รูปภาพในปลั๊กอิน, แคช พ่อ ฯลฯอนุญาต: /wp-*.jpg # ภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.jpeg # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯอนุญาต: /wp-*.gif # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯ อนุญาต: /wp-*.svg # รูปภาพในปลั๊กอิน โฟลเดอร์แคช ฯลฯเราอาจมีรูปภาพวางอยู่รอบๆ ซึ่งอาจมีการจัดทำดัชนี และอาจมีไฟล์ที่ไม่พึงประสงค์บางไฟล์วางอยู่ที่นั่นซึ่งไม่มีอะไรจะหยิบได้
อนุญาต: สามารถเป็น "ก่อน" หรือ "หลัง" Disallow: .
ไฟล์ดังกล่าวสามารถรวบรวมได้จากนั้นก็ไปที่ผิวหนังอย่างเห็นได้ชัด
ในแถวโฮสต์: site.ru เรามีกระจกเงาที่สำคัญของไซต์ หากไซต์มีมิเรอร์ (สำเนาของไซต์ในโดเมนอื่น) ดังนั้นเพื่อให้ยานเดกซ์จัดทำดัชนีอีกครั้งจำเป็นต้องระบุมิเรอร์ส่วนหัวคำสั่งโฮสต์: ยานเดกซ์ไม่เข้าใจ Google ไม่เข้าใจ!
หากไซต์ทำงานภายใต้โปรโตคอล https จะต้องระบุไว้ในโฮสต์: โฮสต์: http://example.com
จากเอกสาร Yandex: “โฮสต์เป็นคำสั่งอิสระและดำเนินการในตำแหน่งใดก็ได้ในไฟล์ (หน้าตัด)”
ดังนั้นเราจึงวางไว้ด้านบนหรือท้ายไฟล์ผ่านแถวว่าง
เนื่องจากจำเป็นต้องมีการมองเห็นฟีดที่ซ่อนอยู่ ตัวอย่างเช่น สำหรับ Yandex Zen หากคุณต้องการเชื่อมต่อไซต์กับช่อง (ขอบคุณผู้วิจารณ์ "ดิจิทัล")
เป็นไปได้ว่าคุณอาจเปิดฟีดที่จำเป็นที่นี่อีกครั้ง
ในขณะเดียวกัน ฟีดก็มีรูปแบบของตัวเองในพาดหัวข่าวของวิดีโอ ดังนั้นระบบเสียงใดๆ จึงเข้าใจว่าไม่เป็นเช่นนั้น
ฝั่ง HTML
และเฟดและเห็นได้ชัดว่าปฏิบัติต่อมันแตกต่างออกไป
ตัวเลือกที่ 2: robots.txt มาตรฐานสำหรับ WordPress
ฉันไม่รู้ว่าเป็นใคร แต่ฉันคือตัวเลือกแรก!
ดังนั้นจึงสมเหตุสมผลมากกว่า - ฉันไม่จำเป็นต้องทำซ้ำส่วนนี้เพื่อระบุคำสั่ง Host สำหรับ Yandex ซึ่งเป็นแบบหน้าตัด (แน่นอนว่าเป็นหุ่นยนต์ในเทมเพลตสถานที่ใด ๆ โดยไม่ระบุหุ่นยนต์ใด ๆ )
- ฉันยังไม่ได้สังเกตว่าหุ่นยนต์ตัวแรกไม่ทำงานตามที่ต้องการ
เนื่องจากมีคำสั่ง Allow ที่ไม่เป็นไปตามมาตรฐาน จึงใช้ได้กับ Yandex และ Google และหากไม่เปิดโฟลเดอร์อัพโหลดสำหรับโรบ็อตอื่นๆ ที่พวกเขาไม่เข้าใจ ดังนั้นใน 99% ของกรณีจะไม่มีอะไรเลวร้ายเกิดขึ้น
รหัสคำแนะนำส่วนใหญ่ไม่ถูกต้อง
ขอขอบคุณผู้วิจารณ์ที่ชี้ให้เห็นถึงความไม่ถูกต้อง แม้ว่าฉันจะต้องคิดออกว่ามันคืออะไรสำหรับตัวเอง
ฉันรู้สึกตื่นเต้นมากเกี่ยวกับเรื่องนี้ (ฉันเมตตา):โรบ็อต (ไม่ใช่ Yandex และ Google) - ไม่เข้าใจคำสั่งมากกว่า 2 คำสั่ง: User-agent: และ Disallow:
Yandex Host Directive: คุณต้องปฏิบัติตามกฎหลังจาก Disallow: เนื่องจากโรบ็อต (ไม่ใช่ Yandex และ Google) อาจไม่เข้าใจกฎเหล่านั้นและอาจปฏิเสธ robots.txt สำหรับยานเดกซ์เองเมื่อพิจารณาจากเอกสารแล้วการ vikorize Host ก็เป็นสิ่งเดียวกัน: แม้ว่าคุณต้องการสร้าง robots.txt ในโฮสต์แถวเดียว: www.site.ru เพื่อกาวมิเรอร์ทั้งหมดของไซต์เข้าด้วยกัน . 3. แผนผังไซต์: คำสั่งแบบตัดขวางสำหรับ Yandex และ Google และบางทีสำหรับโรบ็อตอื่น ๆ ด้วยเช่นกัน ดังนั้นเราจึงเขียนต่อท้ายผ่านแถวว่างและใช้ได้กับโรบ็อตทุกตัวในคราวเดียว จากการแก้ไขเหล่านี้ รหัสที่ถูกต้องอาจมีลักษณะดังนี้:ตัวแทนผู้ใช้: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin ไม่อนุญาต: *?s= อนุญาต: /wp-admin/admin-ajax.php แผนผังไซต์: http://example.com/sitemap.xml มาเพิ่มให้กับตัวเราเองหากคุณต้องการปกป้องเพจหรือกลุ่มของเพจ คุณสามารถเพิ่มกฎ (คำสั่ง) ด้านล่าง
ไม่อนุญาต:
- ตัวอย่างเช่น เราจำเป็นต้องปิดรายการทั้งหมดในหมวดหมู่จากการจัดทำดัชนี
- ข่าว
- แล้วก่อนหน้านี้
หากคุณต้องการปิดทางเข้า /news เราจะเขียนว่า:
ไม่อนุญาต: */news
- ข่าว
- http://example.com/my/news/drugoe-nazvanie/
- http://example.com/category/newsletter-nazvanie.html
คุณยังสามารถอ่านคำสั่ง robots.txt ได้ในหน้าช่วยเหลือของ Yandex (แต่โปรดทราบว่ากฎบางข้อที่อธิบายไว้นั้นอาจไม่มีผลกับ Google)
การยืนยัน robots.txt และเอกสารประกอบ
คุณสามารถตรวจสอบและปฏิบัติตามกฎด้านล่าง:
- ยานเดกซ์: http://webmaster.yandex.ru/robots.xml
- Google มีราคาที่ต้องจ่าย คอนโซลการค้นหา- จำเป็นต้องได้รับอนุญาตและการมองเห็นไซต์ในแผงของผู้ดูแลเว็บ
- บริการสำหรับสร้างไฟล์ robots.txt: http://pr-cy.ru/robots/
- บริการสำหรับการสร้างและการตรวจสอบ robots.txt: https://seolib.ru/tools/generate/robots/
การรวบรวมข้อมูลล่าช้า - หมดเวลาสำหรับหุ่นยนต์ของพระเจ้า (ตั้งแต่ปี 2018 ไม่ครอบคลุมถึงชะตากรรม)
ยานเดกซ์
หลังจากวิเคราะห์รายการในช่วงสองปีที่ผ่านมาเพื่อสนับสนุนการจัดทำดัชนี เราพบว่าสาเหตุหลักประการหนึ่งที่ทำให้ความต้องการเอกสารเพิ่มขึ้นคือคำสั่งการหน่วงเวลาการรวบรวมข้อมูลที่กำหนดค่าไม่ถูกต้องใน robots.txt […] เพื่อให้เจ้าของไซต์ไม่ มีการพูดคุยกันมากขึ้น เพื่อให้แน่ใจว่าหน้าที่จำเป็นทั้งหมดของไซต์ปรากฏขึ้นและได้รับการอัปเดตเพื่อค้นหาความเร็ว เราจึงมีแนวโน้มที่จะปรากฏในรูปแบบของคำสั่ง Crawl-delay
เมื่อหุ่นยนต์ยานเดกซ์สแกนไซต์ราวกับว่าเป็นสวรรค์ มันจะสร้างการโจมตีที่เหนือธรรมชาติบนเซิร์ฟเวอร์
คุณสามารถขอให้หุ่นยนต์ “เปลี่ยนกระดาษห่อ”
สำหรับสิ่งนี้ คุณต้องใช้คำสั่ง Crawl-delay
ระบุชั่วโมงและวินาทีที่หุ่นยนต์ต้องยืน (ตรวจสอบ) เพื่อสแกนสกินของไซต์
หากต้องการจัดการกับโรบ็อตที่ไม่ปฏิบัติตามมาตรฐาน robots.txt ต้องระบุการรวบรวมข้อมูล-ความล่าช้าในกลุ่ม (ในส่วน User-Agent) ทันทีหลังจาก Disallow และ Allow
หุ่นยนต์ Yandex เข้าใจค่าการยิง เช่น 0.5 (ps วินาที)
สิ่งนี้ไม่ได้รับประกันว่าโรบ็อตการค้นหาจะเข้าถึงไซต์ของคุณภายในไม่กี่วินาที แต่ช่วยให้คุณเร่งความเร็วในการรวบรวมข้อมูลไซต์ได้
ตัวแทนผู้ใช้: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1.5 # หมดเวลาใน 1.5 วินาที User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* .gif การรวบรวมข้อมูลล่าช้า: 2 # หมดเวลา 2 วินาที
Googlebot ไม่เข้าใจคำสั่ง Crawl-delay
คุณสามารถระบุการหมดเวลาสำหรับโรบ็อตได้ในแผงควบคุมของผู้ดูแลเว็บ
ฉันกำลังเขียนบทความเกี่ยวกับ robots.txt ในบล็อกของฉันฉันต้องการชี้ให้เห็นคำตอบของข้อความนี้ (ฉันไม่ทราบคำว่า "เช่นนั้น" ที่แน่ชัดจากเอกสารประกอบ):
ฉันจำเป็นต้องรวมมิเรอร์ทั้งหมด และเพื่อจุดประสงค์นี้ ฉันจำเป็นต้องเพิ่มคำสั่ง Host ให้กับไฟล์ robots.txt:
โฮสต์: site.ru ตัวแทนผู้ใช้: * Disallow: /asd
คุณจะใช้ Host: site.ru อย่างถูกต้องอย่างไร?
Chi vkazuvatime ชนะ robots scho site.ru นั้นเป็นกระจกเงา
โตโต้
คำสั่งนี้ไม่ได้อยู่ในส่วน แต่แนบมา (ที่จุดเริ่มต้นของไฟล์) โดยไม่ต้องกำหนด User-agent ใด ๆ
นอกจากนี้ เราต้องการทราบว่าต้องเพิ่มคำสั่ง Sitemap ไว้ตรงกลางของส่วน หรือสามารถเพิ่มระหว่างขอบเขตได้ เช่น ผ่านแถวว่าง หลังส่วน
ตัวแทนผู้ใช้: Yandex ไม่อนุญาต: /asd ตัวแทนผู้ใช้: * ไม่อนุญาต: /asd แผนผังไซต์: http://example.com/sitemap.xml
โรบ็อตเข้าใจคำสั่งแผนผังไซต์หรือไม่
--
ฉันตั้งใจแน่วแน่ที่จะปฏิเสธหลักฐานของคุณ ซึ่งอาจทำให้ฉันสงสัยได้อย่างชัดเจน
เรื่อง:
ขอให้เป็นวันที่ดี!
คำสั่งโฮสต์และแผนผังไซต์เป็นแบบภาคตัดขวาง ดังนั้นโรบ็อตจะใช้คำสั่งเหล่านี้โดยไม่คำนึงถึงตำแหน่งในไฟล์ robots.txt ที่มีการระบุไว้
ด้วยความเคารพ Platon Shchukin
บริการสนับสนุนยานเดกซ์ วิสโนวอคสิ่งสำคัญคือต้องจำไว้ว่าการเปลี่ยนแปลงใน robots.txt จะปรากฏบนเว็บไซต์ที่ทำงานของคุณเท่านั้นหลังจากผ่านไป 2-3 เดือน (2-3 เดือน)
เป็นที่ชัดเจนว่า Google อาจเพิกเฉยกฎใน robots.txt และนำไซต์ดังกล่าวเข้าสู่ดัชนี เนื่องจากเป็นสิ่งสำคัญที่ไซต์จะต้องไม่ซ้ำใครและมีคุณค่า และเพียงเพราะต้องอยู่ในดัชนี
อย่างไรก็ตาม คนอื่นๆ มีความอ่อนไหวต่อสมมติฐานง่ายๆ ที่ว่าเครื่องมือเพิ่มประสิทธิภาพที่ไม่สมบูรณ์อาจระบุกฎใน robots.txt อย่างไม่ถูกต้อง จึงปิดหน้าการจัดทำดัชนีที่จำเป็นและกีดกันหน้าการจัดทำดัชนีที่ไม่จำเป็น ฉันมีแนวโน้มที่จะอายมากขึ้นจากความอับอายอื่นในบริการ avi1.ru คุณสามารถเพิ่มการรองรับ SMM ให้กับ 7 รายการยอดนิยมได้ทันที มาตรการทางสังคม- ในกรณีนี้ เพื่อเพิ่มความเคารพต่อบริการระดับต่ำบนไซต์
สวัสดีตอนบ่ายผู้อ่านบล็อก "World of Webmaster" ที่รัก!
ไฟล์
robots.txt
- มากกว่านั้น
ไฟล์ด้วยความเคารพ – นี่คือไฟล์ที่แสดงเครื่องมือค้นหาว่าหน้าและเอกสารใดบนเว็บไซต์ที่สามารถเพิ่มลงในดัชนีได้ และสิ่งใดที่ไม่สามารถเพิ่มได้จำเป็นต้องใช้เครื่องมือค้นหาเพื่อสร้างดัชนีเว็บไซต์ทั้งหมด แต่ไม่ถูกต้องเสมอไป ตัวอย่างเช่น หากคุณสร้างเว็บไซต์โดยใช้เอ็นจิ้น (WordPress, Joomla ฯลฯ) คุณจะมีโฟลเดอร์ที่จัดระเบียบงานแผงการบริหาร
- เป็นที่ชัดเจนว่าข้อมูลในโฟลเดอร์เหล่านี้ไม่สามารถจัดทำดัชนีได้ ในกรณีนี้ ไฟล์ robots.txt จะถูกสร้างขึ้น ซึ่งจำกัดการเข้าถึงของเครื่องมือค้นหา
นอกจากนี้ ไฟล์ robots.txt ยังระบุที่อยู่ของการ์ดไซต์ (ซึ่งจะได้รับการปรับปรุงโดยการจัดทำดัชนีด้วยเครื่องมือค้นหา) รวมถึงโดเมนหลักของไซต์ (กระจกส่วนหัว)กระจกเงา
- นี่คือสำเนาที่สมบูรณ์ของเว็บไซต์ กล่าวคือ
หากมีไซต์หนึ่ง ดูเหมือนว่าหนึ่งในนั้นเป็นโดเมนหลัก และอีกไซต์หนึ่งเป็นมิเรอร์
ดังนั้นไฟล์จึงมีฟังก์ชั่นมากมายและที่สำคัญด้วย!
ไวยากรณ์สำหรับไฟล์ robots.txt
File Robots มีกลุ่มของกฎที่บอกสิ่งนี้หรือระบบค้นหาว่าอะไรสามารถจัดทำดัชนีได้และสิ่งใดบ้างที่ไม่สามารถทำได้สามารถมีกฎได้เพียงบล็อกเดียว (สำหรับระบบเสียงทั้งหมด) หรืออาจมีได้หลายกฎสำหรับระบบเสียงเฉพาะใดๆสกินบล็อกเริ่มต้นด้วยตัวดำเนินการ "User-Agent" ซึ่งระบุประเภทของระบบการค้นหาที่ใช้กฎ
ผู้ใช้-
File Robots มีกลุ่มของกฎที่บอกสิ่งนี้หรือระบบค้นหาว่าอะไรสามารถจัดทำดัชนีได้และสิ่งใดบ้างที่ไม่สามารถทำได้สามารถมีกฎได้เพียงบล็อกเดียว (สำหรับระบบเสียงทั้งหมด) หรืออาจมีได้หลายกฎสำหรับระบบเสียงเฉพาะใดๆตัวแทน:
ก
(กฎสำหรับหุ่นยนต์ "A")
บี
(กฎสำหรับหุ่นยนต์ "B")
แอปพลิเคชันแสดงให้เห็นว่าตัวดำเนินการ User-Agent รับพารามิเตอร์ - ชื่อของโรบ็อตเครื่องมือค้นหาจนกว่าจะมีการตั้งค่ากฎ
ฉันจะร่างโครงร่างหลักด้านล่าง:
…
หลังจาก User-Agent จะมีโอเปอเรเตอร์อื่นๆ
คำอธิบายแกน:
ไวยากรณ์เดียวกันนี้ใช้ได้กับตัวดำเนินการทั้งหมด
โตโต้
ตัวดำเนินการจะต้องเขียนดังนี้:
ตัวดำเนินการ 1: พารามิเตอร์ 1
ตัวดำเนินการ 2: พารามิเตอร์ 2
ในลักษณะนี้ ขั้นแรกเราเขียนชื่อของตัวดำเนินการ (ไม่ว่าจะเป็นตัวอักษรขนาดใหญ่หรือเล็ก) จากนั้นเราใส่กล่องคู่และระบุพารามิเตอร์ของตัวดำเนินการนี้ผ่านช่องว่าง
จากนั้นจากตัวดำเนินการแถวใหม่ สองตัวกำลังอธิบายตัวเอง
สำคัญ! แถวว่างหมายความว่าบล็อกกฎสำหรับเรื่องตลกนี้เสร็จสมบูรณ์แล้ว ดังนั้นอย่าเพิ่มตัวดำเนินการในแถวว่าง
ไฟล์ก้น robots.txt
มาดูตัวอย่างง่ายๆ ของไฟล์ robots.txt เพื่อทำความเข้าใจลักษณะเฉพาะของไวยากรณ์ให้ดียิ่งขึ้น:
ตัวแทนผู้ใช้: Yandex
อนุญาต: /folder1/
ไม่อนุญาต: /file1.html
ไฟล์ประกอบด้วยสามบล็อก: อันแรกสำหรับ Yandex ส่วนอีกอันสำหรับเครื่องมือค้นหาทั้งหมดและอันที่สามมีที่อยู่การ์ดเว็บไซต์ (สร้างขึ้นโดยอัตโนมัติสำหรับเครื่องมือค้นหาทั้งหมดดังนั้นคุณไม่จำเป็นต้องระบุ "ผู้ใช้" -ตัวแทน").
ยานเดกซ์ได้รับอนุญาตให้จัดทำดัชนีโฟลเดอร์โฟลเดอร์ 1 และทั้งหมดเข้าด้วยกัน แต่พวกเขาบล็อกการสร้างดัชนีของเอกสาร file1.html ซึ่งอยู่ในไดเร็กทอรีรากบนโฮสติ้ง
เรายังกำหนดโดเมนหลักให้กับเว็บไซต์ Yandex ด้วย
อีกบล็อกหนึ่งสำหรับระบบเสียงทั้งหมด
ที่นั่นเราบล็อกเอกสาร "document.php" รวมถึงโฟลเดอร์ "folderxxx", "folderyyy/folderzzz" และ "feed"
โปรดจำไว้ว่าเราบล็อกคำสั่งอื่นในดัชนีไม่ใช่โฟลเดอร์ทั้งหมด โฟลเดอร์yyy แต่เฉพาะโฟลเดอร์ที่อยู่ตรงกลางของโฟลเดอร์นี้ - folderzzz
โตโต้
เราระบุวิธีใหม่สำหรับ "folderzzz"
ดังนั้นก่อนอื่นคุณต้องทำงานเพื่อปกป้องเอกสารซึ่งไม่ได้อยู่ในไดเรกทอรีรากของไซต์ แต่อยู่ตรงกลางของโฟลเดอร์อื่น
การสร้างจะใช้เวลาน้อยกว่าสองชั่วโมง:
สามารถตรวจสอบความถูกต้องของการสร้างไฟล์โรบอตได้ในแผงผู้ดูแลเว็บ Yandex หากไฟล์แสดงข้อผิดพลาด ดัชนีจะแสดงขึ้นมาการสร้างไฟล์ robots.txt สำหรับไซต์ของคุณเป็นเรื่องง่าย เนื่องจากคุณยังไม่มีไฟล์
สิ่งนี้จะช่วยให้เว็บไซต์ของคุณพัฒนาโดยใช้เครื่องมือค้นหา
- คุณยังสามารถอ่านบทความอื่นๆ ของเราเกี่ยวกับวิธีการเมตาแท็ก i.htaccess
- ) เราสามารถไปยังส่วนที่ใช้งานได้จริงหรือแม่นยำยิ่งขึ้นไปที่การเตรียมสถานที่ก่อนส่งมอบ
- วันนี้เราจะมาดูวิธีการสร้าง robots.txt?
- robots.txt เป็นไฟล์ที่มีพารามิเตอร์การจัดทำดัชนีสำหรับเครื่องมือค้นหา
เนื่องจากการมีอยู่ของกระจกเหล่านี้ ทำให้ไซต์นี้มีเอกลักษณ์เฉพาะตัว
แน่นอนว่า PS ไม่ชอบเนื้อหาที่ไม่ซ้ำใคร ไม่อนุญาตให้ไซต์ดังกล่าวได้รับความนิยมในการค้นหาเพิ่มขึ้น
จะบันทึกไฟล์ robots.txt ได้อย่างไร?
- ไฟล์ใดๆ ที่ใช้ก่อนทำงานกับบริการภายนอกต่างๆ รวมถึงระบบเสียง จะต้องอยู่ภายใต้กฎการเติม (ไวยากรณ์) ต่อไปนี้ ฉันมีแนวโน้มที่จะอายมากขึ้นจากความอับอายอื่น;
- แกนกฎสำหรับหุ่นยนต์:
ชื่อของไฟล์ robots.txt สามารถขึ้นต้นด้วยตัวอักษรตัวเล็กได้
ไม่ควรเรียกว่า Robots.txt หรือ ROBOTS.TXT
- ขวา:รูปแบบข้อความ "Unix" รูปแบบนี้เหนือกว่าแผ่นจดบันทึกของ Windows ดังนั้นการสร้าง robots.txt จึงเป็นเรื่องง่าย;
- ผู้ประกอบการหุ่นยนต์และตอนนี้เรามาพูดถึงผู้ควบคุมหุ่นยนต์กันดีกว่า ในความคิดของฉันมีเกือบ 6 รายการ แต่มีเพียง 4 รายการที่จำเป็น:;
- ผู้ใช้ตัวแทน- โอเปอเรเตอร์นี้ใช้เพื่อกำหนดระบบการค้นหาที่จะกล่าวถึงกฎการทำดัชนี ด้วยความช่วยเหลือนี้ คุณสามารถระบุกฎที่แตกต่างกันสำหรับ PS ที่แตกต่างกันได้;
- ก้นหุ้น: ตัวแทนผู้ใช้: Yandexไม่อนุญาต - ตัวดำเนินการที่ป้องกันการจัดทำดัชนีของโฟลเดอร์ เพจ หรือไฟล์นี้;
ก้นหุ้น: Disallow: /page.html
ขวา:
เจ้าภาพ
- ตัวดำเนินการ CIM กำหนดที่อยู่หลัก (โดเมน) ให้กับไซต์ | ก้นหุ้น: โฮสต์: เว็บไซต์ |
ยานเดกซ์ | แผนผังเว็บไซต์ |
หุ่นยนต์ Yandex เข้าใจค่าการยิง เช่น 0.5 (ps วินาที) | หุ่นยนต์ Yandex เข้าใจค่าการยิง เช่น 0.5 (ps วินาที) |
- ระบุตามที่อยู่ของแผนที่บนเว็บไซต์ | - ระบุตามที่อยู่ของแผนที่บนเว็บไซต์ |
พื้นที่เก็บข้อมูล: แผนผังไซต์: site/sitemap.xml | ด้วยวิธีนี้ ฉันบล็อก Yandex ไม่ให้สร้างดัชนีหน้าเพจ ตอนนี้เครื่องมือค้นหา Yandex จะไม่อยู่ในดัชนีเลย |
หากมีการระบุ ระบบการค้นหาจะถูกระบุใน User-agent และกฎการจัดทำดัชนีจะถูกกำหนด
แกนเป็นแผ่นเล็ก:
ระบบโปชูโควา
ผู้ประกอบการหุ่นยนต์
พารามิเตอร์ตัวแทนผู้ใช้
ยานเดกซ์ | Mail.ru | เดินเตร่ |
สแต็คแรมเบลอร์ | / | หากคุณต้องการตั้งค่ากฎการทำดัชนีสำหรับระบบย่อยทั้งหมด คุณต้องสร้างรายการต่อไปนี้: |
ตัวแทนผู้ใช้: * | เพื่อ vikoristuvat เป็นพารามิเตอร์ของดาวหลัก | ผู้ดำเนินการรายนี้ยากกว่าเล็กน้อย ดังนั้นเขาจึงต้องระมัดระวังเรื่องเงินฝากของเขา |
ลงทะเบียนหลังจากตัวดำเนินการ User-agent | ความเมตตาใดๆ อาจนำไปสู่ผลลัพธ์ที่เลวร้ายยิ่งกว่านั้นอีก | ได้รับการคุ้มครองอะไรบ้าง? |
พารามิเตอร์ | ก้น | การจัดทำดัชนีของเว็บไซต์ |
ไม่อนุญาต: / | ไฟล์ที่ตัวเร่งปฏิกิริยารูท | /ชื่อไฟล์ |
ไม่อนุญาต: /page.html | ไฟล์ตามที่อยู่เพลง | /path/ชื่อของไฟล์ |
ไม่อนุญาต: /dir/page.html | การจัดทำดัชนีโฟลเดอร์ | /ชื่อโฟลเดอร์/ |
ฉันจะพูดอีกครั้ง: ให้ความเคารพอย่างมากเมื่อทำงานกับผู้ดำเนินการรายนี้
เป็นเรื่องปกติที่ผู้คนมักจะหลีกเลี่ยงการจัดทำดัชนีไซต์ของตน แล้วสงสัยว่าพวกเขาไม่สนใจอะไร
ไม่มีเหตุผลที่จะพูดเกี่ยวกับการตัดสินใจของผู้ปฏิบัติงาน
สิ่งที่เขียนไว้ข้างต้นก็เพียงพอแล้ว
คุณต้องการที่จะฉ้อโกงไฟล์ robots.txt จริง ๆ หรือไม่?
จับ:
ตัวแทนผู้ใช้: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: / trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: /tag โฮสต์: site.ru แผนผังเว็บไซต์:site.ru/sitemap.xmlก่อนที่จะพูด ตัวอย่างนี้สามารถใช้เป็นไฟล์อ้างอิง robots.txt โดยผู้ที่มีเว็บไซต์ที่ทำงานบน WordPress
อย่างไรก็ตาม คนอื่นๆ มีความอ่อนไหวต่อสมมติฐานง่ายๆ ที่ว่าเครื่องมือเพิ่มประสิทธิภาพที่ไม่สมบูรณ์อาจระบุกฎใน robots.txt อย่างไม่ถูกต้อง จึงปิดหน้าการจัดทำดัชนีที่จำเป็นและกีดกันหน้าการจัดทำดัชนีที่ไม่จำเป็น ฉันมีแนวโน้มที่จะอายมากขึ้นจากความอับอายอื่นผู้ที่มีไซต์ดั้งเดิมเขียนเองฮ่าฮ่าฮ่า น่าเสียดายที่ไม่มีสิ่งใดสำหรับทุกคน เพราะผิวมีความเป็นของตัวเองการสร้าง robots.txt ด้วยข้อมูลที่เราได้ให้ไว้นี้ไม่ใช่เรื่องสำคัญ
ลาก่อนเพื่อน! ฉันมีแนวโน้มที่จะอายมากขึ้นจากความอับอายอื่นรูปปั้นด้านหน้า
เอาล่ะสตั๊ด.
- นี่คือไฟล์หลักที่มีนามสกุล .txt ซึ่งสามารถสร้างได้โดยใช้แผ่นจดบันทึก Windows พื้นฐาน
ไฟล์นี้
ให้คำแนะนำในการจัดทำดัชนีสำหรับโรบ็อตการค้นหา
วางไฟล์ไดเร็กทอรีรากนี้ไว้บนโฮสติ้ง
เมื่อเข้าสู่ไซต์ โรบ็อตการค้นหาจะเปิดไฟล์ robots.txt ก่อนเพื่อดึงคำแนะนำก่อนดำเนินการต่อไป และค้นหาว่าไฟล์และไดเร็กทอรีใดได้รับการป้องกันก่อนที่จะสร้างดัชนี
ไฟล์
มีลักษณะแนะนำสำหรับระบบเสียง
4. อย่าบล็อกโรบ็อตการค้นหาเพียงตัวเดียว (เช่น Googlebot) ก่อนที่จะสร้างดัชนี และบล็อกโรบ็อตการค้นหาอื่นๆ ทั้งหมดก่อนที่จะสร้างดัชนี:
ตัวแทนผู้ใช้: googlebot ไม่อนุญาต:
ตัวแทนผู้ใช้: * Disallow: /admin/ Disallow: /wp-content/ Disallow: /images/
ตัวแทนผู้ใช้: * Disallow: /News/webnews.html Disallow: /content/page.php
ตัวแทนผู้ใช้: * Disallow: /page.php Disallow: /links.htm Disallow: /secret.html
กฎพื้นฐานสำหรับการเขียน robots.txt
เมื่อเขียนไฟล์ robots.txt มักมีการเปลี่ยนแปลง
เพื่อให้มีเอกลักษณ์เฉพาะตัว เรามาดูกฎพื้นฐานกัน:
1. คุณต้องเขียนแทนไฟล์จากอักษรตัวใหญ่
2. ในคำสั่ง Disallow คุณต้องระบุอย่างน้อยหนึ่งไดเร็กทอรีหรือหนึ่งไฟล์
3. แถว “User-agent” ไม่มีความผิดในการเว้นว่างไว้
หากคำแนะนำใช้กับหุ่นยนต์เสียงทั้งหมด ก็จำเป็นต้องระบุดาว และหากใช้กับหุ่นยนต์เสียงเฉพาะ ให้ระบุชื่อของมัน
4. ไม่สามารถแลกเปลี่ยนคำสั่ง Disallow และ User-agent ได้
5. สำหรับคำสั่ง Host ซึ่งใช้สำหรับ Yandex ที่อยู่ของเว็บไซต์ของเราจะต้องระบุโดยไม่มีโปรโตคอล HTTP และไม่มีเครื่องหมายทับต่อท้าย 6. เมื่อเลือกไดเร็กทอรีก่อนสร้างดัชนี จำเป็นต้องใส่เครื่องหมายทับด้วย 7. ตรวจสอบไฟล์ robots.txt ก่อนที่จะอัปโหลดไปยังเซิร์ฟเวอร์