Robots.txt
robots.txt एक वेबसाइट की रूट निर्देशिका में रखी गई एक टेक्स्ट फ़ाइल है जो खोज इंजन क्रॉलर को निर्देश देती है कि उन्हें किन पृष्ठों या फ़ाइलों का अनुरोध करने की अनुमति है या उनकी अनुमति नहीं है। यह नियंत्रित करने में रक्षा की पहली पंक्ति है कि बॉट आपकी साइट के बुनियादी ढांचे के साथ कैसे इंटरैक्ट करते हैं और क्रॉल बजट को अनुकूलित करने में मदद करते हैं।
बॉट्स को आपकी सर्वोत्तम सामग्री की ओर निर्देशित करना
Google आपकी साइट के लिए एक सीमित "क्रॉल बजट" आवंटित करता है—उसके बॉट प्रति दिन कितने पृष्ठों को क्रॉल करेंगे। यदि बॉट व्यवस्थापक पैनल, डुप्लिकेट प्रिंटर-अनुकूल पृष्ठों या कार्ट/चेकआउट URL को क्रॉल करने में समय बर्बाद करते हैं, तो वे आपके मूल्यवान अनुवादित उत्पाद पृष्ठों को याद कर सकते हैं। robots.txt बॉट्स से कहता है "/admin/ पर समय बर्बाद न करें, इसके बजाय /en/, /fr/, /de/ पर ध्यान केंद्रित करें। अंतरराष्ट्रीय साइटों के लिए, आपको भाषा ऑटो-डिटेक्शन रीडायरेक्ट पेज, एपीआई एंडपॉइंट और ऐसे सभी तकनीकी यूआरएल को क्रॉल करने की अनुमति नहीं देनी चाहिए, जिन्हें इंडेक्स करने की आवश्यकता नहीं है. हालांकि, कभी भी गलती से अपनी भाषा निर्देशिकाओं को ब्लॉक न करें - यह एक भयावह गलती है जो सभी अंतरराष्ट्रीय एसईओ को मारती है।
क्रॉल एक्सेस की अनुमति देना बनाम अस्वीकार करना
वास्तविक दुनिया पर प्रभाव
साइट का कोई robots.txt नहीं है, बॉट 10,000 कार्ट URL क्रॉल करते हैं
क्रॉल बजट बर्बाद हो गया, उत्पाद पृष्ठ धीरे-धीरे क्रॉल हो गए
नए उत्पादों को खोज में प्रदर्शित होने में हफ़्तों लग जाते हैं
robots.txt जोड़ें: /cart/, /checkout/, /api/ को अस्वीकार करें
बॉट उत्पाद और भाषा पृष्ठों पर 100% ध्यान केंद्रित करते हैं
24 घंटे के भीतर नए उत्पादों को अनुक्रमित किया गया