لمحة عن ملف robots.txt

الأسئلة الشائعة حول برامج الروبوت

الأسئلة العامة حول برامج الروبوت

الأسئلة بشأن ملف Robots.txt

الأسئلة بشأن العلامة الوصفية لبرامج الروبوت

الأسئلة بشأن رأس X-Robots-Tag HTTP

هل نسينا أي أسئلة شائعة؟ لا تتردد في نشر مشاركة في منتدى مساعدة مشرفي المواقع للحصول على المزيد من المساعدة.

الأسئلة العامة حول برامج الروبوت

هل يحتاج موقع الويب التابع لي إلى ملف robots.txt؟

لا. عندما ينتقل Googlebot إلى أحد مواقع الويب، فإننا نطلب أولاً إذنًا بالزحف عن طريق محاولة استرداد ملف robots.txt. سيتم بشكل عام الزحف إلى أي موقع ويب لا يشتمل على ملف robots.txt أو علامات وصفية لبرامج الروبوت أو رؤوس X-Robots-Tag HTTP بالإضافة إلى فهرسته بشكلٍ عادي.

ما الطريقة التي يجب استخدامها؟

هذا يعتمد على بعض العوامل. وباختصار، توجد أسباب وجيهة لاستخدام كل من هذه الطرق:

  1. ملف robots.txt: يمكنك استخدامه إذا كان الزحف إلى المحتوى يتسبب في حدوث مشكلات على خادمك. على سبيل المثال، ربما تريد منع الزحف إلى نصوص برمجية غير محدودة للتقويم. يجب عليك عدم استخدام ملف robots.txt لحظر المحتوى الخاص (استخدم مصادقة من جانب الخادم بدلاً من ذلك)، أو معالجة تحديد العناوين الأساسية (راجع مركز المساعدة). وإذا كان ينبغي عليك التأكد من عدم فهرسة عنوان URL، فاستخدم علامة وصفية لبرامج الروبوت أو رأس X-Robots-Tag HTTP بدلاً من ذلك.
  2. العلامة الوصفية لبرامج الروبوت: يمكنك استخدامها إذا كنت تحتاج إلى التحكم في كيفية عرض صفحة HTML فردية في نتائج البحث (أو للتأكد من عدم عرضها).
  3. رأس X-Robots-Tag HTTP: يمكنك استخدام رأس X-Robots-Tag HTTP إذا كنت تحتاج إلى التحكم في كيفية عرض محتوى غير HTML في نتائج البحث (أو للتأكد من عدم عرضه).

هل يمكن استخدام هذه الطرق لإزالة موقع شخص آخر؟

لا، لأن هذه الطرق صالحة فقط للمواقع التي يمكنك فيها تعديل الشفرة أو إضافة الملفات. وإذا كنت تريد إزالة المحتوى من موقع لطرفٍ ثالث، فستحتاج إلى الاتصال بمشرف الموقع لمطالبته بإزالة المحتوى.

كيف يمكن إبطاء زحف Google إلى موقع الويب التابع لي؟

يمكنك بشكل عام تعديل إعداد معدّل الزحف في حسابك على Google Search Console.

الأسئلة بشأن ملف Robots.txt

أستخدم ملف robots.txt واحدًا مع عدة مواقع ويب. هل يمكن استخدام عنوان URL كامل بدلاً من مسار ذي صلة؟

لا، لأن الأوامر الموجودة في ملف robots.txt (باستثناء "Sitemap:") صالحة للمسارات ذات الصلة فقط.

هل يمكن وضع ملف robots.txt في دليل فرعي؟

لا، حيث يجب وضع الملف في أعلى دليل بموقع الويب.

أريد حظر مجلد خاص. هل يمكنني منع الأشخاص الآخرين من قراءة ملف robots.txt التابع لي؟

لا، لأنه يمكن قراءة ملف robots.txt بواسطة مختلف المستخدمين. إذا كان يتعين عدم عرض المجلدات أو أسماء ملفات المحتوى لعامة المستخدمين، فيجب ألا يتم إدراجها في ملف robots.txt. وليس من المستحسن عرض ملفات robots.txt مختلفة على أساس وكيل المستخدم أو السمات الأخرى.

هل يتعين عليّ تضمين أمر allow للسماح بالزحف؟

لا، لن تحتاج إلى تضمين أمر allow، لأنه يتم استخدام الأمر allow لإلغاء أوامر disallow في ملف robots.txt نفسه.

ماذا سيحدث إذا كان هناك خطأ في ملف robots.txt التابع لي أو استخدمت أمرًا غير متوافق؟

برامج زحف الويب مرنة جدًا بشكل عام ولن تتأثر عادة بالأخطاء الطفيفة في ملف robots.txt. بشكلٍ عام، فإن أسوأ ما يمكن أن يحدث هو تجاهل تلك الأوامر غير الصحيحة / غير المتوافقة. ويرجى الأخذ بعين الاعتبار أن محرك البحث Google لا يمكنه قراءة العقول عند تفسير ملف robots.txt؛ بل يتعين علينا تفسير ملف robots.txt الذي تمكّنا من جلبه. ومع ذلك، إذا كنت تدرك المشكلات الموجودة في ملف robots.txt، فسيكون من السهل عادةً إصلاحها.

ما البرنامج الذي يجب استخدامه لإنشاء ملف robots.txt؟

يمكنك استخدام أي برنامج يتم من خلاله إنشاء ملف نصي صالح. والبرامج الشائعة المستخدمة لإنشاء ملفات robots.txt هي Notepad أو TextEdit أو vi أو emacs. ويمكنك الاطّلاع على المزيد من المعلومات حول إنشاء ملفات robots.txt. وبعد إنشاء الملف، يمكنك التحقّق من صحته باستخدام أداة اختبار ملفات robots.txt.

في حال حظر Google من الزحف إلى صفحة باستخدام أمر disallow في ملف robots.txt، هل ستختفي هذه الصفحة من نتائج البحث؟

من المرجح في حال حظر Google من الزحف إلى صفحة أن تتم إزالتها من فهرس Google. 

ومع ذلك، لا يضمن الأمر Disallow في robots.txt عدم ظهور الصفحة في النتائج: ما زال من الممكن أن يقرر محرك البحث Google، على أساس المعلومات الخارجية، مثل الروابط الواردة، أن الصفحة ذات صلة بالبحث. إذا كنت تريد بوضوح حظر فهرسة صفحة ما، فيجب عليك بدلاً من ذلك استخدام العلامة الوصفية لبرامج الروبوت noindex أو رأس X-Robots-Tag HTTP. وفي هذه الحالة، يجب عدم منع الصفحة في ملف robots.txt، لأنه يجب الزحف إلى الصفحة لكي يتم عرض العلامة والالتزام بها.

كم من الوقت سيستغرق تطبيق التغييرات في ملف robots.txt التابع لي على نتائج البحث؟

أولاً، يجب تحديث ذاكرة التخزين المؤقت لملف robots.txt (نخزِّن المحتويات مؤقتًا بشكل عام لمدة تصل إلى يوم واحد). حتى بعد العثور على التغيير، فإن عملية الزحف والفهرسة عملية معقدة يمكن أن تستغرق أحيانًا بعض الوقت لعناوين URL الفردية، لذا من المستحيل إعطاء مخطط زمني دقيق. وتجدر الإشارة أيضًا إلى أنه حتى لو كان ملف robots.txt يمنع الوصول إلى أحد عناوين URL، فسيظل عنوان URL هذا مرئيًا في نتائج البحث على الرغم من أنه لا يمكن الزحف إليه. إذا كنت تريد تعجيل إزالة الصفحات التي حظرتها من Google، يرجى تقديم طلب إزالة على Google Search Console.

كيف يمكنني تعليق جميع عمليات الزحف مؤقتًا إلى موقع الويب التابع لي؟

يمكنك مؤقتًا تعليق جميع عمليات الزحف عن طريق عرض شفرة نتيجة HTTP 503 لجميع عناوين URL، بما في ذلك ملف robots.txt. وسيعيد ملف robots.txt المحاولة على نحو دوري حتى يتم الوصول مرة أخرى. ليس من المستحسن تغيير ملف robots.txt لمنع الزحف.

الخادم التابع لي ليس حساسًا لحالة الأحرف. كيف يمكنني منع الزحف إلى بعض المجلدات بالكامل؟

الأوامر في ملف robots.txt حساسة لحالة الأحرف. في هذه الحالة، من المستحسن التأكد من فهرسة نسخة واحدة فقط من عنوان URL باستخدام طرق تحديد العناوين الأساسية. حيث إن القيام بذلك سيسمح لك بتبسيط ملف robots.txt. إذا لم يكن من الممكن إجراء ذلك، فمن المستحسن إدراج المجموعات الشائعة لاسم المجلد، أو تقليله قدر الإمكان، باستخدام الحروف القليلة الأولى فقط بدلاً من الاسم بالكامل. على سبيل المثال، بدلاً من إدراج جميع صيغ الأحرف الكبيرة والصغيرة لـ "/MyPrivateFolder"، يمكنك إدراج صيغ "/MyP" (إذا كنت متأكدًا من عدم وجود عناوين URL أخرى قابلة للزحف بهذه الحروف الأولى نفسها). بدلاً من ذلك، قد يكون من المنطقي استخدام علامة وصفية لبرامج الروبوت أو رأس X-Robots-Tag HTTP بدلاً من ذلك، إذا لم يكن الزحف يتسبب في حدوث مشكلة.

أعرض الرسالة 403 "ممنوع" لجميع عناوين URL بما في ذلك ملف robots.txt. فما سبب استمرار الزحف إلى الموقع؟

تُعتبر شفرة نتيجة HTTP 403 - وكذلك جميع شفرات نتائج 4xx HTTP الأخرى - علامة تدل على أن ملف robots.txt غير موجود. وبسبب ذلك، ستفترض برامج الزحف بشكل عام أنها يمكن أن تزحف إلى جميع عناوين URL لموقع الويب. لحظر الزحف إلى موقع الويب، يجب عرض ملف robots.txt بشكل عادي (مع شفرة نتيجة 200 ‎"موافق" HTTP) مع تضمين أمر "منع" مناسب فيه.

الأسئلة بشأن العلامة الوصفية لبرامج الروبوت

هل العلامة الوصفية لبرامج الروبوت بديل لملف robots.txt؟

لا، لأن ملف robots.txt يتحكم في أي الصفحات يتم الوصول إليها. تتحكم العلامة الوصفية لبرامج الروبوت في ما إذا كان سيتم فهرسة الصفحة أم لا، ولكن لرؤية هذه العلامة، يجب الزحف إلى الصفحة. إذا كان الزحف إلى الصفحة يسبب حدوث مشاكل (على سبيل المثال، إذا كانت الصفحة تتسبب في حمل عالٍ على الخادم)، فيجب عليك استخدام ملف robots.txt. إذا كانت المسألة متعلقة فقط بعرض الصفحة أم لا في نتائج البحث، فيمكنك استخدام العلامة الوصفية لبرامج الروبوت.

هل يمكن استخدام العلامة الوصفية لبرامج الروبوت لحظر فهرسة جزء من الصفحة؟

لا، لأن العلامة الوصفية لبرامج الروبوت عبارة عن إعداد على مستوى الصفحة.

هل يمكنني استخدام العلامة الوصفية لبرامج الروبوت خارج قسم <head>؟

لا، لأنه يجب وضع العلامة الوصفية لبرامج الروبوت حاليًا في قسم <head> بالصفحة.

هل العلامة الوصفية لبرامج الروبوت تمنع الزحف؟

لا، لأنه حتى لو كانت العلامة الوصفية لبرامج الروبوت تشير إلى noindex، سنحتاج إلى إعادة الزحف إلى عنوان URL هذا أحيانًا للتحقق مما إذا كان قد تم تغيير العلامة الوصفية أم لا.

كيف يمكن مقارنة العلامة الوصفية لبرامج الروبوت nofollow بسمة رابط rel="nofollow"؟

يتم تطبيق العلامة الوصفية لبرامج الروبوت nofollow على جميع الروابط على إحدى الصفحات. ويتم تطبيق سمة رابط rel="nofollow" على روابط خاصة فقط على إحدى الصفحات. ولمزيد من المعلومات عن سمة رابط rel="nofollow"، يرجى مراجعة مقالات "مركز المساعدة" عن المحتوى غير المرغوب فيه الذي ينشئه المستخدم وrel="nofollow".

الأسئلة بشأن رأس X-Robots-Tag HTTP

كيف يمكن التحقق من X-Robots-Tag لعنوان URL؟

هناك طريقة بسيطة لعرض رؤوس الخادم تتمثل في استخدام فاحص رؤوس الخادم على الويب أو استخدام ميزة "جلب مثل Googlebot" على Google Search Console.

هل كان ذلك مفيدًا؟
كيف يمكننا تحسينها؟