منع الدخول إلى عناوين URL باستخدام ملف robots.txt

التعرّف على ملفات robots.txt

ما المقصود بملف robots.txt؟

يُفيد ملف robots.txt file برامج زحف محركات البحث بالصفحات أو الملفات التي يمكن للزاحف طلبها من موقعك الإلكتروني أو لا يمكنه ذلك. وغالبًا ما تُستخدم هذه المعلومات لتجنّب إثقال موقعك بالطلبات وليست آلية لإخفاء صفحة من نتائج البحث على Google. ولإخفاء صفحة من نتائج البحث على Google، يجب استخدام علامات أو توجيهات noindex، أو حماية صفحتك بكلمة مرور.

لماذا يتم استخدام robots.txt؟

يتم استخدام ملف robots.txt في المقام الأول لإدارة عدد زيارات الزاحف إلى موقعك الإلكتروني وفي بعض الأحيان لإخفاء صفحة من نتائج البحث على Google، استنادًا إلى نوع الملف.

نوع الصفحة إدارة عدد الزيارات الإخفاء من Google الوصف
صفحة ويب

بالنسبة إلى صفحات الويب (بتنسيق HTML أو PDF أو غيرها من التنسيقات التي يمكن أن يقرأها Google بخلاف الوسائط)، يمكن استخدام ملف robots.txt لإدارة حركة الزحف إذا كنت تعتقد أن خادمك سيكون مثقلاً بالطلبات الواردة من زاحف Google، أو لتجنب الزحف إلى صفحات غير مهمة أو مماثلة على موقعك.

يجب عدم استخدام robots.txt كوسيلة لإخفاء صفحاتك على الويب من نتائج بحث Google. وذلك لأنه إذا كانت صفحات أخرى تعمل على التوجيه إلى صفحتك باستخدام نص وصفي، قد تتم فهرسة صفحتك بدون زيارة الصفحة. إذا كنت تريد حظر صفحتك من نتائج البحث، يمكنك استخدام طريقة مثل الحماية بكلمة مرور أو توجيه noindex.

إذا تم حظر صفحتك على الويب باستخدام ملف robots.txt، قد تظهر مع ذلك في نتائج البحث، ولكن نتيجة البحث لن تتضمن وصفًا وستبدو على النحو الموضّح هنا. وسيتم استبعاد ملفات الصور والفيديو وملفات PDF والملفات الأخرى بخلاف الملفات بتنسيق HTML. إذا ظهرت لك نتيجة البحث هذه لصفحتك وأردت إصلاحها، يمكنك إزالة مُدخل robots.txt الذي يحظر الصفحة. أما إذا كنت تريد إخفاء الصفحة تمامًا من البحث، يمكنك استخدام طريقة أخرى.

ملف وسائط

يمكنك استخدام robots.txt لإدارة حركة الزحف بالإضافة إلى منع ظهور ملفات الصور والفيديو والملفات الصوتية في نتائج البحث على Google. (تجدر الإشارة إلى أن ذلك لن يمنع الصفحات الأخرى أو المستخدمين الآخرين من وضع روابط إلى ملف الصور/الفيديو/الصوت الخاص بك.)

ملف الموارد

يمكنك استخدام robots.txt لحظر ملفات الموارد مثل الصور أو النصوص البرمجية أو ملفات الأنماط غير المهمة، إذا كنت تعتقد أن الصفحات التي يتم تحميلها بدون هذه الموارد لن تتأثر كثيرًا بفقدها. ولكن إذا كان غياب هذه الموارد سيجعل من الصعب على زاحف Google استيعاب محتوى الصفحة، يجب عدم حظرها. وإلا فلن يتمكن محرك بحث Google من إتمام عملية تحليل صفحاتك التي تعتمد على هذه الموارد على نحو جيد.

أستخدم إحدى خدمات استضافة المواقع

إذا كنت تستخدم إحدى خدمات استضافة المواقع، مثل Wix أو Drupal أو Blogger، لن تحتاج على الأرجح إلى تعديل ملف robots.txt مباشرة (أو لن يكون بإمكانك ذلك). وبدلاً من ذلك، قد يعرض موفّر الخدمة إعدادًا للصفحة أو آلية أخرى لتوجيه محركات البحث للزحف إلى صفحتك أو عدم الزحف إليها.

لمعرفة ما إذا كان محرّك بحث Google قد زحَف إلى صفحتك أم لا، ابحث عن عنوان URL للصفحة على Google.

إذا كنت تريد إخفاء (أو إظهار) صفحتك، يمكنك إضافة (أو إزالة) متطلبات تسجيل الدخول إلى الصفحة والبحث في Google عن تعليمات حول تعديل مستوى ظهور صفحتك في محركات البحث على مضيف موقعك، على سبيل المثال: إخفاء صفحة من محركات البحث باستخدام wix.

فهم حدود robots.txt

قبل إنشاء ملف robots.txt أو تعديله، تجدر بك معرفة حدود طريقة حظر عناوين URL هذه، ففي بعض الأحيان، قد تحتاج إلى استخدام آليات أخرى لضمان عدم إمكانية العثور على عناوين URL لموقعك على الويب.

  • إرشادات ملف Robots.txt عبارة عن توجيهات فقط
    لا يمكن لإرشادات ملفات robots.txt فرض سلوك معين على الزاحف إلى موقعك الإلكتروني بل إنها تعمل بمثابة توجيهات للزواحف أثناء وصولها إلى موقعك، فبينما يطيع Googlebot وزواحف الويب الأخرى حسنة السمعة إرشادات ملف robots.txt، فقد لا تطيعها الزواحف الأخرى. لذا إذا أردت الحفاظ على المعلومات آمنة من زواحف الويب، فمن الأفضل استخدام طرق حظر أخرى مثل حماية الملفات الخاصة على الخادم بكلمة مرور.
  • تفسر الزواحف المختلفة البينة بشكل متباين
    بالرغم من اتباع زواحف الويب طيبة السمعة للتوجهات الواردة في ملف robots.txt، فقد يفسر كل زاحف التوجهات بشكل مختلف، عليك معرفة البنية الصحيحة للتعامل مع زواحف ويب مختلفة، نظرًا لأن بعض هذه البرامج قد لا يتمكن من استيعاب إرشادات معينة.
  • سيظل بالإمكان فهرسة صفحة تم حظرها باستخدام robot.txt إذا تم الربط إليها من مواقع أخرى
    بينما لا يزحف محرك البحث Google إلى المحتوى المحظور باستخدام robots.txt أو يفهرسه، قد نعثر على عنوان URL غير مسموح بالوصول إليه ونفهرسه إذا تم الربط إليه من أماكن أخرى على الويب. ونتيجة لذلك، يمكن أن يستمر ظهور عنوان URL وربما المعلومات الأخرى المتاحة بشكل عام مثل نص الرابط في الروابط المؤدية إلى الصفحة، وذلك في نتائج بحث Google. لمنع ظهور عنوان URL في نتائج بحث Google على نحو سليم، يلزمك حماية الملفات على خادمك باستخدام كلمة مرور أو استخدام علامة noindex الوصفية أو رأس الاستجابة (أو إزالة الصفحة تمامًا).
ملاحظة: قد يؤدي الجمع بين توجيهات متعددة للزحف والفهرسة إلى تعطيل بعض التوجيهات للأخرى، لذا تعرّف على كيفية التهيئة الصحيحة للتوجيهات بقراءة الجمع بين الزحف والفهرسة / قسم توجيهات العرض في مستندات Google Developers.

اختبار صفحة لمعرفة حالة حظرها من ملف robots.txt

يمكنك اختبار ما إذا تم حظر صفحة أو مورد بواسطة قاعدة robots.txt.

لاختبار توجيهات noindex، استخدم أداة فحص عنوان URL.

هل كانت هذه المقالة مفيدة؟
كيف يمكننا تحسينها؟