معلومات عن ملف robots.txt

يحدّد ملف robots.txt عناوين URL التي يمكن لبرامج الزحف التابعة لمحركات البحث الوصول إليها على موقعك الإلكتروني. وغالبًا ما تُستخدم هذه المعلومات لتجنّب تحميل عبء زائد على موقعك الإلكتروني من خلال طلبات الزحف، وهي ليست آلية لإخفاء صفحة ويب من نتائج البحث على Google. أمّا إذا أردت إخفاء صفحة ويب من نتائج البحث على Google، فعليك حظر الفهرسة باستخدام علامة noindex أو حماية الصفحة بكلمة مرور.

إذا كنت تستخدم نظامًا لإدارة المحتوى (CMS)، مثل Wix أو Blogger، لن تحتاج على الأرجح إلى تعديل ملف robots.txt مباشرةً (أو لن تتمكن من ذلك). وبدلاً من ذلك، قد يعرض موفّر الخدمة صفحةً لإعدادات البحث أو آلية أخرى لتوجيه محركات البحث بالزحف إلى صفحتك أو عدم الزحف إليها.

إذا كنت تريد إخفاء إحدى صفحاتك عن محركات البحث أو إظهارها لها، يمكنك البحث عن تعليمات حول تعديل مستوى ظهور الصفحة في محركات البحث على نظام إدارة المحتوى (CMS)، مثل البحث عن "كيفية إخفاء صفحة من محركات البحث في Wix‏".

ما الغرض من استخدام ملف robots.txt؟

يتم استخدام ملف robots.txt بشكل أساسي لإدارة عدد زيارات الزاحف إلى موقعك الإلكتروني، ويُستخدم عادةً لإخفاء ملف من نتائج البحث على Google، حسب نوع الملف:

تأثير robots.txt في مختلف أنواع الملفات

صفحة ويب

تأثير robots.txt في مختلف أنواع الملفات
صفحة ويب	يمكنك استخدام ملف robots.txt لصفحات الويب (بتنسيق HTML أو PDF أو تنسيق آخر ليس تنسيق وسائط ويمكن أن يقرأه محرّك بحث Google), لإدارة حركة الزحف إذا كنت تعتقد أنّه سيتم تحميل عبء زائد على الخادم من خلال الطلبات الواردة من زاحف Google، أو لتجنُّب الزحف إلى صفحات غير مهمة أو متشابهة على موقعك الإلكتروني. تحذير: لا تستخدِم ملف robots.txt كوسيلة لإخفاء صفحاتك على الويب من نتائج "بحث Google‏" (بما في ذلك ملفات PDF وغير ذلك من تنسيقات الملفات النصية التي يدعمها محرّك بحث Google). إذا كانت صفحات أخرى توجّه المستخدمين إلى صفحتك باستخدام نص وصفي، قد يظل بإمكان محرّك البحث Google فهرسة عنوان URL بدون زيارة الصفحة. لحظر صفحتك من الظهور في نتائج البحث، استخدِم طريقة أخرى، مثل الحماية بكلمة مرور أو إضافة العلامة `noindex`. إذا تم حظر صفحة الويب باستخدام ملف robots.txt، قد يستمر عنوان URL في الظهور في نتائج البحث، ولكن نتيجة البحث لن تتضمّن وصفًا. وسيتم استبعاد ملفات الصور والفيديو وملفات PDF والملفات الأخرى التي ليست بتنسيق HTML من الزحف أيضًا، إلا إذا تمت الإحالة إليها عن طريق صفحات أخرى يُسمح بالزحف إليها. إذا ظهرت لك نتيجة البحث هذه لصفحتك وأردت إصلاحها، يمكنك إزالة مُدخل robots.txt الذي يحظر الصفحة. أما إذا أردت إخفاء الصفحة تمامًا من "بحث Google‏"، فيمكنك استخدام طريقة أخرى.
ملف وسائط	يمكنك استخدام ملف robots.txt لإدارة حركة الزحف بالإضافة إلى منع ظهور ملفات الصور والفيديو والملفات الصوتية في نتائج "بحث Google‏". ولن يمنع ذلك الصفحات الأخرى أو المستخدمين الآخرين من إضافة روابط تؤدي إلى ملف الصور أو الفيديو أو الصوت الخاص بك. يمكنك قراءة المزيد حول منع ظهور الصور على Google. يمكنك الاطّلاع على مزيد من المعلومات عن كيفية إزالة ملفات الفيديو أو منع ظهورها على Google.
ملف موارد	يمكنك استخدام ملف robots.txt لحظر ملفات الموارد، مثل الصور أو النصوص البرمجية أو ملفات الأنماط غير المهمة، إذا كنت تعتقد أنّ الصفحات التي يتم تحميلها بدون هذه الموارد لن تتأثر كثيرًا بعدم ظهور هذه الملفات فيها. ولا تحظر هذه الموارد إذا كان عدم توفّرها يجعل من الصعب على زاحف Google فهم محتوى الصفحة، وإلا لن يتمكن محرّك بحث Google من إتمام عملية تحليل صفحاتك التي تعتمد على هذه الموارد على نحو جيد.

يمكنك استخدام ملف robots.txt لصفحات الويب (بتنسيق HTML أو PDF أو تنسيق آخر ليس تنسيق وسائط ويمكن أن يقرأه محرّك بحث Google), لإدارة حركة الزحف إذا كنت تعتقد أنّه سيتم تحميل عبء زائد على الخادم من خلال الطلبات الواردة من زاحف Google، أو لتجنُّب الزحف إلى صفحات غير مهمة أو متشابهة على موقعك الإلكتروني.

تحذير: لا تستخدِم ملف robots.txt كوسيلة لإخفاء صفحاتك على الويب من نتائج "بحث Google‏" (بما في ذلك ملفات PDF وغير ذلك من تنسيقات الملفات النصية التي يدعمها محرّك بحث Google).

إذا كانت صفحات أخرى توجّه المستخدمين إلى صفحتك باستخدام نص وصفي، قد يظل بإمكان محرّك البحث Google فهرسة عنوان URL بدون زيارة الصفحة. لحظر صفحتك من الظهور في نتائج البحث، استخدِم طريقة أخرى، مثل الحماية بكلمة مرور أو إضافة العلامة noindex.

إذا تم حظر صفحة الويب باستخدام ملف robots.txt، قد يستمر عنوان URL في الظهور في نتائج البحث، ولكن نتيجة البحث لن تتضمّن وصفًا. وسيتم استبعاد ملفات الصور والفيديو وملفات PDF والملفات الأخرى التي ليست بتنسيق HTML من الزحف أيضًا، إلا إذا تمت الإحالة إليها عن طريق صفحات أخرى يُسمح بالزحف إليها. إذا ظهرت لك نتيجة البحث هذه لصفحتك وأردت إصلاحها، يمكنك إزالة مُدخل robots.txt الذي يحظر الصفحة. أما إذا أردت إخفاء الصفحة تمامًا من "بحث Google‏"، فيمكنك استخدام طريقة أخرى.

ملف وسائط

يمكنك استخدام ملف robots.txt لإدارة حركة الزحف بالإضافة إلى منع ظهور ملفات الصور والفيديو والملفات الصوتية في نتائج "بحث Google‏". ولن يمنع ذلك الصفحات الأخرى أو المستخدمين الآخرين من إضافة روابط تؤدي إلى ملف الصور أو الفيديو أو الصوت الخاص بك.

ملف موارد يمكنك استخدام ملف robots.txt لحظر ملفات الموارد، مثل الصور أو النصوص البرمجية أو ملفات الأنماط غير المهمة، إذا كنت تعتقد أنّ الصفحات التي يتم تحميلها بدون هذه الموارد لن تتأثر كثيرًا بعدم ظهور هذه الملفات فيها. ولا تحظر هذه الموارد إذا كان عدم توفّرها يجعل من الصعب على زاحف Google فهم محتوى الصفحة، وإلا لن يتمكن محرّك بحث Google من إتمام عملية تحليل صفحاتك التي تعتمد على هذه الموارد على نحو جيد.

معرفة حدود طريقة الحظر باستخدام ملف robots.txt

قبل إنشاء أو تعديل ملف robots.txt، عليك معرفة حدود طريقة حظر عناوين URL هذه. واستنادًا إلى أهدافك وحالتك، قد تحتاج إلى استخدام آليات أخرى لضمان عدم إمكانية العثور على عناوين URL الخاصة بموقعك الإلكتروني على الويب.

قد لا تتوافق قواعد ملف robots.txt مع بعض محرّكات البحث.
ولا يمكن للتعليمات في ملفات robots.txt فرض سلوك محدد على الزاحف إلى موقعك الإلكتروني، لأنّ الزاحف هو من يتّخذ قرار اتّباع هذه التعليمات أم لا. وعلمًا أنّ Googlebot وبرامج زحف الويب الأخرى الحسنة السمعة تتّبع التعليمات الواردة في ملف robots.txt، قد لا تمتثل برامج الزحف الأخرى لها. وبالتالي، إذا أردت حماية المعلومات من برامج زحف الويب، ننصحك باستخدام طرق حظر أخرى مثل حماية الملفات الخاصة على الخادم بكلمة مرور.
يفسّر كل زاحف البنية بطريقة مختلفة.
إنّ برامج زحف الويب الحسنة السمعة تتّبع القواعد الواردة في ملف robots.txt، إلا أنّ كل زاحف يفسّر القواعد بشكل مختلف. لذا عليك معرفة البنية الصحيحة للتعامل مع مختلف برامج زحف الويب، لأن بعض هذه البرامج قد لا يتمكن من فهم إرشادات معينة.
سيظل بالإمكان فهرسة صفحة تم حظرها باستخدام ملف robot.txt إذا تمت إضافة رابط يؤدي إليها في مواقع إلكترونية أخرى.
ومع أنّ محرّك بحث Google لن يزحف إلى المحتوى الذي تم حظره باستخدام ملف robots.txt أو يفهرسه، قد نعثر على عنوان URL غير مسموح بالوصول إليه ونفهرسه إذا تمت إضافة روابط تؤدي إليه في أماكن أخرى على الويب. ونتيجة لذلك، يمكن أن يستمر ظهور عنوان URL وربما المعلومات الأخرى المتاحة بشكل علني، مثل نص الرابط في الروابط المؤدية إلى الصفحة، وذلك في نتائج "بحث Google‏". لمنع ظهور عنوان URL في نتائج "بحث Google‏" على نحو سليم، يجب حماية الملفات على الخادم باستخدام كلمة مرور، أو استخدام العلامة أو عنوان الاستجابة ‎noindex meta‎، أو إزالة الصفحة تمامًا.

إنشاء ملف robots.txt أو تعديله

إذا تبيّن لك أنّك بحاجة إلى ملف robots.txt، تعرَّف على كيفية إنشاء ملف robots.txt. أو إذا سبق أن أنشأت ملف robots.txt، تعرَّف على كيفية تعديله.

هل يهمّك معرفة المزيد من المعلومات؟ يمكنك الاطّلاع على المراجع التالية: