راهنمای کامل فایل robots.txt | آموزش تنظیم و مثال‌های کاربردی

آموزش جامع robots.txt

مقدمه

یکی از مهم‌ترین ابزارهای کنترل دسترسی ربات‌های موتورهای جستجو به بخش‌های مختلف سایت، فایل robots.txt است. این فایل ساده اما بسیار کاربردی، به مدیران وب‌سایت امکان می‌دهد تا مشخص کنند کدام صفحات یا دایرکتوری‌ها باید توسط خزنده‌های موتور جستجو بررسی شوند و کدام بخش‌ها نباید ایندکس شوند.
اگرچه این فایل فقط یک فایل متنی ساده است، اما اشتباه در تنظیم آن می‌تواند باعث حذف کامل سایت از نتایج گوگل یا نمایش محتوای بی‌ارزش به کاربران شود.

فایل robots.txt چیست؟

  • فایلی متنی در ریشه (root) سایت است که به خزنده‌ها (Crawlers) می‌گوید چه بخش‌هایی از سایت را می‌توانند بخزند (crawl) و چه بخش‌هایی را نباید بررسی کنند.

  • این فایل تنها یک “راهنما” برای ربات‌هاست و الزام ۱۰۰٪ ندارد، اما بیشتر موتورهای جستجو (مثل Google و Bing) آن را رعایت می‌کنند.

  • مکان استاندارد آن در آدرس:

https://www.example.com/robots.txt

کاربردهای robots.txt

  1. جلوگیری از ایندکس شدن صفحات غیرضروری (مثل صفحات مدیریت یا لاگین).

  2. بهینه‌سازی بودجه خزش (Crawl Budget) با محدود کردن دسترسی به صفحات کم‌اهمیت.

  3. جلوگیری از ایندکس محتوای تکراری.

  4. کنترل دسترسی به فایل‌های رسانه‌ای مثل تصاویر یا ویدئوها.

  5. اجازه یا عدم اجازه به ربات‌های خاص برای دسترسی به سایت.

ساختار کلی فایل robots.txt

فایل robots.txt از دو بخش اصلی تشکیل می‌شود:

  1. User-agent: مشخص می‌کند دستور برای کدام ربات است.

  2. Disallow / Allow: تعیین می‌کند کدام مسیرها مسدود یا مجاز باشند.

مثال ساده:

User-agent: *
Disallow: /admin/
Allow: /

توضیح:

  • User-agent: * یعنی این دستور برای همه ربات‌ها اعمال شود.

  • Disallow: /admin/ یعنی بخش ادمین ایندکس نشود.

  • Allow: / یعنی باقی بخش‌ها مجاز هستند.

دستورات مهم در robots.txt

  1. Disallow
    برای جلوگیری از دسترسی ربات‌ها به مسیر مشخص:

Disallow: /private/
  1. Allow
    برای مجاز کردن یک مسیر خاص در میان مسیرهای مسدودشده:

Disallow: /images/
Allow: /images/public/
  1. User-agent
    برای تعیین ربات خاص:

User-agent: Googlebot
Disallow: /test/
  1. Sitemap
    می‌توان نقشه سایت (sitemap.xml) را معرفی کرد:

Sitemap: https://www.example.com/sitemap.xml

مثال‌های کاربردی

مثال ۱: جلوگیری از ایندکس صفحه لاگین
User-agent: *
Disallow: /login/
Disallow: /wp-admin/
مثال ۲: اجازه دسترسی کامل به همه ربات‌ها
User-agent: *
Allow: /
مثال ۳: بلاک کردن تصاویر از گوگل
User-agent: Googlebot-Image
Disallow: /
مثال ۴: معرفی چند Sitemap
Sitemap: https://www.example.com/sitemap1.xml
Sitemap: https://www.example.com/sitemap2.xml

خطاهای رایج در تنظیم robots.txt

خطاهای رایج در تنظیم robots.txt

  1. مسدود کردن کل سایت به‌طور ناخواسته:

User-agent: *
Disallow: /

(این دستور باعث می‌شود هیچ صفحه‌ای ایندکس نشود!)

  1. اعتماد بیش از حد به robots.txt
    برخی فکر می‌کنند اگر صفحه‌ای در robots.txt مسدود شود، هیچ‌وقت در گوگل نمایش داده نمی‌شود. اما واقعیت این است که اگر لینک آن صفحه در سایت‌های دیگر وجود داشته باشد، ممکن است در نتایج گوگل ظاهر شود (بدون محتوای داخلی).

  2. فراموش کردن معرفی Sitemap
    اضافه نکردن Sitemap در robots.txt باعث می‌شود خزنده‌ها برای پیدا کردن صفحات اصلی زمان بیشتری صرف کنند.

ابزار تست robots.txt

برای بررسی صحت فایل:

جمع‌بندی

فایل robots.txt یکی از ساده‌ترین اما مهم‌ترین فایل‌های سئو تکنیکال است. با تنظیم درست آن می‌توانید:

  • دسترسی خزنده‌ها به صفحات غیرضروری را محدود کنید.

  • بودجه خزش سایت را بهینه کنید.

  • از ایندکس شدن صفحات تکراری یا بی‌اهمیت جلوگیری کنید.

اما مراقب باشید! یک اشتباه کوچک در این فایل می‌تواند کل سایت شما را از نتایج گوگل حذف کند.

مطلب قبلی
سئو موبایل (Mobile SEO) | راهنمای کامل بهینه‌سازی سایت برای موبایل
مطلب بعدی
نقشه سایت (XML Sitemap) | آموزش ایجاد و ثبت در Google Search Console
برای نوشتن دیدگاه باید وارد بشوید.
keyboard_arrow_up