مقدمه
یکی از مهمترین ابزارهای کنترل دسترسی رباتهای موتورهای جستجو به بخشهای مختلف سایت، فایل robots.txt است. این فایل ساده اما بسیار کاربردی، به مدیران وبسایت امکان میدهد تا مشخص کنند کدام صفحات یا دایرکتوریها باید توسط خزندههای موتور جستجو بررسی شوند و کدام بخشها نباید ایندکس شوند.
اگرچه این فایل فقط یک فایل متنی ساده است، اما اشتباه در تنظیم آن میتواند باعث حذف کامل سایت از نتایج گوگل یا نمایش محتوای بیارزش به کاربران شود.
فایل robots.txt چیست؟
فایلی متنی در ریشه (root) سایت است که به خزندهها (Crawlers) میگوید چه بخشهایی از سایت را میتوانند بخزند (crawl) و چه بخشهایی را نباید بررسی کنند.
این فایل تنها یک “راهنما” برای رباتهاست و الزام ۱۰۰٪ ندارد، اما بیشتر موتورهای جستجو (مثل Google و Bing) آن را رعایت میکنند.
مکان استاندارد آن در آدرس:
کاربردهای robots.txt
جلوگیری از ایندکس شدن صفحات غیرضروری (مثل صفحات مدیریت یا لاگین).
بهینهسازی بودجه خزش (Crawl Budget) با محدود کردن دسترسی به صفحات کماهمیت.
جلوگیری از ایندکس محتوای تکراری.
کنترل دسترسی به فایلهای رسانهای مثل تصاویر یا ویدئوها.
اجازه یا عدم اجازه به رباتهای خاص برای دسترسی به سایت.
ساختار کلی فایل robots.txt
فایل robots.txt از دو بخش اصلی تشکیل میشود:
User-agent: مشخص میکند دستور برای کدام ربات است.
Disallow / Allow: تعیین میکند کدام مسیرها مسدود یا مجاز باشند.
مثال ساده:
توضیح:
User-agent: *
یعنی این دستور برای همه رباتها اعمال شود.Disallow: /admin/
یعنی بخش ادمین ایندکس نشود.Allow: /
یعنی باقی بخشها مجاز هستند.
دستورات مهم در robots.txt
Disallow
برای جلوگیری از دسترسی رباتها به مسیر مشخص:
Allow
برای مجاز کردن یک مسیر خاص در میان مسیرهای مسدودشده:
User-agent
برای تعیین ربات خاص:
Sitemap
میتوان نقشه سایت (sitemap.xml) را معرفی کرد:
مثالهای کاربردی
مثال ۱: جلوگیری از ایندکس صفحه لاگین
مثال ۲: اجازه دسترسی کامل به همه رباتها
مثال ۳: بلاک کردن تصاویر از گوگل
مثال ۴: معرفی چند Sitemap
خطاهای رایج در تنظیم robots.txt
مسدود کردن کل سایت بهطور ناخواسته:
(این دستور باعث میشود هیچ صفحهای ایندکس نشود!)
اعتماد بیش از حد به robots.txt
برخی فکر میکنند اگر صفحهای در robots.txt مسدود شود، هیچوقت در گوگل نمایش داده نمیشود. اما واقعیت این است که اگر لینک آن صفحه در سایتهای دیگر وجود داشته باشد، ممکن است در نتایج گوگل ظاهر شود (بدون محتوای داخلی).فراموش کردن معرفی Sitemap
اضافه نکردن Sitemap در robots.txt باعث میشود خزندهها برای پیدا کردن صفحات اصلی زمان بیشتری صرف کنند.
ابزار تست robots.txt
برای بررسی صحت فایل:
Google Search Console → بخش robots.txt Tester
ابزارهای آنلاین مانند:
جمعبندی
فایل robots.txt یکی از سادهترین اما مهمترین فایلهای سئو تکنیکال است. با تنظیم درست آن میتوانید:
دسترسی خزندهها به صفحات غیرضروری را محدود کنید.
بودجه خزش سایت را بهینه کنید.
از ایندکس شدن صفحات تکراری یا بیاهمیت جلوگیری کنید.
اما مراقب باشید! یک اشتباه کوچک در این فایل میتواند کل سایت شما را از نتایج گوگل حذف کند.