فایل robots.txt یک فایل متنی است با فرمت TXT، که به خزنده های موتور جستجو می فهماند که به کدام URL ها در سایت دسترسی دارند و به کدام URL ها خیر، این امر عموما برای جلوگیری از بارگذاری بیش از حد سایت شما (Over Loading) توسط درخواست ها ارسال شده به سمت سرور کاربرد دارد، ولی دقت کنید استفاده از فایل robots.txt راه مناسبی برای از دسترس خارج کردن صفحات وب برای گوگل نیست، برای آشنایی بیشتر با این فایل و موارد مربوط به آن تا انتهای مقاله همراه ما باشید.
کاربرد فایل robots.txt؟
کاربرد فایل robots.txt در درجه اول برای مدیریت ترافیک خزنده ها به سایت شما و ایندکس نشدن برخی از فایل ها در دیتابیس و نتایج جستجو گوگل استفاده می شود و معمولاً بسته به نوع فایل، آن را از ایندکس شدن توسط گوگل و نمایش در نتایج موتورهای جستجو دور نگه می دارد.
کاربرد فایل robots.txt در صفحات وب
شما می توانید از یک فایل robots.txt برای صفحات وب HTML ،PDF یا سایر فرمت های غیر رسانه ای که گوگل می تواند آن ها را بخواند استفاده کنید، اگر فکر می کنید سرور شما به دلیل درخواست های خزنده گوگل تحت تأثیر و فشار قرار می گیرد، یا برای جلوگیری از خزیدن در صفحات بی اهمیت یا مشابه در سایت خود، می توانید ترافیک و خزیدن خزنده ها را مدیریت کنید.
از فایل robots.txt به عنوان ابزاری برای پنهان کردن صفحات وب خود از نتایج جستجوی گوگل استفاده نکنید، زیرا گوگل همچنان می تواند URL را بدون مراجعه به صفحه ایندکس کند، اگر می خواهید صفحه خود را برای نتایج جستجو مسدود کنید، از روش دیگری مانند حفاظت توسط رمز عبور یا noindex استفاده کنید.
اگر یک صفحه وب شما توسط فایل robots.txt مسدود شده باشد، URL آن همچنان می تواند در نتایج جستجو قرار بگیرد، اما نتیجه جستجو توضیحی نخواهد داشت، یعنی فایل های تصاویر، فایل های ویدئویی، PDF، و سایر فایل های غیر از HTML حذف خواهند شد، اگر صفحه ای از سایت خود را در نتایج جستجو به این صورت می بینید برای برطرف کردن مشکل آن، ورودی robots.txt که آن صفحه را مسدود می کند حذف کنید و اگر می خواهید صفحه را به طور کامل از جستجو پنهان کنید، از روش دیگری استفاده کنید.
کاربرد فایل robots.txt برای فایل های رسانه ای
از یک فایل robots.txt می توانید برای جلوگیری از ظاهر شدن فایل های تصویری، ویدیویی و صوتی در نتایج جستجوی گوگل استفاده کنید، ولی این فایل نمی تواند مانع دسترسی از طریق لینک های سایر صفحات به فایل های رسانه ای شما شود.
برای جلوگیری از نمایش تصاویر سایت شما در نتایج جستجوی گوگل، یک فایل robots.txt را به سرور اضافه کنید که تصویر را مسدود کند، در حالی که حذف تصویر از نتایج جستجو از طریق این فایل بیشتر از استفاده از ابزار Remove URL طول می کشد ولی استفاده از فایل robots.txt انعطاف پذیری و کنترل بیشتری به شما می دهد، همچنین برای همه موتورهای جستجو اعمال می شود، در حالی که ابزار حذف URL ها فقط برای حذف آدرس در گوگل کاربرد دارد.
به عنوان مثال اگر می خواهید تصویری از سایت خود را با استفاده از فایل robots.txt از نتایج گوگل حذف کنید، باید در این فایل طبق دستور زیر عمل کنید.
User-agent: Googlebot-Image
Disallow: /images/one.jpg
در خط دوم کد بالا بعد از دستور disallow باید آدرس عکس مورد نظر قرار بگیرد، حال دفعه بعد که خزنده گوگل سایت شما را بررسی کند، این دستورالعمل را می بیند و آن تصویر را از نتایج جستجوی حذف می کند.
کاربرد فایل robots.txt در فایل های سورس
مورد دیگری از کاربرد فایل robots.txt مسدودسازی فایل های سورس است، اگر فکر می کنید بدون بعضی از فایل های سورس، صفحات به طور قابل توجهی تحت تأثیر قرار نمی گیرند، می توانید با استفاده از فایل robots.txt برای مسدود کردن آن فایل ها مانند فایل های اسکریپت یا سایر فایل های سبک، اقدام کنید. اما اگر عدم وجود این منابع درک صفحه را برای خزنده گوگل سخت تر کند، نباید آن ها را مسدود کنید، و اگر این کار را کنید گوگل نمی تواند به خوبی در تجزیه و تحلیل صفحات وابسته به آن منابع عمل کند.
محدودیت های فایل robots.txt
قبل از ایجاد یا ویرایش فایل robots.txt، باید محدودیت های این روش مسدودسازی URL را بدانید. تا بر اساس اهداف و موقعیت خود تصمیم بگیرید که این روش برای عملی که می خواهید انجام دهید مناسب است یا خیر، ممکن است بخواهید روش های دیگری را در نظر بگیرید تا مطمئن شوید URL مدنظر شما در وب یافت نشود،
محدودیت های فایل robots.txt شاید موجب شوند شما روش دیگری را انتخاب کنید که این محدودیت ها به شرح زیر می باشند.
پشتیبانی نشدن robots.txt توسط برخی از موتورهای جستجو
دستورالعمل های موجود در فایل های robots.txt ممکن است توسط همه ربات ها (خزنده ها) اعمال نشوند، این به خزنده بستگی دارد که از آن ها اطاعت کند یا خیر، با این حال ربات های گوگل و سایر خزنده های معتبر از دستورالعمل های موجود در این فایل پیروی می کنند ولی سایر خزنده ها ممکن است از آن اطاعت نکنند. بنابراین، اگر می خواهید اطلاعات را برای تمامی خزنده های وب محدود کنید، بهتر است از سایر روش های مسدود کردن، مانند محافظت از فایل های خصوصی در سرور خود استفاده کنید.
تفاوت در نحوه تفسیر دستور العمل ها توسط ربات ه
یکی دیگر از محدودیت های فایل robots.txt تفاوت در نحوه تفسیر است، اگرچه خزنده های معتبر از دستورالعمل های موجود در یک فایل robots.txt پیروی می کنند، اما هر خزنده ممکن است دستورالعمل ها را به شیوه های مختلف تفسیر کند، شما باید نحوه مناسب آدرس دهی برای خزنده های مختلف را بدانید زیرا برخی از آن ها دستورالعمل های خاصی را درک نمی کنند.
رفع محدودیت خزیدن در صورت لینک گرفتن صفحه
صفحه ای که در robots.txt به حالت disallow درآمده باشد، یعنی ایندکس شدن آن برای خزنده ها محدود شده باشد، اگر از صفحاتی دیگر لینکی به آن داده شود، همچنان می تواند ایندکس شود و در نتایج جستجو قرار بگیرد.
به عبارت دیگر گوگل محتوای مسدود شده توسط یک فایل robots.txt را نمی خزد یا ایندکس نمی کند، اما در صورتی که از سایر نقاط وب لینکی به آن صفحه داده شود، ممکن است گوگل همچنان آدرس را پیدا کرده و ایندکس کند، درنتیجه آن URL هنوز می تواند در نتایج جستجوی گوگل ظاهر شوند. برای جلوگیری از این امر، از فایل های سرور خود با گذرواژه محافظت کنید یا از متاتگ noindex استفاده کنید یا صفحه را به طور کامل حذف کنید.
محل فایل robots.txt کجاست؟
محل فایل robots.txt باید دقیقا در محل root (ریشه) اصلی سایت باشد و در هیچ فولدری قرار نگیرد، دقیقا در root اصلی.
دقت کنید برای ساخت این فایل به ابزار پیچیده و خاصی نیاز ندارید، notepad موجود در ویندوز شما یا هر برنامه ویرایش متن دیگری کفایت می کند، اما مسئله حائز اهمیت صحیح نوشته شدن موارد داخل این فایل است.
برای مشاهده فایل robots.txt هر وب سایتی کافی است در آدرس بار مرورگر خود بعد از دامنه آن وبسایت عبارت /robots.txt را قرار دهید، مثل: https://www.newseo.ir/robots.txt
بارگذاری فایل robots.txt در وردپرس
برای بارگذاری فایل robots.txt در وردپرس از ۲ طریق می توانید اقدام کنید:
1. استفاده از افزونه yoast: در این افزونه امکان ساخت و ویرایش فایل robots.txt وجود دارد، برای این کار باید در پیشخوان وردپرس به مسیر / سئو / ابزارها بروید و گزینه “ویرایشگر فایل” را انتخاب کنید، سپس در صفحه ای که ظاهر می شود، وجود یا عدم وجود فایل robots.txt در سایت شما نمایش داده می شود، اگر این فایل در سایت شما وجود نداشته باشد، می توانید با کلیک روی گزینه “ایجاد پرونده robots.txt” آن را بسازید که در آن دستورات پیشفرضی که توسط افزونه yosat تعیین شده اند قرار می گیرد، همچنین می توانید خودتان این فایل را ویرایش کنید.
2. بارگذاری و ویرایش robots.txt به صورت دستی: به کنترل پنل هاست سایت خود مراجعه کنید و وارد root اصلی سایت شوید، اگر این فایل را روی سایت شما وجود ندارد می توانید از طریق کنترل پنل آن را آپلود کنید و اگر این فایل وجود داشت می توانید با کلیک راست کردن روی آن و انتخاب گزینه view/edit آن را ویرایش کنید.
دقت کنید برای بارگذاری فایل robots.txt در وردپرس می توانید از افزونه های دیگری بجز yoast، مثل افزونه all in one seo هم استفاده کنید.
تأثیر فایل robots.txt در سئو
فایل robots.txt ربات های موتورهای جستجو می گوید که کدام صفحات از وب سایت را نباید crawl کنند، حال اولین نکته ای که باید در بحث تأثیر فایل robots.txt در سئو به آن دقت کنید این است که ممکن است صفحاتی را به اشتباه در این فایل محدود کنید که باعث شود این صفحات در نتایج جستجو قرار نگیرند در صورتی که شما چنین قصدی نداشتید.
از موارد دیگر تأثیر فایل robots.txt در سئو این است که شما می توانید از طریق این فایل به خزنده ها نشان دهید فایل XML مربوط sitemap (نقشه سایت) سایت شما دقیقا کجا قرار دارد و بهینه سازی نقشه سایت کمک می کند. این موضوع موجب تسریع امر ایندکس شدن صفحات سایت شما می شود و می توانید تا حدودی اطمینان حاصل کنید که هیچ URL مهمی در سایت شما از دید خزنده های موتورهای جستجو پنهان نمی ماند.
همچنین می توانید از طریق این فایل، دسترسی ربات ها را به بعضی از صفحاتی که فکر می کنید برای سئو شما مضر هستند را محدود کنید تا از جریمه شدن بخاطر آن صفحات جلوگیری کنید، اما علاوه بر آن توصیه می شود در آن صفحات سایت، از متا تگ روبات ها (robots meta tag) با خاصیت “noindex , follow” برای جلوگیری از ایندکس شدن آن ها استفاده کنید، از این طریق ارزش لینک های آن از بین نخواهد رفت.
تست فایل robots.txt
برای تست فایل robots.txt روش های زیادی وجود دارد اما بهترین آن استفاده از ابزاری است که خود گوگل برای این کار در اختیار مدیران وب سایت ها قرار داده است، برای دسترسی به این ابزار کافی است با جی میل مربوط به سرچ کنسول سایت مورد نظر در مرورگر خود لاگین باشید، سپس به آدرس:
https://support.google.com/webmasters/answer/6062598
مراجعه کنید، در قسمت پایین صفحه فیلدی وجود دارد که می توانید توسط آن صفحات سایت خود را بررسی کنید و از عملکرد صحیح فایل robots.txt خود مطلع شوید.
همانطور که گفته شد در فیلد مشخص شده در تصویر بالا، URL مورد نظر را قرار داده و دکمه TEST را بزنید، همچنین می توانید بررسی آدرس را توسط ربات های مختلف گوگل، توسط منو باز شونده موجود در کنار دکمه TEST تعیین کنید.
درنهایت توصیه می شود بیش ازحد فایل robots.txt را بروزرسانی نکنید، بهترین روش این است که پس از ساخت وب سایت، یک نسخه استاندارد و نهایی از این فایل را آپلود کنید، بروزرسانی های بیش ازحد در این فایل می تواند موجب پیچیدگی و اختلال در روند crawl شدن سایت بشود.
بسیار عالی بود و موفق باشید و خسته نباشید
درود بر شما، ممنونم