در این سری از مقالات آموزش سئو مبتدی، به مبحث وب کراولر ها و مخصوصا کراول گوگل می پردازیم.
با توجه به شناختی که شما از عملکرد موتورهای جستجو دارید، بررسی کنید که آیا موتور جستجوی گوگل می توانند سایت شما را پیدا کند؟
همانطور که در قسمت قبل یاد گرفتید، برای این که سایت شما در SERP ها نمایش داده شود، باید مطمئن شوید که محتوای آن قابل کراول و ایندکس شدن می باشند. شما می توانید با استفاده از گوگل و جستجوی “site:yourdomain.com” و یا با استفاده از قسمت جستجوی پیشرفته، بررسی کنید که کدام صفحات و چند صفحه از وبسایت شما، توسط گوگل ایندکس شده است.
به گوگل بروید و در قسمت نوار جستجو “com.نام دامنه:site” را تایپ کنید. با انجام این کار گوگل نتایجی را نشان می دهد که ایندکس آن سایت را مشخص می کنند.
تعداد نتایجی که گوگل نشان داده است (قسمت “About __ results” در تصویر بالا)، دقیق نیست اما می تواند به صورت کلی به شما نشان دهد که کدام صفحات در وبسایت شما ایندکس شده است و نحوه نمایش کلی آن ها در موتور جستجو به چه صورت است.
برای نتایج دقیق تر، شما می توانید از گزارش Index Coverage در Google Search Console استفاده کنید. اگر تا به حال از این سرویس استفاده نکرده اید، می توانید به صورت رایگان در حساب های Google Search Console ثبت نام کنید. با این ابزار، شما می توانید نقشه سایت برای سایت خودتان ارائه کنید و بررسی کنید که کدام یک از صفحه های ارائه شده در نقشه سایت، به ایندکس گوگل اضافه شده اند.
اگر شما در هیچ کدام از نتایج جستجوی گوگل دیده نمی شوید، احتمالا چند دلیل وجود دارد:
- سایت شما خیلی جدید است و گوگل هنوز آن را کراول نکرده است
- لینک سایت شما در هیچ وبسایت خارجی دیگری (وب سایتی جز وب سایت خودتان) قرار نگرفته است.
- مسیر یابی در سایت شما به گونه ای است که ربات های خزنده به صورت موثر نمی توانند آن را بررسی کنند.
- سایت شما دارای یک سری کد های اولیه با نام دستورالعمل های کراولر (crawler directives) می باشد که مانع دسترسی خزنده های موتور جستجو به سایت شما می شود.
- سایت شما به دلیل فعالیت های اسپمی، توسط گوگل جریمه شده است.
در صورتی هیچ سایت دیگری لینک های سایت شما را در محتوایش قرار نداده باشد، باز هم می توانید با ارائه نقشه سایت XML در Google Search Console و یا وارد کردن URL ها به صورت دستی در گوگل، ایندکس شوید. البته هیچ تضمینی نیست که URL های ارائه شده حتما ایندکس شوند اما باز هم ارزش امتحان کردن را دارد!
آموزش سئو با پاسخ به سوالاتی درباره کراول گوگل
- آیا موتورهای جستجو می توانند کل سایت شما را ببینند؟
گاهی اوقات موتور جستجو می تواند بخش هایی از سایت شما را با کراول کردن ببیند، اما ممکن است بعضی از بخش های آن برای موتور جستجو به هر دلیلی، در دسترس نباشد. شما باید مطمئن شوید که موتورهای جستجو می توانند تمام محتوایی که می خواهید ایندکس شود را مشاهده کند، نه این که فقط صفحه اصلی سایت تان برای موتور جستجو قابل رویت باشد.
از خودتان بپرسید : آیا ربات های خزنده می توانند کل سایت شما را بررسی کنند؟
- آیا محتوای سایت شما پشت فرم های ورود اطلاعات پنهان شده است؟
اگر شما کاربران خودتان را ملزم می کنید که قبل از دسترسی به محتوای خاصی، فرم پر کنند یا به نظر سنجی پاسخ دهند، در این صورت موتور جستجو نمی تواند این صفحه های محافظت شده را ببیند. قطعا یک خزنده هیچ اطلاعات یا نظر سنجی را تکمیل نمی کند!
- آیا شما متکی بر فرم های جستجو کار می کنید؟
ربات ها نمی توانند از فرم های جستجو استفاده کنند. بعضی از افراد فکر می کنند اگر یک جعبه جستجو در سایت خودشان قرار دهند، موتورهای جستجو می توانند هر چیزی که کاربر می خواهد را پیدا کنند.
- آیا متن داخل محتوای غیر متنی پنهان شده است؟
فرمت های غیر متنی (تصاویر، ویدیو، GIF و غیره) را نباید برای نمایش متونی استفاده کنید که می خواهید ایندکس شوند. در حالی که موتورهای جستجو از نظر شناسایی و درک تصاویر پیشرفت زیادی کرده اند، اما باز هم هیچ تضمینی وجود ندارد که آن ها بتوانند تصاویر را به صورت کامل بخوانند و آن ها را درک کنند. همیشه تلاش کنید که متون را با نشانه گذاری های <HTML>
در وب سایت خودتان قرار دهید.
- آیا موتورهای جستجو می توانند مسیر یابی سایت شما را دنبال کنند؟
همانطور که یک خزنده باید سایت شما را از طریق لینک هایی که در سایت های دیگر وجود دارد پیدا کند، همچنین به مسیری از لینک ها در سایت خودتان نیاز دارد تا از یک صفحه به صفحه دیگری برود. در صورتی که شما صفحه ای دارید که می خواهید موتور جستجو آن را پیدا کند اما در هیچ کدام از صفحه های دیگر سایت تان لینکی به این صفحه وجود ندارد، در این صورت آن صفحه برای موتور جستجو نامرئی خواهد بود. بسیاری از سایت ها این اشتباه کلیدی را انجام می دهند و مسیر یابی (navigation) سایت خودشان را به صورتی طراحی می کنند که بسیاری از صفحه ها برای موتورهای جستجو، نامرئی می شوند و در نتیجه سایت آن ها در نتایج جستجوی کاربران نشان داده نمی شود.
اشتباهات navigation سایت و عدم دسترسی خزنده موتور جستجو به سایت
- استفاده از مسیریابی های موبایل که نتایج متفاوتی نسبت به مسیر یابی های دسکتاپ را نمایش میدهد
- مسیریابی آیتم های منوی سایت که به زبان HTML نیستند، مانند مسیریابی های مبتنی بر جاوا اسکریپت. گوگل در زمینه کراول کردن و درک کردن جاوا اسکریپت پیشرفت زیادی داشته است اما هنوز به فرآیند عالی در این زمینه نرسیده است. برای این که مطمئن شوید محتوای خاصی توسط گوگل ایندکس می شود، این است که آن محتوا را به زبان HTML در سایت قرار دهید.
- شخصی سازی یا نشان دادن مسیر یابی های خاص برای نوع خاصی از کاربران باعث می شود کار بررسی سایت توسط خزنده ها دشوار شود.
- عدم قرار دادن لینک به صفحه های اصلی در وبسایت در فرایند مسیریابی سایت. به یاد داشته باشید که خزنده ها از لینک ها به عنوان مسیر پیمایش سایت شما استفاده می کنند!
به همین دلیل، سایت شما باید یک مسیریابی شفاف و ساختار دسته بندی URL مفیدی داشته باشد.
معماری اطلاعات
معماری اطلاعات (Information architecture) به منظور سازماندهی محتوایی است که در وبسایت شما وجود دارد تا کارایی و قابلیت رویت محتوا برای کاربران افزایش پیدا کند. بهترین معماری اطلاعات، به گونه ای است که درک آن ساده باشد، یعنی این که کاربر مجبور نباشد برای بررسی سایت شما و یافتن یک موضوع، خیلی تلاش کند.
سایت شما باید یک صفحه 404 مفید (صفحه اخطار page not found) داشته باشد تا وقتی که کاربر بر روی یک لینک خراب یا URL اشتباه کلیک می کند، این صفحه نشان داده شود. صفحه های خوب 404 به کاربر این امکان را می دهد تا با کلیک بر روی لینک فراهم شده دوباره به صفحه اصلی سایت بروند تا به خاطر این که بر روی لینک اشتباه یا خراب کلیک کرده اند، سایت شما را ترک نکنند.
آموزش سئو با نحوه فعالیت وب کراولرها
به علاوه تضمین این که خزنده ها می توانند صفحات مهم شما را بررسی کنند، شما می توانید صفحه هایی را در سایت خودتان طراحی کنید که خزنده ها به آن ها دسترسی نداشته باشند. این صفحه ها ممکن است شامل URL های قدیمی با محتوای ضعیف، URL های تکراری (مانند پارامتر های دسته بندی و فیلتر برای سایت های فروشگاهی) و یا صفحه های پرومو کد خاص، صفحه های تست یا دسته بندی و غیره باشند.
مسدود کردن دسترسی موتور جستجو به صفحه های خاص در وبسایت باعث می شود که خزنده ها بتوانند مهم ترین صفحه های سایت شما را اولویت بندی کنند و در نتیجه بودجه خزش (crawl budget) سایت شما به بیشترین مقدار برسد (بودجه خزش به معنی میانگین تعداد صفحه هایی است که ربات موتور جستجو بر روی سایت شما کراول می کند).
دستورالعمل های خزنده (Crawler directive) به شما این امکان را می دهد تا خزنده Googlebot را کنترل کنید تا صفحه هایی را کراول و ایندکس کند که شما می خواهید. این دستور ها با استفاده از فایل های robots.txt، متا تگ، فایل های sitemap.xml یا Google Search Console ایجاد می شوند که در ادامه این مقاله، این چهار مورد را بررسی میکنیم:
- Robots.txt
این فایل های Robots.txt در مسیر اصلی وبسایت قرار دارند (مثلا، yourdomain.com/robots.txt) و نشان می دهند که موتور جستجو بر اساس دستورات خاص Robots.txt، کدام صفحه ها را باید کراول کند و به کدام صفحه ها دسترسی نداشته باشد. وقتی که می خواهید صفحه های غیر خصوصی را از دسترس موتورهای جستجو خارج کنید، این روش یکی از بهترین روش ها می باشد.
شما نباید با استفاده از این روش، صفحه های خصوصی و حساس را از دسترس موتور جستجو خارج کنید زیرا اگر شما آدرس این صفحه ها را در این فایل قرار دهید، ربات های موتور جستجو یا کاربران به راحتی به آن دسترسی خواهند داشت.
نکات حرفه ای :
- در صورتی که گوگل نتواند یک فایل txt را برای سایت شما پیدا کند (کد وضعیت 40X HTTP)، کراول سایت شما را ادامه میدهد.
- در صورتی که ربات گوگل بتواند یک فایل txt را برای سایت شما پیدا کند (کد وضعیت 20X HTTP)، معمولا مطابق با پیشنهادات و دستور های این فایل، سایت شما را کراول می کند.
- در صورتی که ربات گوگل نه کد وضعیت 20X و نه 40X HTTP را پیدا کند (مثلا، خطای سرور 501)، در این صورت نمی تواند تشخیص دهد که آیا شما یک فایل txt دارید یا خیر و در نتیجه سایت شما را کراول نمی کند.
- متا تگ ها (دستور های متا)
دو نوع از دستورات متا وجود دارد که با نام Meta robots tag (که روش رایجی هستند) و X-robots-tag شناخته می شوند. هر کدام از این موارد، دستورات قوی تری را در رابطه با نحوه کراول کردن و ایندکس کردن محتوای URL، در اختیار ربات خزنده قرار می دهند.
اگر شما می خواهید در مقیاس بالا دسترسی موتور جستجو را به سایت خودتان محدود کنید، می توانید از X-robots-tag استفاده کنید زیرا این دستور انعطاف و کاربرد بیشتری دارد به این دلیل که با استفاده از این دستور، شما می توانید از عبارات معمول استفاده کنید، فایل های غیر HTML را بلاک کنید و تگ noindex را بر روی کل سایت خودتان قرار دهید.
این تگ ها، برای بلاک کردن URL های حساس یا خصوصی در سایت بهترین گزینه هستند.
برای هر URL حساس، بهتر است که آن ها را از صفحات حذف کنیم و یا برای دسترسی به این URL ها، یک فرآیند ورود امن (secure login) در نظر بگیریم.
در قسمت Dashboard > Settings > Reading، مطمئن شوید که جعبه “قابلیت رویت توسط موتور جستجو” تیک نخورده باشد. این کار باعث می شود که موتور جستجویی که به سایت شما می آید، بر اساس فایل robots.txt به صفحه مورد نظر دسترسی نداشته باشد.
اگر بتوانید این مشکلات را رفع کنید، محتوای شما محتوایی شفاف و قابل کراول می شود که ربات ها می توانند به راحتی به آنها دسترسی داشته باشند.
زمانی که مطمئن شدید که سایت شما کراول شده است، کار بعدی این است که مطمئن شوید این محتوا ایندکس می شود.
- نقشه سایت
ماهیت نقشه سایت بر اساس نامش کاملا مشخص است؛ لیستی از URL ها در سایت شما که خزنده ها می توانند از آن استفاده کنند تا محتوای سایت شما را کشف کرده و آن را ایندکس کنند. یکی از راحت ترین روش ها برای تضمین این که گوگل مهمترین صفحه های شما را پیدا می کند، این است که فایلی را تهیه کنید که مطابق با استاندارد های گوگل باشد و از طریق Google Search Console، آن فایل را ارائه کنید. در حالی که ارائه یک نقشه سایت نیاز شما به یک مسیر یابی خوب برای سایت را رفع نمی کند، اما به خزنده ها کمک می کند تا از یک مسیر برای رسیدن به صفحه های مهم سایت شما استفاده کنند.
- Google Search Console
بعضی سایت ها (بیشتر سایت های فروشگاهی) با قرار دادن پارامتر های خاص در URL ها، یک محتوا را بر روی چندین URL قرار می دهند. در صورتی که شما تا کنون خرید آنلاین انجام داده باشید، احتمالا دیده اید که می توانید با استفاده از فیلتر های مختلف، حوزه جستجوی خودتان را محدودتر کنید. به عنوان مثال، شما می توانید در سایت آمازون، قسمت “کفش ها” را جستجو کنید و سپس بر اساس سایز، رنگ، و مدل کفش، جستجوی خودتان را اصلاح کنید. هر بار که شما کار اصلاح جستجو را انجام می دهید، این URL اندکی تغییر می کند. گوگل از کجا باید بفهمد که کدام URL مطابق با جستجوی کاربر است؟ گوگل می تواند به خوبی مشخص کند که کدام URL اصلی است، اما شما می توانید از پارامتر های URL در Google Search Console استفاده کنید و به گوگل دقیقا بگوید که از کدام URL برای نمایش صفحه شما استفاده کند.
در ادامه این مقاله شما را با مفهوم ایندکس شدن سایت در گوگل، آشنا می کنیم.