موتورهای جستجو چگونه کار می کنند؟

ساختار موتورهای جستجو,مراحل کلی موتورهای جستجو,موتور جستجو چیست

بسیاری از افرادی که در حال فعالیت در صنعت سئو هستند، به خوبی نمی دانند که موتورهای جستجو چگونه کار می کنند. خیلی از سئوکاران بیشتر وقت روزانه خود را صرف مواردی مثل ساختار سرور، ریدایرکت های 301، خطاهای 404، تگ های عنوان و موارد مختلف دیگر می کنند. این افراد در واقع فراموش می کنند که هدف اصلی این فعالیت ها چه چیزی است.

حقیقتی که وجود دارد این است که بیشتر سئوکاران، به صورت حرفه ای آموزش ندیده اند و خیلی از آن ها مهارت های سئو سایت خود را به صورت تجربی و توسط آزمون و خطاها فرا گرفته اند. در نتیجه تعجبی ندارد که بیشتر افراد دقیقا ندانند که موتورهای جستجو چگونه کار می کنند و هدف از پیاده سازی تکنیک های بهینه سازی سایت چیست.

برای اثبات این امر، به عملکرد خودتان دقت کنید؛ از آخرین دفعه ای که تصمیم گرفتید متوجه شوید موتورهای جستجوگر چگونه کار می کنند، چقدر زمان می گذرد؟ ممکن است که شما در مورد بروز رسانی های الگوریتم رتبه بندی موتورهای جستجو مثل موتور جستجو گوگل، مطالعاتی داشته اید؛ اما به احتمال زیاد، کمتر پیش آمده است تا به شکلی عمیق به این مسئله بپردازید و در مورد آن تحقیق کنید.

به همین دلیل، تصمیم گرفته ایم تا مراحل کلی عملکرد موتور جستجو را به بهترین شکل ممکن برای شما شرح دهیم. مطمئنا اینکه دقیقا بدانید موتورهای جستجوگر چگونه کار می کنند، بر بهبود روند سئو سایت شما بسیار تاثیرگذار است.

کراول و ایندکس شدن سایت

وقتی می شنوید موتور جستجو گوگل سایتی را ایندکس کرده است، دقیقا چه معنایی دارد؟ سئوکاران از این اصطلاح استفاده می کنند تا بررسی کنند آیا یک سایت در صفحات نتایج جستجو گوگل حضور دارد یا خیر. برای انجام اینکار بیشتر سئوکاران از عبارت site:www.site.com استفاده می کنند؛ اگر نتیجه ای ظاهر شد، نشان دهنده این است که وب سایت مورد نظر توسط ربات گوگل ایندکس شده است. در این مرحله شما صفحاتی را مشاهده خواهید کرد که متعلق به سایت مورد نظر بوده و در دیتابیس گوگل قرار گرفته اند. اما نکته مهم این است که تمامی این صفحاتی که متعلق به سایت شما بوده و در توسط موتور جستجو گوگل ایندکس نیز شده اند، لزوما توسط ربات گوگل کراول نشده اند.

ایندکس شدن سایت تفاوت های مفهومی زیادی با کراول کردن سایت توسط خزنده گوگل دارد. برای درک بهتر این دو مفهوم باید بدانید که صفحات سایت قبل از اینکه کراول شوند، نیاز دارند تا کشف بشوند؛ به دنبال آن این صفحات قبل از اینکه ایندکس بشوند نیاز دارند تا کراول بشوند.

یکی از کارکنان گوگل اعلام کرده است که عمل ایندکس به صورت مستقل، شامل بررسی اطلاعات و اسناد نمی شود؛ بلکه در واقع لیستی از کلماتی است که برای هر کدام از آن عبارات، اسناد مرتبط را نشان می دهد. ما به صورت محاوره ای می گوییم که یک سایت ایندکس شده است؛ اما اتفاقی که واقعا افتاده این است که تنها برخی از کلمات مرتبط با اطلاعات صفحه مورد نظر که اشاره به مفهوم محتوایی صفحه دارند، جمع آوری شده اند.

Vanessa Fox که یکی از کارمندان اسبق گوگل است، در مورد اینکه موتورهای جستجو چگونه کار می کنند بیان کرده است که گوگل در ابتدا URL ها را شناسایی می کند و سپس این URL های شناخته شده را به سیستم scheduling (برنامه ریزی) کراول کردن ربات خود اضافه می کند. بنابراین یک لیست جمع آوری می شود و سپس ربات گوگل لیست URL ها را به ترتیب اولویت بندی مرتب می کند و عمل کراول کردن را بر روی آن ها انجام می دهد. این اولویت، به چندین عامل بستگی دارد. بعد از اینکه یک صفحه کراول شد، گوگل فرآیند الگوریتمیک دیگری را طی می کند تا تصمیم بگیرد که صفحه مورد نظر در بین URL های ایندکس شده قرار بگیرد یا خیر. نکته نهایی مهم بررسی این دو مفهوم، این است که گوگل همه صفحاتی که کراول کرده را ایندکس نمی کند و همچنین همه صفحاتی که در لیست ایندکس خود قرار داده را کراول نکرده است.

حالا وقتشه! اینو بخون: ربات گوگل و بهینه سازی برای آنپیشنهاد نویسنده این است که اول مقاله بالا را خوانده و سپس ادامه این مقاله را بخوانید.

گوگل این پروسه را به صورت یک نمودار خطی برای کاربران ارائه کرده است:

ساختار موتورهای جستجو,مراحل کلی موتورهای جستجو,موتور جستجو چیست

دو نکته مهم دیگر وجود دارد که باید در مورد اینکه موتورهای جستجوگر چگونه کار می کنند، آن را متوجه شوید:

  • Robot.txt تنها از کراول شدن یک صفحه سایت جلوگیری می کند. به همین دلیل گاهی اوقات گوگل دارای صفحاتی در نتایج جستجوی خود مانند مثال بالا است. گوگل می تواند صفحات را با لینک های موجود آن مرتبط کند اما قادر نیست که محتوای صفحه را کراول کند.
  • Noindex های هر صفحه به صورت قطعی از ایندکس شدن جلوگیری نمی کنند. شما صفحات دارای کدهای noindex را نیز می تواند کراول کند و ارتباط بین لینک های موجود را مورد بررسی قرار دهد. تنها کاری که این موتور جستجو انجام می دهد این است که از نمایش این صفحات در SERP های خود جلوگیری می کند (البته این مسئله برای همه صفحات صدق نمی کند).

تگ های canonical و چندین پارامتر دیگر در زمانی که ربات گوگل می خواهد یک صفحه را کراول کند، موثر هستند و می توانند در مراحل کلی عملکرد موتور جستجو نقش داشته باشند.

لینک ها و نمودار آن ها

مسئله بعدی مرتبط با اینکه موتورهای جستجو چگونه کار می کنند این است که سئوکاران باید بدانند که لینک ها چه ماهیتی دارند و نحوه پردازش آن ها به چه صورت می باشد. مهمترین نکته ای که در این زمینه باید بدانید این است که لینک ها در طول پروسه کراول کردن، پردازش نمی شوند. به زبانی دیگر، ربات گوگل هنگام خزیدن در سایت شما، تصمیمی برای PageRank شما نمی گیرد و فعالیت های مربوط به رتبه دهی به وضعیت لینک سازی شما را به صورت جداگانه انجام می دهد.

از این مسئله، نکات مهمی برای مراحل کلی عملکرد موتورهای جستجو به دست می آید که در ادامه آن ها را برای شما بیان کرده ایم.

PageRank معیاری برای اندازه گیری کیفیت و کمیت لینک های یک صفحه است و ارتباطی با محتوا ندارد. PageRank قبلا به صورت علنی به نمایش در می آمد؛ اما گوگل تصمیم گرفت تا این معیار بسیار مهم را از حالت عمومی خارج سازد.

موتور جستجو گوگل,موتورهای جستجو,موتورهای جستجو اینترنت

بسیاری از سئوکاران معتقد هستند که دو عنصر اصلی در ارتباط با PageRank وجود دارد؛ سطح دامنه و سطح صفحه سایت. اعتقاد بر این است که سطح دامنه همان عنصری است که اعتبار دامنه را مشخص می کند. اعتبار دامنه یکی از فاکتورهای اصلی رتبه بندی کلی وب سایت شما می باشد. البته دقت داشته باشید که این موارد تنها از تجربه های سئوکاران مختلف به دست آمده اند و گوگل به صورت رسمی هیچ کدام از این موارد را معتبر ندانسته است.

از آنجا که PageRank به طور جداگانه مورد پردازش قرار می گیرد، دستورالعمل هایی مانند noindex، disallow  و مسدود کردن های دیگر ربات گوگل، از بررسی وضعیت لینک های سایت شما جلوگیری نمی کنند. شما به هیچ طریقی نمی توانید موتور جستجو را متوقف کنید تا برای PageRank شما رتبه ای در نظر نگیرد. بر خلاف باور بیشتر افراد، یک ریدایرکت 302 می تواند از PageRank عبور کند.

البته 4 کار وجود دارد که شما می توانید از بررسی شدن لینک ها توسط ربات گوگل جلوگیری کنید:

  1. یک دستور nofollow در سورس لینک مورد نظر خود قرار دهید.
  2. افزودن دستور disallow در فایل Robot.txt صفحه ای که لینک از آن گرفته شده است. علت کارساز بودن این امر، این است که دستورهای robot.txt، از کراول و ایندکس شدن صفحه سایت می تواند جلوگیری کند. در نتیجه موتور جستجو به طور کلی نمی تواند لینک را مورد بررسی قرار دهد.
  3. خطای 404 در صفحه مبدا
  4. خطای 404 در صفحه مقصد هم می تواند از پرداختن به لینک ها جلوگیری کند. تنها دلیل کارساز بودن خطاهای 404 این است که این دسته از خطاها می توانند هم در صفحات مبدا و هم در صفحات مقصد عمل کنند. وقتی که نمودار لینک ها می خواهد شروع به کار کند، وجود خطاهای 404 از ادامه دار بودن کار این نمودار، جلوگیری می کند.

گوگل در مورد نمودار لینک ها نیز تصویری را منتشر کرده است که آن را برای شما ارائه کرده ایم:

موتورهای جستجو چگونه کار می کنند,موتورهای جستجو چیست,موتورهای جستجوگر چگونه کار می کنند

تنها راه دیگر برای مدیریت لینک های بد، غیرفعال کردن منبع لینک است. اگر گوگل این مسئله را بپذیرد، تأثیرش همانند افزودن nofollow به لینک منبع است.

سخن پایانی

مطمئنا اینکه موتورهای جستجوگر چگونه کار می کنند باید به خوبی برای شما روشن شده باشد. به هر حال نکات اصلی که باید به خاطر داشته باشید، به صورت خلاصه به شرح زیر است:

  • کراول کردن مساوی با ایندکس شدن نیست.
  • PageRank ارتباطی با کراول کردن ندارد.
  • تنها 4 راه برای جلوگیری از پردازش PageRank وجود دارد که در بالا بیان کرده ایم.

امیدواریم که با درک مراحل کلی عملکرد موتور جستجو گوگل بتوانید تغییرات مفید و کاربردی در روند فعالیت های خود به وجود بیاورید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیام شما بلافاصله پس از ثبت برای مدیران سایت ارسال می شود