فایل robots.txt چیست؟

ربات ها در واقع کرالرها (یا همان خزنده ها) یا اسپایدرها (عنکبوت ها) وب هستند که به طور اتوماتیک صفحات وب را می چرخند. فایل روبات گوگل کارش جستجوی محتوای سایت ها است. این کار را برای شاخص گذاری یا ایندکس کردن سایت ها می کند. بنابراین با داشتن این فایل در سایت خود به موتورهای جستجو اجازه می دهید تا برای موتورهای جستجو قابل شناسایی و ایندکس گذاری بشوند. البته این به این معنی نیست که بدون ربات هرگز برای موتورهای جستجو قابل شناسایی نخواهید بود (زیرا موتورهای جستجو می توانند از روی نقشه ی سایتتان نیز سایت شما را بخوانند) اما متخصصین سئو سایت همواره تاکیید کرده اند که فایل را در روت هاست خود بسازید.

فایده ی robot.txt

با استفاده از فایل robot.txt می توانید تعیین کنید که موتورهای جستجوچه بخشی از سایت شما را بخوانند. در واقع ربات ها با توجه به مجوزی که شما به آن ها می دهید شروع به خزیدن در صفحات و مطالب شما می کنند. بنابراین اگر نمی خواهید فایلی را کاربری بخواند می توانید با استفاده از این ربات ها و disallow کردن آن ها، مشخص کنید تا موتورها جستجو به آن فایل دسترسی نداشته باشند.

سئو سایت بهینه سازی سایت ام.سی سئو ربات و سئو

نحوه ی استفاده از robot.txt در سئو سایت

ربات ها می توانند در سئو سایت نیز نقش مهمی داشته باشند.
مثلا فرض کنید سایتی با آدرس www.abc.com می خواهد تا کاربران و موتورهای جستجو به صفحه ی www.abc.com/content.html وارد نشوند. در این صورت باید بدانید که ربات ها ابتدا آدرس www.abc.com.robots.txt را چک می کنند تا اگر در قسمت user-agent نام ربات خاصی بود که disallow شده بود، سایت برای آن ربات خاص غیر قابل ایندکس گذاری می شود.
دقت کنید که برای ندادن مجوز به ربات های مشخصی باید آنها را جدا وارد کنید. یعنی جلوی هر کلمه ی disallow نام یک ربات خاص را وارد کنید و اگر چند ربات مد نظرتان هست هر یک را جداگانه وارد کنید. مثلا:
User-agent: *
Disallow: /A/
Disallow: /B/
Disallow: /C/
ستاره * به این معنی است که تمام ربات ها به آن قسمت A و B و C از سایت شما دسترسی نخواهند داشت. حال اگر به جای * از مثلا google استفاده کنید، ربات های گوگل به محتوای سایت شما دسترسی نخواهند داشت. البته می دانید که این کار برای بهینه سازی سایت شما بد خواهد بود. موتورهای جستجویی مانند گوگل باید اجازه داشته باشند تا در صفحات شما بچرخند و ایندکس گذاری کنند.
بنابراین اگر بخواهیم به رباتی مانند گوگل یا سایر موتورهای جستجو اجازه بدهیم در سایت ما بخزند می توانیم از عبارت google یا bing در قسمت user-agent استفاده کنیم و سپس در سطر بعدی مثلا عبارت زیرا را بگذاریم:
Alllow:/wp-content/

جدا از موضوعاتی که تا به حال در مورد در دسترس گذرای یا غیر دسترس گذاری محتوای سایت برای ربات ها گفتیم، میتوان در راستای سئو سایت، فایل نقشه ی سایت را نیز در robot.txt بگذاریم تا ربات های گوگل بهتر به محتوای کل سایت ما دسترسی داشته باشند. مثلا به این صورت:
User-agent: *
Disallow

Sitemap: http: //www.ABC.com/page-sitemap.xml
با توجه به عبارت * در قسمت یوزر می دانیم که چنین کدی به همه ی ربات ها اجازه می دهد که در محتوای نقشه سایت شما بخزند.

robot.txt را کجا بگذاریم؟

فایل robot.txt را باید در بالاترین سطح داریکتوری سرور وب سایت خود بگذارید. به عبارتی اولین اسلش/ پس ازآدرس صفحه ی اصلی سایت شما. ربات ها به این قسمت می روند و دنبال عبارت robot.txt می گردند. پس باید فایل robot.txt را در جای مناسب بگذارید تا دیده شده و عمل کند. بنابراین قسمت خوشامدگویی welcome سایت بخش مناسبی می تواند باشد.
در نهایت حواسمان باشد که تمام حروف این ترکیب را با حروف کوچک بنویسم. دقیقا به صورت robot.txt

امیدوارم از این مقاله لذت برده باشید.