Robots.txt
26 לאוקטובר 2021

Robots.txt

Robots.txt

מה זה robots.txt?

מה זה robots.txt?

robots.txt נקרא גם פרוטוקול אי הכללת רובוטים, וזו אחת מהדרכים העיקריות של בעלי אתרים לתקשר עם הסורקים של גוגל ושל מנועי החיפוש האחרים, הנקראים גם זחלנים, עכבישים או "רובוטים" (ומכאן כמובן גם השם robots.txt). מדובר למעשה בתקנות המאפשרות לבעלי אתרים להגדיר האם הם רוצים שעמודי האתר שלהם ייסרקו על ידי ה"רובוטים" הסורקים של מנועי החיפוש. הגדרות אלו מתבצעות באמצעות הקובץ שנקרא robots.tx, שמכיל תחביר מיוחד ונמצא בספריית השורש של האתר.

למה צריך את robots.txt?

כבר לפני כשלושים שנה התעורר הצורך של בעלי האתרים למנוע מהרובוטים הסורקים של גוגל ושל מנועי החיפוש האחרים, לגשת לעמודים מסוימים באתר. כלומר, התעורר הצורך להפוך חלק מעמודי האתר לנגישים לסורקים, וחלק מהעמודים ל-לא נגישים עבורם. למשל, חלק מבעלי האתרים ירצו למנוע מהזחלנים גישה לדפי Admin באתר (עמודים הדורשים הזנת סיסמא לפני כניסה), לקבצים זמניים ברשת, למידע משוכפל או לקבצים המיועדים לבני אדם (כמו קבצי מילוי טפסים). ולשם כך, נועד פרוטוקול robots.txt.

מה הקשר בין תקציב זחילה ל-robots.txt?

בהקשר זה, כדי להבין טוב יותר מהו פרוטוקול אי הכללת רובוטים ולמי הוא נחוץ במיוחד, כדאי להגיד כמה מילים על המונח "תקציב זחילה", ועל הקשר שלו לשימוש בפרוטוקול. מונח זה מתייחס לכך שהסורקים של גוגל לא סורקים את כל האתר שלכם בכל ביקור שלהם, אלא הם סורקים רק כמה דפים, לפי סוג של "תקציב". כלומר, תקציב הזחילה מתייחס למשך הזמן או למספר העמודים שהבוטים יסרקו באתר שלכם.
תקציב זה נקבע בעיקר לפי שני פרמטרים עיקריים והם "קצב זחילה" ו"דרישת הזחילה". קצה הזחילה נגזר בעיקר ממהירות האתר שלכם, כי היא קובעת כמה מהר הרובוטים יוכלו לעבור מדף לדף וכמה זמן יחכו לטעינת עמודי האתר. ואילו דרישת הזחילה קשורה בעיקר לתנועת האתר, לפופולאריות שלו, ולקצב התעדכנות התוכן שבו. אם מדובר באתר גדול עם הרבה עמודי תוכן, שעולים אליו תכנים חדשים כל הזמן ושיש לו תנועת גולשים ניכרת – הדרישה היא בעצם גבוהה יותר.
ואיך זה קשור לפרוטוקול אי הכללת רובוטים? אז ככה… באופן כללי ניתן לומר שככל שהאתר שלכם גדול יותר, מתעדכן לעיתים קרובות יותר, ובעל תנועה רבה יותר – כך החשיבות של ביצוע אופטימיזציה לתקציב הזחילה תעלה. כאשר ביצוע אופטימיזציה זו מבצעים באמצעות ניסוח הגדרות מתאימות בקובץ ה-robots.txt.

פרוטוקול אי הכללת רובוטים – יתרונות וחסרונות

היתרון העיקרי של פרוטוקול robots. txt הוא בכך שזה מאפשר לכם לבצע אופטימיזציה לתקציב הזחילה עליו דיברנו קודם. והחסרונות הם שזה לא מאפשר לחלק את הכוח של הלינקים באתר (כי ה"כוח" של דף שמוגדר כלא נגיש לסורקים לא עובר לדפים שכן נגישים לסריקה), ובכך שזה לא מסיר את הדפים שמוגדרים כלא נגישים לסורקים של מנועי החיפוש, מתוצאות החיפוש האורגניות בגוגל.

אייל רחמים אייל רחמים
אייל רחמים הוא המנכ"ל של חברת דיגיטאץ' ובעל ניסיון של למעלה מ12 שנים בעולם השיווק הדיגיטלי וקידום אתרים. אייל סייע עד היום למאות חברות ועסקים בארץ ובחו"ל למקסם את הנוכחות הדיגיטלית שלהם.
ניתוח ובדיקת האתר שלכם