כלים ללכידה ולהמרה של האינטרנט

האם מגרד האינטרנט של GrabzIt מכבד קבצי robots.txt?

Web Scraper שלנו חייב לכבד את הכללים שנמצאים בקובץ robots.txt של אתרים. אחת הסיבות העיקריות לכך, מלבד היותה נחמדה, היא שמגרדי אינטרנט שאינם עוקבים אחר קובץ ה-robots.txt יכולים למצוא את עצמם נמצאים ברשימה השחורה על ידי שירות סיר דבש.

שירותים אלה משתמשים ב-robots.txt כדי לומר למגרד אינטרנט לא לבקר בקובץ מסוים שמקושר אליו מהאתר. אם מגרד האינטרנט עדיין מבקר בקובץ, כתובת ה-IP של מגרד האינטרנט נמצאת ברשימה השחורה, מה שמונע ממגרד האינטרנט לבקר באתר האינטרנט בעתיד.