Web Scraper שלנו חייב לכבד את הכללים שנמצאים בקובץ robots.txt של אתרים. אחת הסיבות העיקריות לכך, מלבד היותה נחמדה, היא שמגרדי אינטרנט שאינם עוקבים אחר קובץ ה-robots.txt יכולים למצוא את עצמם נמצאים ברשימה השחורה על ידי שירות סיר דבש.
שירותים אלה משתמשים ב-robots.txt כדי לומר למגרד אינטרנט לא לבקר בקובץ מסוים שמקושר אליו מהאתר. אם מגרד האינטרנט עדיין מבקר בקובץ, כתובת ה-IP של מגרד האינטרנט נמצאת ברשימה השחורה, מה שמונע ממגרד האינטרנט לבקר באתר האינטרנט בעתיד.