כלים ללכידה ולהמרה של האינטרנט

תיעוד מגרד רשת

על מנת ליצור גרד אינטרנט עליך לציין חמישה סוגים של מידע, הפרוסים על הכרטיסיות הבאות.

  1. גרד אפשרויות
  2. אתרי יעד
  3. הוראות לגרד
  4. אפשרויות ייצוא
  5. לוח הזמנים לגרד

גרד אפשרויות

כל התכונות הבאות זמינות להתאמה אישית של גירוד באינטרנט בכרטיסייה אפשרויות גירוד.

גרד שם שם הגרד.

עקוב אחר קישורים מספק את האפשרויות הבאות כיצד המגרד צריך לעקוב אחר קישורים:

  • כנדרש - הגדרת ברירת המחדל ואופציה הבטוחה ביותר, הדבר יגרום למגרד רק לעקוב אחר קישורים אליהם הוא הורה
  • כל העמודים - המגרד יעקוב אחר כל קישור שהוא מוצא
  • דף ראשון - עקוב רק אחר הקישורים שנמצאים בעמוד הראשון, שצוינו כיעד
  • עד ל n דפים מהדף הראשוני - עקוב רק אחר הקישורים בדפים עם מספר הקליקים שצוין מהעמוד הראשון
  • במסגרות - עקוב אחר הקישורים שנמצאו במסגרות ובמסגרות iframes

התעלם מקובץ Robots.txt אם הגדרת המגרד יכול לבקר בדפי האינטרנט שבדרך כלל לא נכללים בסריקה על ידי בעל האתר.

התעלם מהורדות קבצים הגדר פעם קישורים כלשהם הגורמים להורדת קובץ כשאתה מבקר לא יורדים.

התעלם מכפילויות אם ההגדרה היא תתעלם מדפים שהם שווים או יותר מהדמיון שקבעת, לדוגמה אתה יכול להתעלם מדפים שהם 95% זהים.

הגבל את השריטה מאפשר לך לציין כמה דפים על מגרד האינטרנט לגרד לפני שתפסיק.

השתמש באזור הזמן שלי אם מוגדר זה מציין כי מגרד האינטרנט צריך לנסות להמיר תאריכים שהוא מגרד into אזור הזמן המקומי שלך. ניתן להגדיר את אזור הזמן שלך בדף החשבון.

מקום המיקום הגאוגרפי שמגרד האינטרנט יבצע את הגרד ממנו. זה יכול להיות שימושי אם לאתר היעד יש מגבלות על בסיס מיקום.

פורמט תאריך ברירת מחדל בעת המרת תאריכים שבהם לא ניתן לקבוע את פורמט התאריך, מגרד האינטרנט יהיה במקום זאת כברירת מחדל לפורמט שנבחר.

עיכוב טעינת דף זה הזמן באלפיות השנייה שמגרד האינטרנט צריך להמתין לפני ניתוח הדף. זה שימושי מאוד אם דף מכיל הרבה AJAX או איטי לטעון.

אתרי יעד

אתרי יעד

בכרטיסייה אתרי אתרי יעד אתה מציין אתרים מהם ברצונך לחלץ נתונים. כדי לומר לכלי השריטה לחלץ נתונים מאתר אינטרנט תחילה עליך לציין את כתובת האתר העיקרית שאתה intשנמחק למשל http://www.example.com/shop/ זה היה בו המגרד יתחיל את השריטה שלו, זה יכול להיות דף אינטרנט רגיל, מסמך PDF, מסמך XML, מסמך JSON, עדכון RSS או Sitemap. אם זה לא דף אינטרנט או מסמך PDF, המגרד ימצא את כל הקישורים בקובץ ויבקר בכל אחד מהם.

כדי לעקוב רק אחר הקישורים שנמצאים בכתובת היעד ולא בדפים הבאים אתה יכול להגדיר עקוב אחר קישורים אפשרות לגרד ל בעמוד הראשון. פעולה זו תשתמש בכתובת אתר היעד רק כדי לזרוע את שאר הגרד.

כברירת מחדל, מגרד האינטרנט עוקב אחר כל קישור שהוא מגלה בכל דף אינטרנט בו הוא מבקר. אם אתה רוצה להגביל את מה שקושר ל- מגרד רשת להלן, דרך אחת פשוטה לעשות זאת היא לציין דפוס URL. זה עובד על ידי ציון כתובת URL עם הכוכבית כקלף בר כדי לציין שתווים כלשהם יכולים להיות נוכחים בחלק זה של התבנית. לדוגמה http://www.example.com/*/articles/* היה מגרד את כל ה- URL שיש בו מאמרים כתיקייה השנייה מהשורש של האתר.

כתובת האתר יכולה גם לציין כתובת URL עם פרמטרים ל- POST מדי למשל טופס כניסה. לשם כך ציין את כתובת האתר בטופס בתיבת הטקסט כתובת אתר יעד והוסף את פרמטרי הפוסט הדרושים לשימוש. ערכי משתנים רשומים יכולים לכלול גם משתנים מיוחדים של GrabzIt, כגון:

  • {{day}} - יום כערך דו ספרתי
  • {{month}} - חודש כערך דו ספרתי
  • {{year}} - שנה כערך בן ארבע ספרות
  • {{hour}} - שעה כערך דו ספרתי
  • {{minute}} - דקה כערך דו ספרתי
  • {{second}} - שנייה כערך דו ספרתי

סוף סוף תוכלו לציין כתובות זרע כדי להבטיח כי כתובות האתרים ייגרדו.

URL של זרעים

כתובות אתרים לזרע מאפשרות למשתמש לציין רשימה של כתובות אתרים שצריך לסרוק על ידי מגרד האינטרנט. אם אתה רק רוצה שכתובות האתר של הזרע ייגרדו, קבע את עקוב אחר קישורים לגרד אפשרויות ל אין דפים בכרטיסייה אפשרויות גירוד.

כדי להגדיר כתובות אתרים לזרע בכרטיסייה אתרי יעד, לחץ על לחצן הוסף יעד ואז סמן את תיבת הסימון הגדר כתובות זרע וציין כל כתובת אתר לשרוט בשורה נפרדת.

צור URL של זרעים מכתובת אתר של תבנית

לחלופין ניתן ליצור באופן אוטומטי URL של זרעים באמצעות כתובת אתר של תבנית, זוהי כתובת אתר אחת הכוללת משתנה של כתובת אתר. משתנה של כתובת אתר מציין טווח של מספרים שאפשר לחזור עליהם.

{{start number|finish number|iterate number}}

  • מספר התחלה המספר בו משתנה ה- URL מתחיל ב
  • מספר סיום המספר בו משתנה כתובת האתר מסתיים
  • מספר חוזר המספר שעליו משתנה כתובת האתר משתנה

מספר ההתחלה הוא המספר שמשתנה ה- URL צריך להתחיל לספור בו, מספר הסיום הוא המספר שמשתנה ה- URL יפסיק לספור עליו, המספר האיטרי הוא המספר שהמספר יגדל עבור כל איטרציה של משתנה ה- URL.

למשל עבור כתובת האתר של התבנית הבאה http://www.example.com/search?pageNo={{1|3|1}}

לאחר מכן תיצור את כתובות האתר של הזרעים הבאים:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

הוראות לגרד

הוראות גירוד מספרות למגרד האינטרנט אילו פעולות לביצוע בעת גרידת אתרי היעד. הכרטיסייה הוראות גירוד מציגה כברירת מחדל את אשף הגרד, שמקל להוסיף את הוראות הגרד שצריך. כדי להתחיל, לחץ על הוסף הוראות שריטות חדשות קישור.

פעולה זו תפתח את האשף ותטען אוטומטית את כתובת אתר היעד, ותאפשר לך לבחור מייד את מה שתרצה שיגרוט. אם נטען דף אינטרנט או מסמך PDF אתה יכול ללחוץ על כל קישור והוא יפעל כרגיל, למשל ניווט לדף אינטרנט אחר. עד שתבחר באחת מהפעולות, בתחתית המסך, בכתובת זוint כל קליק על התוכן יבחר באלמנט ה- HTML שברצונך לחלץ או לתפעל.

הדבר הראשון שיש להבין לגבי הוראות גירוד הוא שהן מבוצעות בכל דף אינטרנט כברירת מחדל. הדרך לעצור זאת היא באמצעות תבניות. ניתן להקצות תבנית בעת ביצוע פעולה כמו לחיצה על קישור, וכדי שבכל פעם שהמגרד מבקר בקישור או לוחץ על הכפתור הוא יזהה שהוא שייך לתבנית שהוקצתה. זה מאפשר להגדיר סוגי דפים שונים. לדוגמה, ייתכן שיהיה לך דף קטגוריית מוצרים המכיל מידע סקירה כלשהו ואז דף פירוט המכיל את פרטי המוצר. שני הדפים יצטרכו כנראה קבוצה אחרת של הוראות גירוד.

תבנית מגרד

כדי להתחיל, בחר את נְקִישָׁה לאחר שבחרתם את הפריטים עליהם ברצונכם לבצע את הפעולה ולחצו על הַבָּא כפתור הזן את שם התבנית ב - צור תבנית תיבת טקסט כעת בכל פעם שהמגרד מבצע פעולות אלה, התבנית שהוחזרה תהיה השם שסיפקת.

לאחר מכן כדי להקצות תבנית מסוימת להוראות גרד אתה צריך לבחור את התבנית הרצויה מתוך ביצוע ב רשימה נפתחת, המופיעה בחלון האפשרויות שמופיע רגע לפני הוספת הוראות הגרד. שלוש האפשרויות העיקריות בבחירת תבנית הן כדלקמן:

  • כל הדפים - אל תשתמש בתבנית להוראות גירוד זה. הוראות הגרד יבוצעו בכל דפי האינטרנט.
  • תבנית ברירת מחדל - אל תשתמש באחת מהתבניות המוגדרות על ידי המשתמש. הוראות הגרד יבוצעו בכל דף אינטרנט שאין בו תבנית שצוינה.
  • תבנית מוגדרת על ידי משתמש - אחת מהתבניות שהוגדרו על ידיך כדי לזהות דף אינטרנט או פעולה מסוימים.

לאחר שבחרת אחת מהאפשרויות הללו, הוראות הגרד יבוצעו בתבנית שצוינה.

חילוץ נתונים

תבחין שכאשר תבחר ב- לחלץ נתונים פעולה סדרה של פריטי נתונים לחילוץ מיד הופכת לזמינה להורדה בפינה השמאלית התחתונה של המסך. אלה הם המאפיינים של כל הדף שאתה יכול להוריד. כדי לבחור אחת, פשוט בחר אותה מרשימת האפשרויות ולחץ על הַבָּא להוסיף את הנתונים ל- מערך נתונים.

אם ברצונך לחלץ נתונים באלמנטים HTML ספציפיים ולא שייכים לדף כולו עליך ללחוץ על רכיבי HTML הרלוונטיים, תוכל לבחור פריטים בודדים או מרובים. עם זאת, אם אתה בוחר פריטים מרובים, נסה לבחור פריטים מרובים שהם זהים, כמו מספר שורות בעמודה, מכיוון שאם המגרד לא יכול ליצור כלל שיכול לזהות באופן ייחודי את אוסף הנתונים שנבחר, הוראות גרוטאות לא ניתן ליצור. יתר על כן אם הפריטים המרובים שאתה לוחץ עליהם זוהו כנתונים חוזרים על ידי אשף מגרד האינטרנט שלנו, כל הנתונים החוזרים באותה קבוצה ייבחרו אוטומטית. לאחר שבחרת את כל הפריטים היחידים או המרובים שלך בחר תכונה לחילוץ משמאל למטה במסך ואז לחץ על הַבָּא.

יצירת מערך נתונים

מסך מערך הנתונים מאפשר לך לשנות את אופן עיבוד הנתונים, למשל אתה יכול לשנות את שם הנתונים ואת העמודות שבתוכו, פשוט לחץ על השם כדי לשנות את שמו. כשמוסיפים עמודה למערך נתונים, עליכם לבחור גם את התבנית בה היא אמורה להיות מבוצעת. תוכלו לשנות זאת על ידי לחיצה על הרשימה הנפתחת הממוקמת תחת שם העמודה.

לעתים קרובות כאשר מחלצים נתונים, מקובל שחלק מהפריטים החוזרים חוזרים על עצמם באופן לא עקבי, כדי להבטיח שהשורות הנכונות עדיין קשורות זו לזו. קישור עמודות קריטריונים, לקישור העמודות הלא עקביות עם העמודה העקבית ביותר במערך הנתונים.

להוספת נתונים נוספים למערך הנתונים לחץ על או לחץ על הלחצן כדי להסיר נתונים מהמערכת הנתונים, או למחיקת כל מערך הנתונים. מערך הנתונים מאפשר גם להחיל קריטריונים שונים על הנתונים, לשם כך בחר בפעולה הרצויה מלמעלה ולחץ על העמודה הרלוונטית כדי להחיל את הקריטריונים. אם אתה טועה בהוספת קריטריונים, לחץ על לַחְצָן.

להלן רשימת סוגי הקריטריונים השונים וכיצד להשתמש בהם:

  • הגבל שורות - זה יגביל את מספר השורות שחולצו מדף האינטרנט למספר שתגדיר. לשימוש בלחיצה ואז לחץ על השורה שמעבר לה ברצונך לנתק.
  • לחזור על - חוזר על פריטי העמודה עד שהעמודה תואמת את האורך של העמודה הארוכה ביותר. כדי להשתמש פשוט לחץ על ואז לחץ על העמודה שעבורה ברצונך לחזור על הפריטים.
  • הפוך לייחודי - מסיר את כל הערכים הכפולים של כל הערכים שהוזנו intoa טור. כדי להשתמש פשוט לחץ על ואז לחץ על העמודה שברצונך לייחד.
  • חלץ ערכים - ציין תבנית כדי לחלץ רק את פריטי הנתונים התואמים מגוש טקסט. כדי להשתמש פשוט לחץ בחר את העמודה הרלוונטית ואז עקוב אחר ההוראות ליצירת תבנית שתחזיר את הנתונים הרלוונטיים מה- string.
  • ערכים לקצץ - ציין תבנית לקצץ טקסט מיותר. כדי להשתמש פשוט לחץ על בחר את העמודה הרלוונטית ואז עקוב אחר ההוראות ליצירת תבנית שתחתוך את הטקסט.
  • קישור עמודות - מאפשר לקשר עמודות זו לזו. כך שכאשר מחלצים נתונים, רשומות יופיעו באותה שורה של השורה היחסית בעמודה המקושרת גם כאשר יש חוסר התאמה במספר התוצאות. כדי להשתמש פשוט לחץ , בחר את העמודה לקישור ואז את העמודה לקישור.
  • הסתר טור - לפעמים אתה רוצה לכלול עמודה לסינון, אך אינך רוצה לכלול את הערכים בתוצאה הסופית. לשם כך פשוט לחץ , בחר את העמודה שברצונך לכלול.
  • מיין לפי סדר עולה - ממיין לפי הטור, עולה. לשימוש בלחיצה ואז בחר את העמודה למיון לפי.
  • מיין יורד - ממיין לפי הטור, יורד. לשימוש בלחיצה ואז בחר את העמודה למיון לפי.
  • מכיל - כלול רק ערכים המכילים את הערך המוגדר. לשימוש בלחיצה בחר את העמודה הרצויה ואז הזן את הערך שערכי העמודות צריכות להכיל.
  • שווה ל - כלול רק ערכים השווים לערך המוגדר. לשימוש בלחיצה בחר את העמודה הרצויה והזן את הערך שערכי העמודה צריכים להיות שווים אליו.
  • לא שווה ל - כלול רק ערכים שאינם שווים לערך המוגדר. לשימוש בלחיצה בחר את העמודה הרצויה והזן את הערך שהעמודה לא אמורה להיות שווה אליו.
  • פחות מ - כלול רק ערכים שהם פחות מהערך שהוגדר. לשימוש בלחיצה כדי לבחור את העמודה הרצויה ואז להזין את הערך שהעמודה צריכה להיות פחותה מ.
  • גדול מ - כלול רק ערכים שהם גדולים מהערך המוגדר. לשימוש בלחיצה כדי לבחור את העמודה הרצויה ואז להזין את הערך שהעמודה צריכה להיות גדולה ממנו.

לאחר שבחרת אחת מהפעולות שלעיל אם זה יכול להשפיע על מספר עמודות, הוא ישאל אותך אם אתה רוצה רק לאפשר לו להשפיע על קבוצת משנה של העמודות או על כולן. ברוב המקרים אתה רוצה שזה ישפיע על כל העמודות, אולם בנסיבות מסוימות כדאי להגביל את העמודות שבוצעו. לדוגמה, אם אתה בוחר סדרה של תוויות וערכים, שמשנים מיקום בין דפי אינטרנט, באפשרותך לבחור את כל התוויות והערכים. ואז במערך הנתונים השתמש בפעולה שווה כדי להגביל אותה לתווית הרצויה ולציין שרק יש להשפיע על עמודות התווית והערך. זה יבטיח כי העמודות האחרות לא יושפעו על ידי מחיקה של שורות, לצורך השלמות יהיה כדאי להסתיר את עמודת התווית.

לאחר ששנית את כל מה שאתה רוצה, לחץ על הַבָּא וכן הוראות הגרד שלך יתווספו לגרד.

מניפולציה של דף אינטרנט

ניתן לתפעל דף אינטרנט לפני גירודו, על ידי לחיצה, הקלדה ובחירת ערכים מהתפריטים הנפתחים. חשוב לזכור שלמרות שהדבר יכול לגרום לדף אינטרנט חדש לטעון את הוראות הגרד לא יופעל מחדש עד לביצוע כל הוראות הגירוד.

כדי לתפעל דף אינטרנט בחר באפשרות אחת לחץ על רכיב, אלמנט רחף, גְלִילָה, הקלד טקסט or בחר ערך רשימה נפתחת פעולות. אם אתה מבצע פעולת קליקים אתה יכול ללחוץ על מספר אלמנטים כלשהם בדף אינטרנט. אחרת עליך לבחור באלמנט HTML מתאים, למשל יש להקליד טקסט בתיבת טקסט. ואז לחץ הַבָּא. זה יפתח תיבת אפשרויות המאפשרת לך להשלים את הפעולה. בעת הקלדת טקסט ובחירה מהתפריט הנפתח יש לבחור את הנתונים שיש להקליד או לבחור. פרט לכך שהאופציות זהות לכל שלוש הפעולות.

אם תרצה, תוכל לבחור בתבנית פעולה זו צריכה להיות מבוצעת ולפעולת הלחיצה באיזו תבנית חלה, ברגע שפעולת הלחיצה תושלם. עם זאת, לא להקצות תבנית חדשה לפעולת קליקים המבצעת מספר לחיצות באותו דף, זה לא רעיון טוב, כמו למשל לפתוח קופצים מקוונים או לגרום לדברים להופיע על המסך. הסיבה לכך היא שאם פעולת הלחיצה מבוצעת רק בתבניות מסוימות, התבנית החדשה שהוקצתה על ידי הקלקה הראשונה לא תתאפס ולכן תלוי באיך נכתב השריטה זה יכול לעצור את הקליקים העתידיים על אותו דף שמבצעים. אתה יכול גם להגדיר אם אתה רוצה שפעולה זו תבוצע רק פעם אחת, וזה שימושי אם אתה עושה משהו כמו התחברות intאתר oa.

פעולות Type Type או Select List List List בחר מאפשרות להקליד מספר פריטי טקסט או לבחור מספר תיבות בחירה בהתאמה. ניתן לערוך את אלה על ידי לחיצה על הוראות הגרד שנה או צפה במשתנים כפתור, כמוצג בתמונת המסך משמאל.

זה יכול להיות חשוב אם ברצונך להקליד רשימת שמות לתיבת חיפוש, למשל. כדי להבטיח טופס מוגש רק כאשר יש ערך בתיבת החיפוש ניתן להגדיר תבנית בכל פעם שהטקסט מקליד בהצלחה into תיבת הטקסט ופעולת הלחיצה על כפתור שלא בוצעו אלא אם כן מוגדרת תבנית זו. לאחר ביצוע פעולת הלחיצה, התבנית הייתה צריכה להיות שונה למשהו אחר על מנת לאפס את הנוהל.

לאחר ביצוע פעולות שמפעילות אתרים, כדאי לחכות זמן מה אם הפעולות יוזמות פונקציונליות של AJAX, כדי לאפשר לטעון את תוכן ה- AJAX לפני שממשיכים עם הגרד. אתה יכול לעשות זאת על ידי הוספת עיכוב ב- לאחר ההוצאה להורג המתן תיבת טקסט.

ייתכן שתרצה לקפוץ ישר לכתובת אתר אחרת לאחר שהתנאי מתקיים. לשם כך השתמש ב- עבור אל כתובת האתר פעולה שתופיע רק כאשר הוגדרה לפחות תבנית אחת בשריטה וכאשר נוצרה יש להקצות אותה לתבנית, כדי לעזור במניעת לולאות אינסופיות.

סוף סוף אתה יכול להשתמש בכל ממשקי ה- API של לכידת GrabzIt במגרדות האינטרנט שלך, פשוט בחר בפעולה של דף האינטרנט לכידת ובחר את הלכידה הרצויה לך. אתה יכול להגביל את זה כדי ללכוד דפי אינטרנט מסוימים בתוך הגרד על ידי ציון תבנית שתבצע לאחר שתבחר הַבָּא לַחְצָן.

לאחר הוספת כל הוראות גירוד ניתן לראות אותו בלוח ההוראות לגרד, הצלב שליד כל הוראות גירוד מאפשר למחוק את הוראות הגרד. אם מחיקת הוראות גירוד הנדרשות על ידי הוראות גרוטאות אחרות הוראות אלה יימחקו. אתה יכול לשנות את סדר הוראות הגרוט על ידי גרירת הוראות גירוד עם סמל התפוס.

כתיבת הוראות לגרד באופן ידני

אם עליך להתאים אישית את הוראות הגרד בצורה ספציפית יותר או אם ברצונך לבצע קוד לפני או אחרי שריטות יהיה עליך לשנות את הוראות הגרד באופן ידני.

הוראות הגרד מבוססות JavaScript ועורך הקוד מגיע עם בודק תחביר, השלמה אוטומטית והקלות כלים כדי להקל ככל האפשר.

הוראות מגרד רשת הפונקציונליות הליבה של עורך הקוד נגישה דרך אפשרויות התפריט, כפי שמוצג בצילום המסך, המטרה של כל אחת מוסברת בנפרד להלן. אמנם כל שגיאות תחביר בהוראות הגרוט שלך מצוינות בתרוקן היד השמאלית של עורך הקוד.

אשף האשף מאפשר לך לבחור חלקים מהדף שברצונך לחלץ ולבצע משימות נפוצות אחרות כגון יצירת תצלומי אינטרנט.

הצג הוראות לגרד מציג למשתמש את קוד הוראות השריטה.

מחק את כל ההוראות מוחק את כל הוראות הגרד.

פונקציות של דף אינטרנט תכניס את מילת המפתח לדף into הוראות הגרד ופתחו את ההשלמה האוטומטית, המכילה את כל האפשרויות פונקציות עמוד. פונקציות העמוד מאפשרות לך לחלץ נתונים מדף האינטרנט.

פונקציות נתונים יכנס למילת המפתח נתונים into הוראות הגרד. פונקציות נתונים לאפשר לך save מידע.

פונקציות ניווט מזין את מילת המפתח הניווט into עורך הקוד. ה פונקציות ניווט מאפשרים לך לשלוט באופן בו מגרד האינטרנט מנווט באתרי היעד.

פונקציות גלובליות מזין את מילת המפתח הגלובלית into הוראות הגרד. זה נותן לך גישה פונקציות שיכול לאחסן נתונים בין ניתוח דפי אינטרנט שונים. בעת כתיבת הוראות גירוד חשוב לזכור שמצב משתני JavaScript בהוראות הגרד אינו נשמר כאשר המגרד נע בין דפי אינטרנט, אלא אם כן אתה משתמש בפונקציות הגלובליות כדי save משתנים, כמוצג להלן.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

כדי ליצור משתנה גלובלי מתמשך הנכון לפרמטר התמיד בשיטת Global.set, כמוצג להלן.

Global.set("myvariable", "hello", true);

פונקציות שירות מזין את מילת המפתח השירות into הוראות הגרד. זה מאפשר לך להשתמש פונקציות נפוצות שמקלות על כתיבת קלות, כגון הוספה או הסרה של שאילתהstring פרמטרים מכתובות אתרים.

פונקציות קריטריונים מזין את מילת המפתח קריטריונים into הוראות הגרד. אלה פונקציות מאפשר לך לחדד את הנתונים שחולצו במהלך השריטה שלך, כגון ביטול כפילויות.

מסנן מאפשר לך ליצור מסנן בקלות, הדבר נדרש מכמה פונקציות לבחירת אלמנט HTML מסוים מתוך דף אינטרנט. כל שעליך לעשות הוא לבחור את התכונות שיש לאלמנט היעד שלך ו / או האב / ים של האלמנט צריכים להיות צריכים לבחור את אותו אלמנט. ודא שלפני שאתה לוחץ על אפשרות זו הסמן שלך נמצא במקום הנכון בפונקציה כדי לעבור גם את המסנן.

פונקציות צילום מסך מאפשר לך להגדיר אפשרויות צילום מסך. כל שעליך לעשות הוא למקם את הסמן בחלק הנכון של הפונקציה, כפי שמזוהה על ידי הסבר הכלים ולחץ על אפשרויות המסך. לאחר מכן בחר את כל האפשרויות הרצויות והוסף את הפקודה.

ביצוע פעולות לפני שריטה או אחריה

באפשרותך להריץ פקודות לפני או אחרי גירוד באמצעות הרשימה הנפתחת של האפשרויות שבראש הכרטיסייה הוראות גרוטאות. פקודות שהוזנו מתי ביצוע לאחר גירוד שנבחר יופעל לאחר השלמת הגרד. ואילו פקודות כלשהן נכנסו מתי ביצוע לפני גירוד שנבחר יופעל לפני שהשריטה תתחיל.

עם זאת כאשר באחד משני המצבים המיוחדים הללו קיימת רק תת-קבוצה של הוראות הגרד. הפקודות הזמינות הן הוראות לגרד נתונים, גלובלי וניווט.

Strings

Stringמשמשים להוראות גירוד, בעת ביצוע גרד רשת, להגדרת טקסט. א string מתוחם על ידי כפול (") או ציטוטים יחידים ('). אם string מתחיל בציטוט כפול זה חייב להסתיים בציטוט כפול, אם א string מתחיל בציטוט בודד עליו להסתיים בציטוט בודד. לדוגמה:

"my-class" ו 'my-class'

שגיאה נפוצה שיכולה להתרחש היא הלא סגורה string שגיאה, זה כאשר א string אין הצעת מחיר לסגירה כמוצג לעיל או שיש הפסקה בקו string. להלן החוקיים strings:

"my
class"

"my class

כדי לתקן שגיאה זו היא להבטיח שהיא לא מכילה מעברי שורה ויש להם הצעות מחיר תואמות, כך:

"my class" ו "my class"

לפעמים אתה רוצה שציטוט בודד או כפול יופיע בסעיף string. הדרך הקלה ביותר לעשות זאת היא לשים ציטוט בודד בסעיף string תוחם עם ציטוטים כפולים וציטוט כפול ב string תוחם עם ציטוטים יחידים, כך:

"Bob's shop" ו '"The best store on the web"'

לחלופין אתה יכול להשתמש בקו אחורי כדי להימנע מציטוט כזה:

'test\'s'

משימות גירוד ידניות נפוצות

בודק קישור צור בודק קישור מותאם אישית - גלה כיצד ליצור בודק קישור מותאם אישית על ידי ביצוע ההוראות הפשוטות הבאות.
הורדת תמונה הורד את כל התמונות מאתר אינטרנט - גלה כיצד להוריד את כל התמונות מאתר שלם.
צור מערך נתונים לחלץ נתונים ולהפוך אותם intנתונים סטטיסטיים - גלה כיצד ליצור מערך נתונים מהאתר שאתה מגרד.
חלץ קישורים חלץ קישורים מאתר - גלה כיצד לחלץ את כל קישורי ה- HTML מאתר אינטרנט שלם save אותם בפורמט הרצוי לך.
בחר טקסט חילוץ ערכים מטקסט באמצעות תבניות - גלה כיצד להשתמש בתבניות כדי לחלץ ערכים מגושי טקסט.
OCR חלץ טקסט מתמונות - גלה כיצד לחלץ טקסט הכלול בתמונות.
מערך נתונים כיצד לרפד מערך נתונים - פרמט את הנתונים שחולצו טוב יותר באמצעות ריפוד.
מערך מניפולציה של מערכים - גלה כיצד להשתמש בשיטות השירות המיועדות למערך כדי להתמודד בקלות עם מערכים בתוך שריטות.
פעולה בצע פעולה רק פעם אחת במהלך השריטה - גלה כיצד לבצע פעולה פעם אחת בלבד במהלך גירוד שלם.
לחדד זיקוק נתונים מגרדים - גלה כיצד להסיר נתונים שאינם נדרשים מהגרוטאות שלך.
כתובת דוא"ל גרד כתובות דוא"ל מאתר - גלה כיצד לגרד את כל כתובות הדואר האלקטרוני מאתר אינטרנט.
תמונת מסך צילום מסך שלם באתר into קובצי PDF או תמונות - גלה כיצד להשתמש במגרד האינטרנט של GrabzIt כדי לתפוס כל עמוד באתר שלם.
תמונת מסך חלץ מידע מובנה מטקסט לא מובנה - השתמש ב- GrabzIt כדי לחלץ רגש, שמות, מיקומים וארגונים.

גירוד תוכן שאינו HTML

כאשר מגרד האינטרנט נתקל בקובצי PDF, XML, JSON ו- RSS, הוא ימיר אותו לקירוב HTML, המאפשר למגרד האינטרנט שלנו לנתח אותו נכון ולבחור איזה תוכן ברצונך לחלץ. לדוגמה, אם רצית לנתח את נתוני JSON זה ימיר את הנתונים into ייצוג HTML היררכי כפי שמוצג לצד. זה מאפשר לך לבנות הוראות לגרד כרגיל.

באופן דומה כאשר המגרד טוען מסמך PDF, ה- PDF מומר into HTML המאפשר לבחור ולגרוט תמונות, היפר-קישורים, טקסט וטבלאות. עם זאת מכיוון של- PDF אין מבנה אמיתי, הטבלאות מזוהות באמצעות היוריסטיקות ולכן הן לא תמיד מדויקות.

אפשרויות ייצוא

כרטיסייה זו מאפשרת לך לבחור כיצד ברצונך לייצא את התוצאות שלך את האפשרויות שלך, כולל גיליונות אלקטרוניים של Excel, XML, JSON, CSV, SQL או מסמכי HTML. בנוסף, כרטיסייה זו מאפשרת להגדיר את שם תוצאות הגרד הרוכסן. אם אתה מוריד רק קבצים או יוצר צילומי אינטרנט, אין צורך לבחור באפשרות ייצוא שכן פשוט תקבל קובץ ZIP המכיל את התוצאות. כרטיסייה זו מאפשרת גם לציין כיצד ברצונך לשלוח את התוצאות. אתה יכול לשלוח את התוצאות דרך אמזון S3, Dropbox, הודעת דוא"ל, fTP ו WebDav.

האפשרות הסופית היא כתובת URL של התקשרות חוזרת, המאפשרת לעבד את תוצאות השריטה ביישום שלך באמצעות שלנו גרד API.

ניתן להגדיר את שם הקובץ של התוצאות הרוכסות או כל קובץ נתונים אם תבקש לשלוח אותם בנפרד על ידי ביטול הסימון באפשרות השתמש בשם קובץ ברירת המחדל והגדרת שם הקובץ הרצוי.

לוח הזמנים לגרד

בעת יצירת גרד רשת, הכרטיסייה גרד לוח זמנים מאפשרת לך להגדיר מתי תרצה שהשריטה תתחיל ואם תרצה שהיא תחזור, באיזו תדירות היא צריכה לעשות זאת.

מעקב אחר מגרדים ושגיאות ניפוי

ברגע שהגרד באינטרנט יתחיל סמל הסטטוס ישתנה ל והדפים המעובדים יתחילו לעלות עם הזמן. תמונת מצב בזמן אמת של התקדמות הגרוטאות מופקת באופן קבוע כאשר נוצר קובץ יומן יחד עם צילום מסך רגיל של דף האינטרנט האחרון בו נקלע המגרד. זה מאפשר לך לראות מה קורה במהלך השריטה. כדי למצוא מידע זה, לחץ על סמל ההרחבה שליד הגרד ולחץ צופה בשביל הגרד שאתה intנמחק. זה אמור לפרט אם היו שגיאות, כגון בעיות בהוראות הגרד שלך.

לאחר השריטה הושלמה בהצלחה אייקון הסטטוס יעבור ל , אם אין תוצאה על ידי פתיחת הצופה היומן וה צילום מסך האחרון עשוי לספר לך מה השתבש.

אחת הבעיות השכיחות ביותר שדווחו ביומני היא שאין עיכוב עיבוד מספיק כדי לגרד את הדף, לעיתים קרובות גידול קטן ב- עיכוב טעינת דף נמצא ב גרד אפשרויות הכרטיסייה מספיקה לרוב האתרים.