כלים ללכידה ולהמרה של האינטרנט

תיעוד מגרד רשת

על מנת ליצור גרד אינטרנט עליך לציין חמישה סוגים של מידע, הפרוסים על הכרטיסיות הבאות.

  1. גרד אפשרויות
  2. אתר יעד
  3. הוראות לגרד
  4. אפשרויות ייצוא
  5. לוח הזמנים לגרד

גרד אפשרויות

כל התכונות הבאות זמינות להתאמה אישית של גירוד באינטרנט בכרטיסייה אפשרויות גירוד.

גרד שם שם הגרד.

עקוב אחר קישורים מספק את האפשרויות הבאות כיצד המגרד צריך לעקוב אחר קישורים:

התעלם מהורדות קבצים הגדר פעם קישורים כלשהם הגורמים להורדת קובץ כשאתה מבקר לא יורדים.

התעלם מקובץ Robots.txt אם הגדרת המגרד יכול לבקר בדפי האינטרנט שבדרך כלל לא נכללים בסריקה על ידי בעל האתר.

התעלם מדפי שגיאה אם מוגדר, מגרד האינטרנט ידלג על כל דפי אינטרנט המדווחים על שגיאה. אז כל קודי סטטוס HTTP 400 ומעלה.

התעלם משברי כתובות אתרים אם מוגדר, מגרד האינטרנט יתעלם מהחלק של כתובת האתר שאחרי # תכונה זו משמשת בדרך כלל לציון סימניה באותו עמוד ולכן בדרך כלל תגרום לשריטה של ​​דפים מיותרים. עם זאת, חלק מהאתרים משתמשים בתכונה זו כדי להציג תוכן שונה, ובמקרה זה יש להשבית הגדרה זו. אפשרות זו חלה רק כאשר מעקב אחר קישורים אינו כנדרש.

התעלם מכפילויות אם ההגדרה היא תתעלם מדפים שהם שווים או יותר מהדמיון שקבעת, לדוגמה אתה יכול להתעלם מדפים שהם 95% זהים.

הגבל את השריטה מאפשר לך לציין כמה דפים על מגרד האינטרנט לגרד לפני שתפסיק.

השתמש באזור הזמן שלי אם מוגדר זה מציין כי מגרד האינטרנט צריך לנסות להמיר תאריכים שהוא מגרד into אזור הזמן המקומי שלך. ניתן להגדיר את אזור הזמן שלך בדף החשבון.

מקום המיקום הגאוגרפי שמגרד האינטרנט יבצע את הגרד ממנו. זה יכול להיות שימושי אם לאתר היעד יש מגבלות על בסיס מיקום.

פורמט תאריך ברירת מחדל בעת המרת תאריכים שבהם לא ניתן לקבוע את פורמט התאריך, מגרד האינטרנט יהיה במקום זאת כברירת מחדל לפורמט שנבחר.

עיכוב טעינת דף זה הזמן באלפיות השנייה שמגרד האינטרנט צריך להמתין לפני ניתוח הדף. זה שימושי מאוד אם דף מכיל הרבה AJAX או איטי לטעון.

אתר יעד

אתר יעד

בלשונית אתר יעד אתה מציין אתרים שאתה רוצה לחלץ מהם נתונים. כדי לומר לכלי הגרידה לחלץ נתונים מאתר אינטרנט, תחילה עליך לציין את כתובת האתר הראשית שאתה intשנמחק למשל http://www.example.com/shop/ זה היה בו המגרד יתחיל את השריטה שלו, זה יכול להיות דף אינטרנט רגיל, מסמך PDF, מסמך XML, מסמך JSON, עדכון RSS או Sitemap. אם זה לא דף אינטרנט או מסמך PDF, המגרד ימצא את כל הקישורים בקובץ ויבקר בכל אחד מהם.

כדי לעקוב רק אחר הקישורים שנמצאים בכתובת היעד ולא בדפים הבאים אתה יכול להגדיר עקוב אחר קישורים אפשרות לגרד ל בעמוד הראשון. פעולה זו תשתמש בכתובת אתר היעד רק כדי לזרוע את שאר הגרד.

תבנית כתובת אתר

כברירת מחדל, מגרד האינטרנט עוקב אחר כל קישור שהוא מגלה בכל דף אינטרנט בו הוא מבקר. אם אתה רוצה להגביל את מה שקושר ל- מגרד רשת להלן, דרך פשוטה אחת לעשות זאת היא לציין דפוס כתובת URL. טכניקה רבת עוצמה זו פועלת בעיקר על ידי ציון כתובת URL עם הכוכבית כתו כללי כדי לציין שכל התווים יכולים להיות נוכחים בחלק זה של התבנית. לדוגמה http://www.example.com/*/articles/* היה מגרד את כל ה- URL שיש בו מאמרים כתיקייה השנייה מהשורש של האתר.

דרך מגבילה יותר להגדיר תבנית URL היא הגדרת חלופות. לדוגמא דוגמה זו תתאים רק לחנות או לחדשות: http://www.example.com/ /*

לכן זה יתאים לזה http://www.example.com/store/products/1 אך לא http://www.example.com/about/.

או לחילופין אפשר להתאים הכל אבל משהו. לדוגמה, דוגמה זו לא תתאים לחנות או לחדשות: http://www.example.com/ /*

לכן זה יתאים לזה http://www.example.com/about/ אך לא http://www.example.com/store/products/1!

דפוס כתובת אתר יכול להכיל גם מילות מפתח. מילת מפתח היא כל דבר הכלול בסוגריים מרובעים כפולים. כך [[URL_START]]www.example.com* יתאים לכל התחלה חוקית של כתובת אתר כך http://www.example.com/, https://www.example.com/ או אפילו ftp://www.example.com/ לדוגמה.

URL של זרעים

כתובות אתרים לזרע מאפשרות למשתמש לציין רשימה של כתובות אתרים שצריך לסרוק על ידי מגרד האינטרנט. אם אתה רק רוצה שכתובות האתר של הזרע ייגרדו, קבע את עקוב אחר קישורים לגרד אפשרויות ל אין דפים בכרטיסייה אפשרויות גירוד.

כדי להגדיר כתובות אתרים זרעים בכרטיסייה אתר יעד, לחץ על הלחצן הוסף יעד ולאחר מכן סמן את תיבת הסימון הגדר כתובות זרעים וציין כל כתובת אתר לגרידה בשורה נפרדת.

צור URL של זרעים מכתובת אתר של תבנית

לחלופין ניתן ליצור באופן אוטומטי URL של זרעים באמצעות כתובת אתר של תבנית, זוהי כתובת אתר אחת הכוללת משתנה של כתובת אתר. משתנה של כתובת אתר מציין טווח של מספרים שאפשר לחזור עליהם.

מספר ההתחלה הוא המספר שמשתנה ה- URL צריך להתחיל לספור בו, מספר הסיום הוא המספר שמשתנה ה- URL יפסיק לספור עליו, המספר האיטרי הוא המספר שהמספר יגדל עבור כל איטרציה של משתנה ה- URL.

למשל עבור כתובת האתר של התבנית הבאה http://www.example.com/search?pageNo=

לאחר מכן תיצור את כתובות האתר של הזרעים הבאים:

ביצוע פוסט

כתובת האתר יכולה גם לציין כתובת URL עם פרמטרים ל- POST מדי למשל טופס כניסה. לשם כך ציין את כתובת האתר בטופס בתיבת הטקסט כתובת אתר יעד והוסף את פרמטרי הפוסט הדרושים לשימוש. ערכי משתנים רשומים יכולים לכלול גם משתנים מיוחדים של GrabzIt, כגון:

הוראות לגרד

הוראות לגרד מספרות למגרד האינטרנט אילו פעולות לבצע בעת גירוד אתר היעד. הכרטיסייה הוראות גרד מציגה את אשף הגרידה כברירת מחדל, מה שמקל על הוספת הוראות הגירוד הדרושות לכם. דוגמה טובה לשימוש באשף זה מוצגת ב רשימת מוצרים והדרכת גירוד פירוט.

ברגע שאתה מוכן להתחיל לגרד לחץ על הוסף הוראות שריטות חדשות קישור.

פעולה זו תפתח את האשף ותטען אוטומטית את כתובת אתר היעד, ותאפשר לך לבחור מייד את מה שתרצה שיגרוט. אם נטען דף אינטרנט או מסמך PDF אתה יכול ללחוץ על כל קישור והוא יפעל כרגיל, למשל ניווט לדף אינטרנט אחר. עד שתבחר באחת מהפעולות, בתחתית המסך, בכתובת זוint כל קליק על התוכן יבחר באלמנט ה- HTML שברצונך לחלץ או לתפעל.

הדבר הראשון שיש להבין לגבי הוראות גירוד הוא שהן מבוצעות בכל דף אינטרנט כברירת מחדל. הדרך לעצור זאת היא באמצעות תבניות. ניתן להקצות תבנית בעת ביצוע פעולה כמו לחיצה על קישור, וכדי שבכל פעם שהמגרד מבקר בקישור או לוחץ על הכפתור הוא יזהה שהוא שייך לתבנית שהוקצתה. זה מאפשר להגדיר סוגי דפים שונים. לדוגמה, ייתכן שיהיה לך דף קטגוריית מוצרים המכיל מידע סקירה כלשהו ואז דף פירוט המכיל את פרטי המוצר. שני הדפים יצטרכו כנראה קבוצה אחרת של הוראות גירוד.

תבנית מגרד

כדי להתחיל, בחר את נְקִישָׁה לאחר שבחרתם את הפריטים עליהם ברצונכם לבצע את הפעולה ולחצו על הַבָּא כפתור הזן את שם התבנית ב - צור תבנית תיבת טקסט כעת בכל פעם שהמגרד מבצע פעולות אלה, התבנית שהוחזרה תהיה השם שסיפקת.

לאחר מכן כדי להקצות תבנית מסוימת להוראות גרד אתה צריך לבחור את התבנית הרצויה מתוך ביצוע ב רשימה נפתחת, המופיעה בחלון האפשרויות שמופיע רגע לפני הוספת הוראות הגרד. שלוש האפשרויות העיקריות בבחירת תבנית הן כדלקמן:

לאחר שבחרת אחת מהאפשרויות הללו, הוראות הגרד יבוצעו בתבנית שצוינה.

חילוץ נתונים

תבחין שכאשר תבחר ב- לחלץ נתונים פעולה. הפינה השמאלית התחתונה של המסך מזמינה אתכם לבחור אלמנט HTML בחלון למעלה או לבחור מאפיין עמוד גלובלי.

כדי להשתמש במאפיין עמוד גלובלי, לחץ על נכס עמוד גלובלי קישור. ואז אשר שאתה רוצה להמשיך. כעת תהיה לכם רשימת מאפיינים שניתן לחלץ ישירות מהדף. למשל: כותרת העמוד.

כדי לבחור אחת, פשוט בחר אותה מרשימת האפשרויות ולחץ הַבָּא להוסיף את הנתונים ל- מערך נתונים.

אם ברצונך לחלץ נתונים באלמנטים HTML ספציפיים ולא שייכים לדף כולו עליך ללחוץ על רכיבי HTML הרלוונטיים, תוכל לבחור פריטים בודדים או מרובים. עם זאת, אם אתה בוחר פריטים מרובים, נסה לבחור פריטים מרובים שהם זהים, כמו מספר שורות בעמודה, מכיוון שאם המגרד לא יכול ליצור כלל שיכול לזהות באופן ייחודי את אוסף הנתונים שנבחר, הוראות גרוטאות לא ניתן ליצור. יתר על כן אם הפריטים המרובים שאתה לוחץ עליהם זוהו כנתונים חוזרים על ידי אשף מגרד האינטרנט שלנו, כל הנתונים החוזרים באותה קבוצה ייבחרו אוטומטית. לאחר שבחרת את כל הפריטים היחידים או המרובים שלך בחר תכונה לחילוץ משמאל למטה במסך ואז לחץ על הַבָּא.

יצירת מערך נתונים

מסך מערך הנתונים מאפשר לך לשנות את אופן עיבוד הנתונים, למשל אתה יכול לשנות את שם הנתונים ואת העמודות שבתוכו, פשוט לחץ על השם כדי לשנות את שמו. כשמוסיפים עמודה למערך נתונים, עליכם לבחור גם את התבנית בה היא אמורה להיות מבוצעת. תוכלו לשנות זאת על ידי לחיצה על הרשימה הנפתחת הממוקמת תחת שם העמודה.

לעתים קרובות כאשר מחלצים נתונים, מקובל שחלק מהפריטים החוזרים חוזרים על עצמם באופן לא עקבי, כדי להבטיח שהשורות הנכונות עדיין קשורות זו לזו. קישור עמודות קריטריונים, לקישור העמודות הלא עקביות עם העמודה העקבית ביותר במערך הנתונים.

להוספת נתונים נוספים למערך הנתונים לחץ על או לחץ על הלחצן כדי להסיר נתונים מהמערכת הנתונים, או למחיקת כל מערך הנתונים. מערך הנתונים מאפשר גם להחיל קריטריונים שונים על הנתונים, לשם כך בחר בפעולה הרצויה מלמעלה ולחץ על העמודה הרלוונטית כדי להחיל את הקריטריונים. אם אתה טועה בהוספת קריטריונים, לחץ על לַחְצָן.

להלן רשימת סוגי הקריטריונים השונים וכיצד להשתמש בהם:

לאחר שבחרת אחת מהפעולות שלעיל אם זה יכול להשפיע על מספר עמודות, הוא ישאל אותך אם אתה רוצה רק לאפשר לו להשפיע על קבוצת משנה של העמודות או על כולן. ברוב המקרים אתה רוצה שזה ישפיע על כל העמודות, אולם בנסיבות מסוימות כדאי להגביל את העמודות שבוצעו. לדוגמה, אם אתה בוחר סדרה של תוויות וערכים, שמשנים מיקום בין דפי אינטרנט, באפשרותך לבחור את כל התוויות והערכים. ואז במערך הנתונים השתמש בפעולה שווה כדי להגביל אותה לתווית הרצויה ולציין שרק יש להשפיע על עמודות התווית והערך. זה יבטיח כי העמודות האחרות לא יושפעו על ידי מחיקה של שורות, לצורך השלמות יהיה כדאי להסתיר את עמודת התווית.

לאחר ששנית את כל מה שאתה רוצה, לחץ על הַבָּא וכן, הוראות הגרד שלך יתווספו לגרד. לאחר מכן יש לך אפשרות להוסיף הוראות גרידה נוספות אם תרצה בכך.

מניפולציה של דף אינטרנט

ניתן לתפעל דף אינטרנט לפני גירודו, על ידי לחיצה, הקלדה ובחירת ערכים מהתפריטים הנפתחים. חשוב לזכור שלמרות שהדבר יכול לגרום לדף אינטרנט חדש לטעון את הוראות הגרד לא יופעל מחדש עד לביצוע כל הוראות הגירוד.

כדי לתפעל דף אינטרנט בחר באפשרות אחת לחץ על רכיב, אלמנט רחף, גְלִילָה, הקלד טקסט or בחר ערך רשימה נפתחת פעולות. אם אתה מבצע פעולת קליקים אתה יכול ללחוץ על מספר אלמנטים כלשהם בדף אינטרנט. אחרת עליך לבחור באלמנט HTML מתאים, למשל יש להקליד טקסט בתיבת טקסט. ואז לחץ הַבָּא. זה יפתח תיבת אפשרויות המאפשרת לך להשלים את הפעולה. בעת הקלדת טקסט ובחירה מהתפריט הנפתח יש לבחור את הנתונים שיש להקליד או לבחור. פרט לכך שהאופציות זהות לכל שלוש הפעולות.

אם תרצה, תוכל לבחור בתבנית פעולה זו צריכה להיות מבוצעת ולפעולת הלחיצה באיזו תבנית חלה, ברגע שפעולת הלחיצה תושלם. עם זאת, לא להקצות תבנית חדשה לפעולת קליקים המבצעת מספר לחיצות באותו דף, זה לא רעיון טוב, כמו למשל לפתוח קופצים מקוונים או לגרום לדברים להופיע על המסך. הסיבה לכך היא שאם פעולת הלחיצה מבוצעת רק בתבניות מסוימות, התבנית החדשה שהוקצתה על ידי הקלקה הראשונה לא תתאפס ולכן תלוי באיך נכתב השריטה זה יכול לעצור את הקליקים העתידיים על אותו דף שמבצעים. אתה יכול גם להגדיר אם אתה רוצה שפעולה זו תבוצע רק פעם אחת, וזה שימושי אם אתה עושה משהו כמו התחברות intאתר oa.

פעולות Type Type או Select List List List בחר מאפשרות להקליד מספר פריטי טקסט או לבחור מספר תיבות בחירה בהתאמה. ניתן לערוך את אלה על ידי לחיצה על הוראות הגרד שנה או צפה במשתנים כפתור, כמוצג בתמונת המסך משמאל.

זה יכול להיות חשוב אם ברצונך להקליד רשימת שמות לתיבת חיפוש, למשל. כדי להבטיח טופס מוגש רק כאשר יש ערך בתיבת החיפוש ניתן להגדיר תבנית בכל פעם שהטקסט מקליד בהצלחה into תיבת הטקסט ופעולת הלחיצה על כפתור שלא בוצעו אלא אם כן מוגדרת תבנית זו. לאחר ביצוע פעולת הלחיצה, התבנית הייתה צריכה להיות שונה למשהו אחר על מנת לאפס את הנוהל.

לאחר ביצוע פעולות שמפעילות אתרים, כדאי לחכות זמן מה אם הפעולות יוזמות פונקציונליות של AJAX, כדי לאפשר לטעון את תוכן ה- AJAX לפני שממשיכים עם הגרד. אתה יכול לעשות זאת על ידי הוספת עיכוב ב- לאחר ההוצאה להורג המתן תיבת טקסט.

ייתכן שתרצה לקפוץ ישר לכתובת אתר אחרת לאחר שהתנאי מתקיים. לשם כך השתמש ב- עבור אל כתובת האתר פעולה שתופיע רק כאשר הוגדרה לפחות תבנית אחת בשריטה וכאשר נוצרה יש להקצות אותה לתבנית, כדי לעזור במניעת לולאות אינסופיות.

סוף סוף אתה יכול להשתמש בכל ממשקי ה- API של לכידת GrabzIt במגרדות האינטרנט שלך, פשוט בחר בפעולה של דף האינטרנט לכידת ובחר את הלכידה הרצויה לך. אתה יכול להגביל את זה כדי ללכוד דפי אינטרנט מסוימים בתוך הגרד על ידי ציון תבנית שתבצע לאחר שתבחר הַבָּא לַחְצָן.

לאחר הוספת כל הוראות גירוד ניתן לראות אותו בלוח ההוראות לגרד, הצלב שליד כל הוראות גירוד מאפשר למחוק את הוראות הגרד. אם מחיקת הוראות גירוד הנדרשות על ידי הוראות גרוטאות אחרות הוראות אלה יימחקו. אתה יכול לשנות את סדר הוראות הגרוט על ידי גרירת הוראות גירוד עם סמל התפוס.

כתיבת הוראות לגרד באופן ידני

אם אתה צריך להתאים אישית את הוראות הגרידה בצורה ספציפית יותר תצטרך לשנות את הוראות הגרידה באופן ידני.

הוראות הגרד מבוססות JavaScript ועורך הקוד מגיע עם בודק תחביר, השלמה אוטומטית והקלות כלים כדי להקל ככל האפשר.

הוראות מגרד רשת הפונקציונליות הליבה של עורך הקוד נגישה דרך אפשרויות התפריט, כפי שמוצג בצילום המסך, המטרה של כל אחת מוסברת בנפרד להלן. אמנם כל שגיאות תחביר בהוראות הגרוט שלך מצוינות בתרוקן היד השמאלית של עורך הקוד.

אשף האשף מאפשר לך לבחור חלקים מהדף שברצונך לחלץ ולבצע משימות נפוצות אחרות כגון יצירת תצלומי אינטרנט.

הצג הוראות לגרד מציג למשתמש את קוד הוראות השריטה.

מחק את כל ההוראות מוחק את כל הוראות הגרד.

פונקציות של דף אינטרנט תכניס את מילת המפתח לדף into הוראות הגרד ופתחו את ההשלמה האוטומטית, המכילה את כל האפשרויות פונקציות עמוד. פונקציות העמוד מאפשרות לך לחלץ נתונים מדף האינטרנט.

פונקציות נתונים יכנס למילת המפתח נתונים into הוראות הגרד. פונקציות נתונים לאפשר לך save מידע.

פונקציות ניווט מזין את מילת המפתח הניווט into עורך הקוד. ה פונקציות ניווט מאפשרים לך לשלוט באופן שבו מגרד האינטרנט מנווט באתר היעד.

פונקציות גלובליות מזין את מילת המפתח הגלובלית into הוראות הגרד. זה נותן לך גישה פונקציות שיכול לאחסן נתונים בין ניתוח דפי אינטרנט שונים. בעת כתיבת הוראות גירוד חשוב לזכור שמצב משתני JavaScript בהוראות הגרד אינו נשמר כאשר המגרד נע בין דפי אינטרנט, אלא אם כן אתה משתמש בפונקציות הגלובליות כדי save משתנים, כמוצג להלן.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

כדי ליצור משתנה גלובלי מתמשך הנכון לפרמטר התמיד בשיטת Global.set, כמוצג להלן.

Global.set("myvariable", "hello", true);

פונקציות שירות מזין את מילת המפתח השירות into הוראות הגרד. זה מאפשר לך להשתמש פונקציות נפוצות שמקלות על כתיבת קלות, כגון הוספה או הסרה של שאילתהstring פרמטרים מכתובות אתרים.

פונקציות קריטריונים מזין את מילת המפתח קריטריונים into הוראות הגרד. אלה פונקציות מאפשר לך לחדד את הנתונים שחולצו במהלך השריטה שלך, כגון ביטול כפילויות.

סינון מאפשר לך ליצור מסנן בקלות, הדבר נדרש מכמה פונקציות לבחירת אלמנט HTML מסוים מתוך דף אינטרנט. כל שעליך לעשות הוא לבחור את התכונות שיש לאלמנט היעד שלך ו / או האב / ים של האלמנט צריכים להיות צריכים לבחור את אותו אלמנט. ודא שלפני שאתה לוחץ על אפשרות זו הסמן שלך נמצא במקום הנכון בפונקציה כדי לעבור גם את המסנן.

פונקציות צילום מסך מאפשר לך להגדיר אפשרויות צילום מסך. כל שעליך לעשות הוא למקם את הסמן בחלק הנכון של הפונקציה, כפי שמזוהה על ידי הסבר הכלים ולחץ על אפשרויות המסך. לאחר מכן בחר את כל האפשרויות הרצויות והוסף את הפקודה.

Strings

Stringמשמשים להוראות גירוד, בעת ביצוע גרד רשת, להגדרת טקסט. א string מתוחם על ידי כפול (") או ציטוטים יחידים ('). אם string מתחיל בציטוט כפול זה חייב להסתיים בציטוט כפול, אם א string מתחיל בציטוט בודד עליו להסתיים בציטוט בודד. לדוגמה:

"my-class" ו 'my-class'

שגיאה נפוצה שיכולה להתרחש היא הלא סגורה string שגיאה, זה כאשר א string אין הצעת מחיר לסגירה כמוצג לעיל או שיש הפסקה בקו string. להלן החוקיים strings:

"my
class"

"my class

כדי לתקן שגיאה זו היא להבטיח שהיא לא מכילה מעברי שורה ויש להם הצעות מחיר תואמות, כך:

"my class" ו "my class"

לפעמים אתה רוצה שציטוט בודד או כפול יופיע בסעיף string. הדרך הקלה ביותר לעשות זאת היא לשים ציטוט בודד בסעיף string תוחם עם ציטוטים כפולים וציטוט כפול ב string תוחם עם ציטוטים יחידים, כך:

"Bob's shop" ו '"The best store on the web"'

לחלופין אתה יכול להשתמש בקו אחורי כדי להימנע מציטוט כזה:

'test\'s'

משימות גירוד ידניות נפוצות

בודק קישור צור בודק קישור מותאם אישית - גלה כיצד ליצור בודק קישור מותאם אישית על ידי ביצוע ההוראות הפשוטות הבאות.
הורדת תמונה הורד את כל התמונות מאתר אינטרנט - גלה כיצד להוריד את כל התמונות מאתר שלם.
צור מערך נתונים לחלץ נתונים ולהפוך אותם intנתונים סטטיסטיים - גלה כיצד ליצור מערך נתונים מהאתר שאתה מגרד.
חלץ קישורים חלץ קישורים מאתר - גלה כיצד לחלץ את כל קישורי ה- HTML מאתר אינטרנט שלם save אותם בפורמט הרצוי לך.
בחר טקסט חילוץ ערכים מטקסט באמצעות תבניות - גלה כיצד להשתמש בתבניות כדי לחלץ ערכים מגושי טקסט.
OCR חלץ טקסט מתמונות - גלה כיצד לחלץ טקסט הכלול בתמונות.
מערך נתונים כיצד לרפד מערך נתונים - פרמט את הנתונים שחולצו טוב יותר באמצעות ריפוד.
מערך מניפולציה של מערכים - גלה כיצד להשתמש בשיטות השירות המיועדות למערך כדי להתמודד בקלות עם מערכים בתוך שריטות.
פעולה בצע פעולה רק פעם אחת במהלך השריטה - גלה כיצד לבצע פעולה פעם אחת בלבד במהלך גירוד שלם.
לחדד זיקוק נתונים מגרדים - גלה כיצד להסיר נתונים שאינם נדרשים מהגרוטאות שלך.
כתובת דוא"ל גרד כתובות דוא"ל מאתר - גלה כיצד לגרד את כל כתובות הדואר האלקטרוני מאתר אינטרנט.
תמונת מסך צילום מסך שלם באתר into קובצי PDF או תמונות - גלה כיצד להשתמש במגרד האינטרנט של GrabzIt כדי לתפוס כל עמוד באתר שלם.
תמונת מסך חלץ מידע מובנה מטקסט לא מובנה - השתמש ב- GrabzIt כדי לחלץ רגש, שמות, מיקומים וארגונים.

גירוד תוכן שאינו HTML

כאשר מגרד האינטרנט נתקל בקובצי PDF, XML, JSON ו- RSS, הוא ימיר אותו לקירוב HTML, המאפשר למגרד האינטרנט שלנו לנתח אותו נכון ולבחור איזה תוכן ברצונך לחלץ. לדוגמה, אם רצית לנתח את נתוני JSON זה ימיר את הנתונים into ייצוג HTML היררכי כפי שמוצג לצד. זה מאפשר לך לבנות הוראות לגרד כרגיל.

באופן דומה כאשר המגרד טוען מסמך PDF, ה- PDF מומר into HTML המאפשר לבחור ולגרוט תמונות, היפר-קישורים, טקסט וטבלאות. עם זאת מכיוון של- PDF אין מבנה אמיתי, הטבלאות מזוהות באמצעות היוריסטיקות ולכן הן לא תמיד מדויקות.

אפשרויות ייצוא

כרטיסייה זו מאפשרת לך לבחור כיצד ברצונך לייצא את התוצאות שלך את האפשרויות שלך, כולל גיליונות אלקטרוניים של Excel, XML, JSON, CSV, SQL או מסמכי HTML. בנוסף, כרטיסייה זו מאפשרת להגדיר את שם תוצאות הגרד הרוכסן. אם אתה מוריד רק קבצים או יוצר צילומי אינטרנט, אין צורך לבחור באפשרות ייצוא שכן פשוט תקבל קובץ ZIP המכיל את התוצאות. כרטיסייה זו מאפשרת גם לציין כיצד ברצונך לשלוח את התוצאות. אתה יכול לשלוח את התוצאות דרך אמזון S3, Dropbox, הודעת דוא"ל, fTP ו WebDav.

האפשרות הסופית היא כתובת URL של התקשרות חוזרת, המאפשרת לעבד את תוצאות השריטה ביישום שלך באמצעות שלנו גרד API.

ניתן להגדיר את שם הקובץ של התוצאות המקווצות או כל קובץ נתונים אם תבקש לשלוח אותם בנפרד על ידי ביטול הסימון של האפשרות השתמש בשם קובץ ברירת מחדל והגדרת שם הקובץ הרצוי. בנוסף, ניתן להוסיף חותמת זמן לשם הקובץ שלך על ידי הצבת {GrabzIt_Timestamp_UTC+1} בשם הקובץ. +1 מציין את הקיזוז בשעות מ- UTC.

ניתן גם להציג את תוצאות הגרידה על ידי לחיצה על צפה בתוצאות כפתור, ליד הגרידה שלך, זה יראה כל תוצאות גירוד בזמן אמת, כמו גם תוצאות קודמות שבוצעו במהלך 48 השעות האחרונות.

לוח הזמנים לגרד

בעת יצירת גרידה אינטרנט, הכרטיסייה Schedule Scrape מאפשרת לך להגדיר מתי אתה רוצה שהגרידה תתחיל ואם תרצה שהיא תחזור, באיזו תדירות היא צריכה לעשות זאת. ניתן גם להגדיר את הגרידה לפעול כאשר מזוהה שינוי בדף אינטרנט. כדי לעשות זאת התחל כאשר דף אינטרנט משתנה תיבת הסימון, ולאחר מכן הזן את כתובת האתר של דף האינטרנט למעקב, יחד עם בורר CSS של החלק שאתה נמצא בדף intחשוב שנבחר חלק קטן מהדף כדי למנוע תוצאות חיוביות שגויות עקב שינויים חסרי משמעות.

מעקב אחר מגרדים ושגיאות ניפוי

ברגע שהגרד באינטרנט יתחיל סמל הסטטוס ישתנה ל והדפים המעובדים יתחילו לעלות עם הזמן. תמונת מצב בזמן אמת של התקדמות הגרוטאות מופקת באופן קבוע כאשר נוצר קובץ יומן יחד עם צילום מסך רגיל של דף האינטרנט האחרון בו נקלע המגרד. זה מאפשר לך לראות מה קורה במהלך השריטה. כדי למצוא מידע זה, לחץ על סמל ההרחבה שליד הגרד ולחץ צופה בשביל הגרד שאתה intנמחק. זה אמור לפרט אם היו שגיאות, כגון בעיות בהוראות הגרד שלך.

לאחר השריטה הושלמה בהצלחה אייקון הסטטוס יעבור ל , אם אין תוצאה על ידי פתיחת הצופה היומן וה צילום מסך האחרון עשוי לספר לך מה השתבש.

אחת הבעיות השכיחות ביותר שדווחו ביומני היא שאין עיכוב עיבוד מספיק כדי לגרד את הדף, לעיתים קרובות גידול קטן ב- עיכוב טעינת דף נמצא ב גרד אפשרויות הכרטיסייה מספיקה לרוב האתרים.