כלים ללכידה ולהמרה של האינטרנט

לחלץ נתונים ולהפוך אותם intנתונים סטטיסטיים

אחת הדרישות הנפוצות ביותר היא לחלץ נתונים מאתר אינטרנט ולהפוך אותם intמבנה טבלאי שניתן לייצא להמשך עיבוד. אבל רק מהו מערך נתונים וכיצד משתמשים בו מגרד האינטרנט של GrabzIt?

מערך דוגמה: מחירון

להלן נתוני הטבלה הכלולים במערך הנתונים רשימת מחירים, הטבלה מורכבת משלוש עמודות תווית פריט, תיאור פריט ו מחיר מוצר.

תווית פריט תיאור פריט מחיר מוצר
מצלמה מצלם תמונות דיגיטליות ₪99.00

כדי ליצור מערך נתונים זה תצטרך להשתמש בהוראות הגרד שלהלן.

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

זה משתמש ב- Data.save שיטה להוסיף א ערך נתונים לספציפית מערך נתונים ו סקירה. בכל פעם Data.save שיטה נקראת עם אותו מערך נתונים ופרמטרים של שם העמודה, שורה חדשה מתווספת לעמודה זו. עם זאת הוראות הגרוט לעיל אינן שימושיות במיוחד מכיוון שאנו יוצרים את מערך הנתונים באמצעות ערכים סטטיים. הקוד שלהלן מראה את ה- HTML של דף אינטרנט, לאחר מכן נכתוב הוראות גרוטאות לחילוץ דינמי של הנתונים מהדף ו save it intנתונים סטטיסטיים.

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

אנו נשתמש כעת ב- Page.getTagValue שיטה לחילוץ הערכים מתגי הטווח.

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

כפי שאתה יכול לראות את Page.getTagValue שיטות משתמשות בפילטר שמזהה באופן ייחודי את אלמנט ה- HTML ממנו צריך להוציא את הטקסט. במקרה זה המסננים מציינים כי תכונה HTML id צריכה להיות שווה spnLabel, spnDescription or spnPrice בהתאמה. אתה יכול ליצור מסנן בקלות על ידי לחיצה על לחצן סינון סמל, המציג אשף לפשטות את בניית המסנן.

לאחר שבנית את מערך הנתונים שלך כפי שהראנו כאן, אתה יכול להחליט כיצד ברצונך לייצא אותו ב- אפשרויות ייצוא TAB.