כלים ללכידה ולהמרה של האינטרנט

חילוץ נתונים ממסמכי PDF

גרידת נתונים מתוכן מסמכי PDF אינה גמישה כמו ביצוע מסמכי HTML, אולם עדיין קיימות מספר דרכים בהן ניתן להשיג באמצעות מגרד האינטרנט של GrabzIt. ראשית כדי לגרד תוכן PDF שאתה משתמש בו PDF פונקציות ולא Page פונקציות אך אחרת הפונקציות פועלות בדרך כלל באותה צורה.

מסנן למסמך PDF הוא הרבה יותר פשוט מזה של מסמך HTML קודם כל עליך לציין איזה סוג תוכן תרצה לחלץ: קישורים, תמונות או טקסט.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

לקישורים ותמונות תוכלו להגביל איזו תמונה או קישור מוחזרים על ידי ציון המיקום שלהם.

PDF.getValue({"type":"image","position":"2"});

מקבל את התמונה השנייה במסמך. לטקסט, תמונות וקישורים תוכלו להגביל עוד יותר את הנתונים המוחזרים על ידי ציון מספר עמוד.

PDF.getValue({"type":"image","position":"2","page":"5"});

פעולה זו תחזיר את התמונה השנייה מהעמוד החמישי. טקסט מגיע עם האפשרות הנוספת של מספר שורה, אולם טקסט אינו תומך במיקום.

PDF.getValue({"type":"text","page":"5","line":"10"});

זה מקבל את השורה העשירית של הטקסט מהעמוד החמישי. מלבד ההבדלים בין אפשרויות סינון אלה, גירוד נתונים ממסמכי PDF עובד בצורה דומה מאוד גרידת נתונים ממסמכי HTMLעם זאת מכיוון שאינך יכול להיות ספציפי למה שאתה מחלץ באמצעות מסנן PDF, ייתכן שתצטרך לציין א דפוס כדי לחלץ את המידע הנכון מהטקסט.