כלים ללכידה ולהמרה של האינטרנט

כיצד לחלץ באופן אוטומטי מידע מובנה מטקסט לא מובנה?

טקסט כתוב רגיל יכול לכלול מידע רב שלא ניתן לחילוץ בקלות. למשל משפט אולי ביקורת על חברה אבל איך אתה יודע אם זו ביקורת טובה או רעה?

מגרד אינטרנט רגיל לא יוכל לחלץ מידע זה. עם זאת GrabzIt יכול להשתמש בכך שהוא מובנה ביכולות עיבוד שפה טבעיות. כפי שמוצג בדוגמה למטה, טקסט העמוד מנותח ומחזיר את אחד הערכים הבאים שלילי מאוד, שלילי, ניטרלי, חיובי וחיובי מאוד.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

למרות מגרד האינטרנט של GrabzIt יכול לחלץ הרבה יותר מטקסט כולל איתור שפות, שמות של מיקומים, שמות של אנשים ושמות של ארגונים. דוגמאות להלן.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

אינך צריך לכתוב אף אחת מהוראות הגרוטאות האלה בעצמך, מכיוון שהן יופיעו אוטומטית כשתבחר באלמנט HTML רלוונטי באשף המגרד שלנו.