- Database ตัวอย่างเช่น Hadoop, MangoDB (NOSQL) , RDBMS
- Social Networking Data API เช่น Facebook , Google , Twitter API
- ข้อมูลที่อยู่บน Website
ในบทความนี้ผมจะมาแนะนำ library ที่ช่วยให้เราเขียน script ดึงข้อมุลจากหน้า website หรือเรียกว่า Web Scraping ที่ชื่อว่า Beautiful Soup ใช้กับ Python ซึ่งตัว library ช่วยให้เราดึงข้อมูลไม่ว่าจะอยู่ส่วนไหนของเว็ปไซต์ได้อย่างง่ายได้ เพียงผู้ใช้แค่ต้องรู้และเข้าใจโครงสร้างของ html
ตัวอย่างกราฟด้านล่าง ผมได้ลองเขียน script ดึงข้อมุล กลุ่มความสามารถที่เป็นที่ต้องการสำหรับสายงาน DataSci ในเมืองไทย จากเวปจัดหางานชื่อดัง ผลปรากฏว่าได้ดังนี้
นี่ก็เป็นตัวอย่างคร่าวๆ ในการนำ library ไปใช้งานดึงข้อมูลจากเว็ปไซต์ครับ
No comments:
Post a Comment