Friday, September 11, 2015

Web Scraping

นอกเหนือความสามารถในด้านการประยุกข์ใช้ machine learning แล้ว ยังมีอีกหนึ่งมีความสามารถสำคัญไม่แพ้กัน นั่นก็คือ การเก็บข้อมูล (Data Collection) นักวิทย์ข้อมุลต้องสามารถดึงข้อมูลได้จากหลายทาง ไม่ว่าจะดึงจาก internal (ข้อมูลจากภายในองค์กร) หรือ external (จากภายนอกองค์กร) เพื่อให้ข้อมุลมีคุณภาพเพื่อที่จะสามารถใช้วิเคราะห์แก้ปัญหาได้ตรงจุดมากขึ้น ตัวอย่างข้างล่างเป็นแหล่งของข้อมูลที่ใช้ในการแก้ปัญหา

  • Database ตัวอย่างเช่น Hadoop, MangoDB (NOSQL) , RDBMS
  • Social Networking Data API เช่น Facebook , Google , Twitter API
  • ข้อมูลที่อยู่บน Website
ในบทความนี้ผมจะมาแนะนำ library ที่ช่วยให้เราเขียน script ดึงข้อมุลจากหน้า website หรือเรียกว่า Web Scraping ที่ชื่อว่า  Beautiful Soup  ใช้กับ Python  ซึ่งตัว library ช่วยให้เราดึงข้อมูลไม่ว่าจะอยู่ส่วนไหนของเว็ปไซต์ได้อย่างง่ายได้ เพียงผู้ใช้แค่ต้องรู้และเข้าใจโครงสร้างของ html 

ตัวอย่างกราฟด้านล่าง ผมได้ลองเขียน script ดึงข้อมุล กลุ่มความสามารถที่เป็นที่ต้องการสำหรับสายงาน DataSci ในเมืองไทย จากเวปจัดหางานชื่อดัง  ผลปรากฏว่าได้ดังนี้

นี่ก็เป็นตัวอย่างคร่าวๆ ในการนำ library ไปใช้งานดึงข้อมูลจากเว็ปไซต์ครับ

No comments:

Post a Comment