Thursday, August 27, 2015

Tutorial : Linear Regression with Python

Linear Regression หรือ Ordinary Least Square เป็น model ที่ใช้กันมากว่าร้อยปี และนิยมใช้กันอย่างแพร่หลาย ซึ่งถูกจัดอยู่ในกลุ่มที่เรียกว่า Supervised Learning เพื่อใช้ในการ estimate ค่าต่างๆ (quantitative response) จากตัวแปร(Predictors, Independent vars)ที่มีความสัมพันธ์แบบเชิงเส้น โดยแสดงเป็นสมการได้ดังนี้

 Y=β+β1∗X

ใน post นี้ ผมจะใช้ Linear Regression โดยใช้ Advertise data (ISL book chapter3) ในการสร้าง Model (สมการเชิงเส้น) เพื่อคาดการ์ณ ยอดขายจากยอดใช้จ่ายสื่อบนวิทยุ โทรทัศน์ และหนังสือพิมพ์ โดยสมการหรือโมเดลที่คาดว่าจะได้คือ

Sales=β+β1∗TV+β2∗Radio+β3∗Newspaper

โดยตัว model ในขณะสร้าง จะพยายามหาค่า β0...βn เพื่อลดค่า Error ให้ได้มากที่สุด หรือกล่าวอีกในนึงคือยอดขายที่คาดการ์ณกับยอดขายจริงต้องใกล้เคียงกันให้มากที่สุด ซึ่งวิธีการที่นิยมที่สุดเรียกว่า Lease Square criterion

เราจะใช้ DataSci iterative process ดังนี้
  1. Understanding and defining problem 
  2. Understanding data via exploratory data analysis (EDA)
  3. Data Preparation: Data cleansing & Handling missing value 
  4. Build model 
  5. Evaluate model
ติดตามได้ที Click
Image source: Introduction to Statistical Learning : Chapter3

No comments:

Post a Comment