Saturday, September 5, 2015

5 สิ่งด้าน Analytic ที่ต้องสร้างสมดุล


เวลานักวิทยาศาสตร์ข้อมูลได้เลือกใช้อัลกอรึทึมในการแก้ปัญหา ต่างก็หวังว่าจะได้ผลลัพธ์ที่น่าอัศจรรย์ แต่บ่อยครั้งไม่เป็นไปอย่างที่คาดหวังไว้เนื่องจากมีหลายข้อจำกัดหรือหลายปัจจัย  ดังนั้น มันเป็นเรื่องที่สำคัญมากที่ต้ององค์กรต้องเข้าใจถึงข้อจำกัดเหล่านี้ในขั้นตอนสร้างระบบวิเคราะห์ขั้นสูง โดยเฉพาะอย่างยิ่งปัญหาในโลกธุรกิจริงที่ต้องประสบเจอ คือ

1. Data Complexity หลังจากได้รวบรวมข้อมูลแล้ว สิ่งแรกที่ต้องทำคือ ต้องทำความเข้าใจข้อมูลให้ได้มากที่สุดเท่าที่จะทำได้ ตรวจสอบทุกๆมิติให้รอบด้าน เช่น shape , data type , missing value รวมไปถึงการตรวจว่าข้อมูลที่ได้มาสามารถเชื่อมโยงกันกับสิ่งที่เรากำลังแก้ปัญหาได้หรือไม่

2. Speed เวลาที่ใช้ในการสร้างผลลัพธ์ที่ได้จากระบบ บางธุรกิจต้องการให้ระบบทำการสร้างผลลัพธ์หรือการทำนายทุกๆ 15 นาที แต่ตัวระบบเองใช้เวลาเป็นชั่วโมงในการดำเนินการ ซึ่งก็ไม่ตอบโจทย์ธุรกิจ ความเห็นส่วนตัว อาจแก้โดยหาอัลกอรึทึมที่ใช้เวลาน้อยลงในการประมวลผล หรือ Simple model แต่ก็แลกมาด้วย accuracy ที่ลดลง  หรือหา Big data processing solution เช่น Spark มาช่วยเพื่อให้ลดระยะเวลาได้มากขึ้น

3. Analytic Complexity ถูกวัดด้วยความซับซ้อนของตัวอัลกอรึทึมเองและทรัพยากรที่ใช้ในการลงมือทำ บางอุตสาหกรรมนั้นต้องการลดความความซับซ้อนเพื่อให้ที่มาของผลลัพธ์นั้นถูกอธิบาย(Interpretation)ใด้ง่าย เนื่องจากผู้บริหารหรือองค์กรต้องการเข้าใจปัจจัยต่างๆที่ส่งผลต่อผลลัพธ์ในการดำเนินธุรกิจ  ซึ่งการลดความซับซ้อนลงนั้นทางนักวิทย์ศาตรย์ข้อมูลก็โดนลดความสามารถในการสร้าง model ที่ดีที่สุดไปได้

4. Accuracy and Precision หลายคนยังคงสับสนกับความหมายคำว่า ถูกต้อง และ แม่นยำ ซึ่งในงานด้านวิเคราะห์ข้อมูลจะพูดถึงสองสิ่งนี้อย่างมาก ถ้าให้อธิบายเข้าใจง่าย ขอแสดงด้วยรูปภาพดังนี้


5. Data Size นักวิทย์ข้อมูลมอง Data size เป็นแบบ จำนวนแถว(observation) กับ จำนวนคอลัมน์(attribute(s) of an observation) ในการทำงาน  ยังมีองค์กรอีกมากที่ขาดความเข้าใจที่ว่าข้อมุลยิ่งมาก ย่อมสร้าง output ได้ถูกต้องมากขึ้น  แต่อย่างไรก็ตาม จุดที่ต้องพิจารณาเวลาจะใช้ข้อมูลขนาดใหญ่ในการวิเคราะห์นั้นก็คือ Tool เรามีพร้อมหรือไม่  และความสามารถของเรา (Capability)

5 ข้อข้างต้น คือ สิ่งที่ต้องสร้างสมดุลให้ดี และใช้พิจารณาเวลาสร้างโปรเจคด้านงานวิเคราะห์ขั้นสูง

บทแปลจาก link

No comments:

Post a Comment