Wednesday, August 19, 2015

็็How to become a data scientist ?


เชื่อว่ามีหลายคนสนใจและอยากผันตัวเองเป็นนักวิทยาศาสตร์ข้อมูลที่เป็นงานที่ hot ที่สุดในขณะนี้ วันนี้ผมขอมาแชร์ว่า การเป็นนักวิทยาศาสตร์ข้อมุลต้องมี skills ด้านใดบ้าง  ผมขอยก Diagram ของนาย Drew Conwey  ซึ่งได้สรุป skill ที่จำเป็น แบ่งออกเป็น 3 ส่วนหลักๆ ดังนี้

ภาพที่มา: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
จากรูปจะเห็นได้ชัดว่า Data Science นั้นประกอบด้วย skill set ดังนี้
1. Hacking skills คือ ความสามารถในด้านการเขียนโปรแกรม
2. Math and Statistics คือ มีความรู้ทางด้านสถิติและคณิตศาตร์
3. Domain experts คือ ความรู้และความชำนาญในสายงานของปัญหานั้นๆ

แต่ถ้าใหัชัดคือ Data scientist = Data miner + Business domain expert

แล้วจะเริ่มต้นยังไงละ ?

ผมขอรวบรวมข้อมูลที่เป็นประโยชน์สำหรับการพัฒนา skill ดังนี้ จากประสบการณ์ส่วนตัว

  1. Learn to love data
       การที่จะสร้างความสำเร็จไม่ว่าเรื่องใดๆ ก็ตาม ต้องมี "ใจรัก" เพื่อให้เราก้าวสู่ความสำเร็จ  การทำงานด้าน Data science ก็เช่นเดียวกัน  บ่อยครั้งนักที่ผู้ศึกษาในช่วงเริ่มต้นต้องถอนตัวไปหรือไม่ก็ท้อแท้ เนื่อจากศาสตร์ด้านนี้ถือว่ายังใหม่มาก learning topic ค่อนข้างกว้าง และยากที่จะเข้าใจในะระยะเวลาอันสั้น ดังนัั้น ลองหาเป้าหมายที่สนใจและอยากลองทำโดยใช้ศาตร์ของ Data science ช่วย  ตัวอย่างเช่น บางคนสนใจเรื่องเล่นหุ้น อาจจะลองตั้งเป้าหมายสร้าง model ในการทำนายราคาหุุ้น เขียน Program เชื่อต่อ yahoo finance api สิ่งเหล่านี้เองจะช่วยทำให้เราหลงใหลใน data อย่างไม่รู้ตัวและสนุกกับมัน และจงเชื่อในพลังของ data science ในการเปลี่ยนแปลงโลกให้ดีขึ้นได้
  2. Programming
        ผมแนะนำให้เลือกเรียนภาษา R กับ Python ซึ่งต่างเป็น Opensource ทั้งคู่และได้ถูกใช้อย่างกว้างขวางในด้านวิชาการและภาคธุรกิจ ซึ่งได้มีการพัฒนา library หรือ package มากมายเพื่อใช้ในการทำ Data exploratory analysis หรือ Data modeling
    สำหรับคนที่สนใจ R แนะนำให้ดาวโหลด IDE RStudio
    สำหรับคนที่สในใจ Python แนะนำตัว Anaconda ซึ่งเป็น Python distribution ที่ได้รวบรวม library ที่จำเป็นต่อการใช้งานด้าน Data science มาไว้รวมกัน
  3. Stats
       สถิตินั้นสำคัญแค่ไหน?  การที่จะเข้าใจ Data ได้อย่างลึกซึ้งนั้น ความรู้ด้านสถิติจึงจำเป็นอย่างยิ่งต่อการทำความเข้าใจและใช้ในการหาความสัมพันธ์ของข้อมุลและตัวแปรต่างๆ หรือใช้ในการการวิเคราะห์ผลลัพท์ว่ามีนัยสำคัญแค่ไหน ถ้าใครที่พื้นฐานสถิติไม่แน่นผมขอแนะนำหนังสือ Free eBook : OpenIntro Stats  ค่อนข้างอธิบายได้ค่อยข้างดี มีรูปประกอบชัดเจน
  4. Machine learning
       เป็นการผสมผสานของศาตร์ด้าน Computer science + Stats + Math โดยเรียนรู้จาก Input ที่ป้อนเข้าไป (Training) เพื่อค้นหา pattern หรือ knowledge แล้วสร้างแบบจำลอง model เพื่อใช้ในการแก้ปัญหา
    E book แนะนำ An Introduction to statistical learning หรือ
    Online learning : Learning from data
  5. Visualization
        เป็นการอธิบายด้วยภาพทำให้เราเข้าใจเรื่องซับซ้อนได้เข้าใจง่ายขึ้น ซึ่งจะถูกใช้ส่วนมาก ณ ตอนเวลาทำ Data exploratory analysis และ summary of analytical findings. R และ Python เองต่างก็มี library ให้เลือกใช้หลายตัว  แต่ที่ๆ นิยมกันก็คือ ggplot2, matplotlib, seaborn หรือจะลองใช้  Visualization software สำหรับ descriptive analysis เช่น Tableau  QlickView
  6. Practice and Practice and Practice
        หลังจากได้ศึกษาเรียนรู้แล้ว  ให้ลองฝึกฝนกับ data set จริงๆ ซึ่งได้มีหลายเว็ปไซต์ได้รวบรวม data เพื่อให้เราฝึกฝนการวิเคราะห์ครับ  ผมขอ share ที่ใช้ประจำดังนี้
        UCI
        Reddit Dataset
    หรือถ้าชื่นชอบความท้าทายแข่งกันกับคนอื่นๆ  ลองเข้าร่วมแข่งขันที่ Kaggle ซึ่งจะช่วยให้เรามีประสบการณ์กับการ solving real world problem and learn from other talent peers และทำให้เราเก่งขึ้นไปอีก 

3 comments:

  1. Hello Siraunz,
    The Article on How to become a data scientist is amazing give detail information about it .Thanks for Sharing the information about it hire data scientists

    ReplyDelete
  2. The development of artificial intelligence (AI) has propelled more programming architects, information scientists, and different experts to investigate the plausibility of a vocation in machine learning. Notwithstanding, a few newcomers will in general spotlight a lot on hypothesis and insufficient on commonsense application. IEEE final year projects on machine learning In case you will succeed, you have to begin building machine learning projects in the near future.

    Projects assist you with improving your applied ML skills rapidly while allowing you to investigate an intriguing point. Furthermore, you can include projects into your portfolio, making it simpler to get a vocation, discover cool profession openings, and Final Year Project Centers in Chennai even arrange a more significant compensation.


    Data analytics is the study of dissecting crude data so as to make decisions about that data. Data analytics advances and procedures are generally utilized in business ventures to empower associations to settle on progressively Python Training in Chennai educated business choices. In the present worldwide commercial center, it isn't sufficient to assemble data and do the math; you should realize how to apply that data to genuine situations such that will affect conduct. In the program you will initially gain proficiency with the specialized skills, including R and Python dialects most usually utilized in data analytics programming and usage; Python Training in Chennai at that point center around the commonsense application, in view of genuine business issues in a scope of industry segments, for example, wellbeing, promoting and account.

    ReplyDelete
  3. The Emperor Casino Review (2021) | €1000 Bonus
    Our 제왕카지노 expert review of the Emperor 바카라 Casino for 2021. Read the review and get your €1000 bonus. Check the game, banking, games, live casino,  Rating: 4.2 · ‎Review 메리트카지노 by Shootercasino

    ReplyDelete