Intro Data Science Process
Data Science Process ต้องทำอะไรบ้าง ?
หลายคนอาจจะเคยสงสัยว่า Data Science คืออะไรและต้องทำอะไรบ้าง
Data Science คือ สาขาวิชาที่รวมความรู้ด้านสถิติวิทยา, คณิตศาสตร์, และวิทยาการคอมพิวเตอร์เข้าด้วยกันเพื่อแยกวิเคราะห์ข้อมูลเพื่อเอาไปใช้ในการช่วยวิเคราะห์ข้อมูล
Data Science process ประกอบด้วยหลายขั้นตอนดังนี้
- Ask
- Collect
- Manipulate
- Analyze
- Model
- Evaluate
- Communicate
โดย ขั้นตอนข้างต้นอาจจะไม่จำเป็นต้องเรียงลำดับเสมอไป เพราะ ในความเป็นจริงอาจจะมีการสลับลำดับต่างๆ บ้างเล็กน้อย
- Ask (ตั้งคำถาม) : การตั้งคำถามหรือการกำหนดสมมติฐาน คำถามควรจะเกี่ยวกับปัญหาที่ต้องการแก้ไข โดยในขั้นตอนนี้เราต้องรู้จักปัญหาและต้องกำหนดความต้องการในข้อมูล เพราะคำถามที่ดีจะช่วยนำพาเราไปสู่การวิเคราะห์ที่ดีได้
- Collect (เก็บข้อมูล) ขั้นตอนถัดไปคือการเก็บข้อมูล โดยจะต้องเลือกแหล่งข้อมูลที่เหมาะสม รวบรวมข้อมูลเป็นระเบียบ และตรวจสอบคุณภาพของข้อมูล
- Manipulate (จัดการและทำความสะอาดข้อมูล) หลังจากเก็บข้อมูลมาแล้ว ขั้นตอนต่อไปคือการจัดการและทำความสะอาดข้อมูล เพื่อที่ข้อมูลเหมาะสมสำหรับการวิเคราะห์ โดยการจัดการและทำความสะอาดข้อมูลนี้ เราจะต้องตรวจสอบข้อมูลซ้ำซ้อน แก้ไขข้อมูลที่ขาดหายไป และแปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสมสำหรับการวิเคราะห์
- Analyze (วิเคราะห์ข้อมูล) หลังจากที่ได้ทำความสะอาดข้อมูลเรียบร้อยแล้ว เราจะเริ่มต้นทำการวิเคราะห์ข้อมูล โดยใช้เทคนิคต่าง ๆ เช่น การวิเคราะห์สถิติ เปรียบเทียบการแตกต่างระหว่างกลุ่มข้อมูล,Data visualization เพื่อวิเคราะห์ trend หรือ patterns ต่างๆในชุดข้อมูล
- Model (สร้างแบบจำลอง) หลังจากที่ได้ทำการวิเคราะห์ข้อมูลแล้ว เราจะสร้างแบบจำลอง เพื่อทำนายผลลัพธ์หรือพยากรณ์สิ่งที่จะเกิดขึ้นในอนาคต โดยใช้เทคนิคต่าง ๆ เช่น การเรียนรู้เชิงลึก (Deep Learning) การเรียนรู้เชิงเส้น (Linear Regression) หรือการเรียนรู้เชิงตัวเลข (Numerical Analysis) เป็นต้น
- Evaluate (ประเมินผลแบบจำลอง) หลังจากที่สร้างแบบจำลองแล้ว เราจะต้องทำการประเมินผลแบบจำลอง เพื่อดูว่าแบบจำลองที่สร้างขึ้นมีความแม่นยำและเหมาะสมกับข้อมูลหรือไม่ โดยจะใช้เทคนิคต่าง ๆ เช่น การตรวจสอบความแม่นยำ การเปรียบเทียบผลลัพธ์ระหว่างแบบจำลองที่สร้างขึ้นกับผลลัพธ์จริง หรือการใช้เทคนิค Cross-validation เพื่อทดสอบความแม่นยำของแบบจำลอง
- Communicate (สื่อสารผลการวิเคราะห์) หลังจากที่ได้ทำการวิเคราะห์และสร้างแบบจำลองเรียบร้อยแล้ว เราจะต้องสื่อสารผลการวิเคราะห์ให้กับผู้ที่มีส่วนเกี่ยวข้อง โดยเป็นการนำเสนอผลการวิเคราะห์ในรูปแบบที่เข้าใจง่าย และสามารถแสดงผลออกมาได้เป็นภาพรวม โดยใช้เทคนิคต่าง ๆ เช่น การสร้าง Dashboard หรือ Infographic เพื่อให้ผู้ใช้งานสามารถเข้าใจผลการวิเคราะห์และใช้ข้อมูลได้อย่างมีประสิทธิภาพ หรือมีการทำ Storytelling เพื่อเพิ่มความน่าสนใจให้กับ Presentation ก็ได้ :)
Data Science Process เป็นขั้นตอนที่จะช่วยเพิ่มประสิทธิภาพในการวิเคราะห์และทำนายข้อมูลได้อย่างมีประสิทธิภาพ ดังนั้น การศึกษาและนำเทคนิคต่างๆ มาใช้ใน Data Science Process เป็นสิ่งสำคัญที่ช่วยเพิ่มความแม่นยำในการวิเคราะห์ข้อมูลในสาขา Data Science ได้อย่างมีประสิทธิภาพ หวังว่าบทความนี้จะช่วยทำให้เห็นภาพรวมของการทำ Data Science Process มากขึ้น 😃