Intro Data Science Process

--

Data Science Process ต้องทำอะไรบ้าง ?

หลายคนอาจจะเคยสงสัยว่า Data Science คืออะไรและต้องทำอะไรบ้าง

Data Science คือ สาขาวิชาที่รวมความรู้ด้านสถิติวิทยา, คณิตศาสตร์, และวิทยาการคอมพิวเตอร์เข้าด้วยกันเพื่อแยกวิเคราะห์ข้อมูลเพื่อเอาไปใช้ในการช่วยวิเคราะห์ข้อมูล

Data Science process ประกอบด้วยหลายขั้นตอนดังนี้

  1. Ask
  2. Collect
  3. Manipulate
  4. Analyze
  5. Model
  6. Evaluate
  7. Communicate

โดย ขั้นตอนข้างต้นอาจจะไม่จำเป็นต้องเรียงลำดับเสมอไป เพราะ ในความเป็นจริงอาจจะมีการสลับลำดับต่างๆ บ้างเล็กน้อย

  1. Ask (ตั้งคำถาม) : การตั้งคำถามหรือการกำหนดสมมติฐาน คำถามควรจะเกี่ยวกับปัญหาที่ต้องการแก้ไข โดยในขั้นตอนนี้เราต้องรู้จักปัญหาและต้องกำหนดความต้องการในข้อมูล เพราะคำถามที่ดีจะช่วยนำพาเราไปสู่การวิเคราะห์ที่ดีได้
  2. Collect (เก็บข้อมูล) ขั้นตอนถัดไปคือการเก็บข้อมูล โดยจะต้องเลือกแหล่งข้อมูลที่เหมาะสม รวบรวมข้อมูลเป็นระเบียบ และตรวจสอบคุณภาพของข้อมูล
  3. Manipulate (จัดการและทำความสะอาดข้อมูล) หลังจากเก็บข้อมูลมาแล้ว ขั้นตอนต่อไปคือการจัดการและทำความสะอาดข้อมูล เพื่อที่ข้อมูลเหมาะสมสำหรับการวิเคราะห์ โดยการจัดการและทำความสะอาดข้อมูลนี้ เราจะต้องตรวจสอบข้อมูลซ้ำซ้อน แก้ไขข้อมูลที่ขาดหายไป และแปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสมสำหรับการวิเคราะห์
  4. Analyze (วิเคราะห์ข้อมูล) หลังจากที่ได้ทำความสะอาดข้อมูลเรียบร้อยแล้ว เราจะเริ่มต้นทำการวิเคราะห์ข้อมูล โดยใช้เทคนิคต่าง ๆ เช่น การวิเคราะห์สถิติ เปรียบเทียบการแตกต่างระหว่างกลุ่มข้อมูล,Data visualization เพื่อวิเคราะห์ trend หรือ patterns ต่างๆในชุดข้อมูล
  5. Model (สร้างแบบจำลอง) หลังจากที่ได้ทำการวิเคราะห์ข้อมูลแล้ว เราจะสร้างแบบจำลอง เพื่อทำนายผลลัพธ์หรือพยากรณ์สิ่งที่จะเกิดขึ้นในอนาคต โดยใช้เทคนิคต่าง ๆ เช่น การเรียนรู้เชิงลึก (Deep Learning) การเรียนรู้เชิงเส้น (Linear Regression) หรือการเรียนรู้เชิงตัวเลข (Numerical Analysis) เป็นต้น
  6. Evaluate (ประเมินผลแบบจำลอง) หลังจากที่สร้างแบบจำลองแล้ว เราจะต้องทำการประเมินผลแบบจำลอง เพื่อดูว่าแบบจำลองที่สร้างขึ้นมีความแม่นยำและเหมาะสมกับข้อมูลหรือไม่ โดยจะใช้เทคนิคต่าง ๆ เช่น การตรวจสอบความแม่นยำ การเปรียบเทียบผลลัพธ์ระหว่างแบบจำลองที่สร้างขึ้นกับผลลัพธ์จริง หรือการใช้เทคนิค Cross-validation เพื่อทดสอบความแม่นยำของแบบจำลอง
  7. Communicate (สื่อสารผลการวิเคราะห์) หลังจากที่ได้ทำการวิเคราะห์และสร้างแบบจำลองเรียบร้อยแล้ว เราจะต้องสื่อสารผลการวิเคราะห์ให้กับผู้ที่มีส่วนเกี่ยวข้อง โดยเป็นการนำเสนอผลการวิเคราะห์ในรูปแบบที่เข้าใจง่าย และสามารถแสดงผลออกมาได้เป็นภาพรวม โดยใช้เทคนิคต่าง ๆ เช่น การสร้าง Dashboard หรือ Infographic เพื่อให้ผู้ใช้งานสามารถเข้าใจผลการวิเคราะห์และใช้ข้อมูลได้อย่างมีประสิทธิภาพ หรือมีการทำ Storytelling เพื่อเพิ่มความน่าสนใจให้กับ Presentation ก็ได้ :)
https://quotefancy.com/quote/1449688/John-Tukey-The-greatest-value-of-a-picture-is-when-it-forces-us-to-notice-what-we-never

Data Science Process เป็นขั้นตอนที่จะช่วยเพิ่มประสิทธิภาพในการวิเคราะห์และทำนายข้อมูลได้อย่างมีประสิทธิภาพ ดังนั้น การศึกษาและนำเทคนิคต่างๆ มาใช้ใน Data Science Process เป็นสิ่งสำคัญที่ช่วยเพิ่มความแม่นยำในการวิเคราะห์ข้อมูลในสาขา Data Science ได้อย่างมีประสิทธิภาพ หวังว่าบทความนี้จะช่วยทำให้เห็นภาพรวมของการทำ Data Science Process มากขึ้น 😃

--

--

Chanon Sumpantapong
Chanon Sumpantapong

Written by Chanon Sumpantapong

Business strategist | Design Engineer | Data analysis Engineer | interested in finance 💵 & Data journalism 📊

No responses yet