Day#20 CRISP DM Conceptual Model

KakyKad
2 min readJun 16, 2018

--

ต่อจากเมื่อวานนะฮับบ ใครยังไม่ได้อ่าน คลิกๆ

เมื่อวานได้เรียนรู้ใน step 1. เข้าใจธุรกิจ 2. เข้าใจข้อมูล 3. การเตรียมข้อมูล วันนี้มาต่อกันที่

  • Modeling จะเป็นขั้นตอนการวิเคราะห์ข้อมูล เช่น ลักษณะข้อมูล ชัดเจนหรือไม่ชัดเจน เป้าหมาย คำนวณ Information Gain

Dicision — Tree Model

  • Root mode -> จะกำหนดเป็น Topic ที่เราสนใจ
  • Branch -> condition เช่น ราคา < 600 , 600 ≤ ราคา < 1000
  • Leaf -> Target

จากนั้นจะนำข้อมูลตรงส่วนนี้มาคำนวณหาความสัมพันธ์ เรียกวิธีนี้ว่า Information Gain (IG)

การคำนวณ Information Gain

สูตรคำนวณ >> Information Gain = Entropy(parent) — [p(c1) × entropy(c1) + p(c2) × entropy(c2) + …] โดยที่ Entropy(c1) = -p(c1) log p(c1) และ p(c1) คือ ค่าความน่าจะเป็นของ c1

โดยเราจะคำนวณ Entropy parent ก่อน จากนั้นหา Entropy ถัดไป โดยค่าที่ได้นั้นจะต้องนำมา × กับค่า Entropy parent ก่อน แล้วนำมารวมกัน [ ค่ายิ่งสูงยิ่งดี ]

ลองศึกษาเพิ่มเติมจาก เว็บ นี้ดูเนาะ

จากนั้นมาหัดลองใช้ Rapid Miner

เราจะนำเข้าข้อมูลเข้ามาก่อน จากนั้นมาเข้า step 1,2,3,4

  1. Business Understanding เข้าใจว่าข้อมูลนั้นคืออะไร
  2. Data Understanding เข้าใจว่าเราจะต้องค้นหาอะไรจากข้อมูลนี้
  3. Data Preparation ตรวจสอบข้อมูลว่ามีส่วนที่จะต้อง Replace , Delete , Remove ข้อมูลซ้ำหรือไม่
  4. Modeling วิเคราะห์ข้อมูล
  5. Evaluation ตรวจสอบประเมินว่าตรงกับวัตถุประสงค์ที่ได้ตั้งไว้ในขั้นตอนแรกหรือไม่
  6. Deployment นำไปใช้ในระดับ business ต่อไป

หรือจะลองหาอ่านตัวอย่างเพิ่มเติม ได้ที่นี่

สิ่งที่น่าสนใจสำหรับกาดคือ ทุกวันนี้เรามีแต่ข้อมูลๆกันเยอะขึ้น การนำข้อมูลพวกนี้มาวิเคราะห์มีผลกับพวกเราเหมือนกันนะ เพราะได้รู้พฤติกรรมต่างๆของเราจากการที่เราไปเก็บข้อมูลมา ต่อจากนี้ถ้ามีแบบสอบถามการเก็บข้อมูลอะไร กาดคงจะตั้งใจทำแบบสอบถามแล้วล่ะ เพราะจากที่ได้เห็นตัวอย่างข้อมูลเนี่ย รู้สึกสงสารคนที่จะต้องวิเคราะห์ข้อมูลแทนจริงๆ T_T

--

--

KakyKad
KakyKad

Written by KakyKad

เขียนไปเรื่อย

No responses yet