ต่อจากเมื่อวานนะฮับบ ใครยังไม่ได้อ่าน คลิกๆ
เมื่อวานได้เรียนรู้ใน step 1. เข้าใจธุรกิจ 2. เข้าใจข้อมูล 3. การเตรียมข้อมูล วันนี้มาต่อกันที่
- Modeling จะเป็นขั้นตอนการวิเคราะห์ข้อมูล เช่น ลักษณะข้อมูล ชัดเจนหรือไม่ชัดเจน เป้าหมาย คำนวณ Information Gain
Dicision — Tree Model
- Root mode -> จะกำหนดเป็น Topic ที่เราสนใจ
- Branch -> condition เช่น ราคา < 600 , 600 ≤ ราคา < 1000
- Leaf -> Target
จากนั้นจะนำข้อมูลตรงส่วนนี้มาคำนวณหาความสัมพันธ์ เรียกวิธีนี้ว่า Information Gain (IG)
การคำนวณ Information Gain
สูตรคำนวณ >> Information Gain = Entropy(parent) — [p(c1) × entropy(c1) + p(c2) × entropy(c2) + …] โดยที่ Entropy(c1) = -p(c1) log p(c1) และ p(c1) คือ ค่าความน่าจะเป็นของ c1
โดยเราจะคำนวณ Entropy parent ก่อน จากนั้นหา Entropy ถัดไป โดยค่าที่ได้นั้นจะต้องนำมา × กับค่า Entropy parent ก่อน แล้วนำมารวมกัน [ ค่ายิ่งสูงยิ่งดี ]
ลองศึกษาเพิ่มเติมจาก เว็บ นี้ดูเนาะ
จากนั้นมาหัดลองใช้ Rapid Miner
เราจะนำเข้าข้อมูลเข้ามาก่อน จากนั้นมาเข้า step 1,2,3,4
- Business Understanding เข้าใจว่าข้อมูลนั้นคืออะไร
- Data Understanding เข้าใจว่าเราจะต้องค้นหาอะไรจากข้อมูลนี้
- Data Preparation ตรวจสอบข้อมูลว่ามีส่วนที่จะต้อง Replace , Delete , Remove ข้อมูลซ้ำหรือไม่
- Modeling วิเคราะห์ข้อมูล
- Evaluation ตรวจสอบประเมินว่าตรงกับวัตถุประสงค์ที่ได้ตั้งไว้ในขั้นตอนแรกหรือไม่
- Deployment นำไปใช้ในระดับ business ต่อไป
หรือจะลองหาอ่านตัวอย่างเพิ่มเติม ได้ที่นี่
สิ่งที่น่าสนใจสำหรับกาดคือ ทุกวันนี้เรามีแต่ข้อมูลๆกันเยอะขึ้น การนำข้อมูลพวกนี้มาวิเคราะห์มีผลกับพวกเราเหมือนกันนะ เพราะได้รู้พฤติกรรมต่างๆของเราจากการที่เราไปเก็บข้อมูลมา ต่อจากนี้ถ้ามีแบบสอบถามการเก็บข้อมูลอะไร กาดคงจะตั้งใจทำแบบสอบถามแล้วล่ะ เพราะจากที่ได้เห็นตัวอย่างข้อมูลเนี่ย รู้สึกสงสารคนที่จะต้องวิเคราะห์ข้อมูลแทนจริงๆ T_T