วิธีสร้าง Skill Evaluate และ Tune AI Agent Skills แก้ปัญหา Skill ยิงผิดตัวใน Claude Code

ปัญหาที่เจอ: Skill ผิดตัวยิงออกมาบ่อยมาก
ตอนนิวเริ่มทำ LeafBox ใหม่ๆ นิวมี Skill ใน Claude Code ประมาณ 30+ ตัว แต่ปัญหาคือ Skill ผิดตัวยิงออกมาบ่อยมาก สั่งให้ทำ Cover กลับไปรัน Skill เขียนบทความแทน ปวดหัวสุดๆ
จนเจอบทความของ Rick Hightower เรื่อง "How to Build, Evaluate, and Tune AI Agent Skills" แล้วรู้แล้วขนลุกเลย!
Claude Code Skills คืออะไร?
มันคือไฟล์ SKILL.md ที่เปลี่ยน Claude จาก AI ทั่วไป ให้กลายเป็น "ผู้เชี่ยวชาญเฉพาะทาง" ได้ เหมือนคุณจ้างพนักงานใหม่แล้วให้ Onboarding Manual ที่ดีมากๆ
Skill แบ่งเป็น 2 ประเภท:
- Capability Uplift = เพิ่มความสามารถใหม่ เช่น สอนให้ Claude สร้าง Cover Image, วิเคราะห์หุ้น, เขียน Content สไตล์เฉพาะ
- Encoded Preference = บันทึก "วิธีที่คุณชอบ" เช่น format โค้ดแบบไหน, commit message ต้องเขียนยังไง, ใช้ library ตัวไหน
Binary Evals คืออะไร?
คิดง่ายๆ เหมือน เขียน Unit Test ให้ Prompt
แทนที่จะนั่ง eyeball ว่า output ดีไหม คุณเขียน assertion แบบ true/false เช่น:
- มี section "Blockers" ไหม? → true/false
- จำนวนคำไม่เกิน 400? → true/false
- มี action item อย่างน้อย 1 ข้อ? → true/false
แล้วปล่อยให้ Claude Code วน loop ปรับปรุง Skill จนผ่านทุก test ข้ามคืนได้เลย!
ผลลัพธ์จริงจากการ Benchmark
จากเคสของ Nathan Onn ที่ทดสอบ WordPress Security Review Skill:
- มี Skill: pass rate 100% (21/21 assertions)
- ไม่มี Skill: pass rate 90.5% (19/21)
- Skill version เร็วกว่า 9.9% (276 วิ vs 307 วิ)
ครั้งแรกเลยที่พิสูจน์ได้ด้วยตัวเลขว่า Skill ช่วยจริง!
Trigger Tuning = แก้ปัญหา Skill ยิงผิดตัว
Skill Creator จะสร้าง test queries แล้วทดสอบว่า Skill ถูก trigger เมื่อไหร่ ถ้า trigger rate ต่ำกว่า 100% มันจะปรับ description ให้แม่นขึ้นเรื่อยๆ เหมือนคุณ calibrate เซ็นเซอร์ให้แม่นยำ
Best Practices
- ลบ Skill ที่ไม่ใช้แล้ว อย่าปล่อยให้มันรก
- ทำ version control ทุก Skill ด้วย Git
สรุป
นี่คือจุดเปลี่ยนของการทำงานกับ AI Agent เมื่อก่อนเราสร้าง Skill แล้วก็ "หวังว่ามันจะดี" ตอนนี้เรามี framework ที่พิสูจน์ได้ ทดสอบได้ ปรับปรุงได้อัตโนมัติ
เริ่มได้เลย:
- ติดตั้ง Skill Creator plugin
- สร้าง Skill ตัวแรก
- รัน evals แล้วดูผลลัพธ์
- ปล่อยให้มัน iterate ข้ามคืน
โพสต์ต้นฉบับ: Facebook

คลาสส่วนตัว: Anthropic Cowork 101
เรียนรู้การใช้งาน Anthropic Cowork แบบ 1-on-1 กับผู้เชี่ยวชาญ ตั้งแต่เริ่มต้นจนใช้งานได้จริง
- ✓ช่วยติดตั้งแบบ Step-by-step
- ✓อธิบาย 4 Modes & Plugins System
- ✓ทดลองใช้งานจริงระหว่างเรียน
บทความที่เกี่ยวข้อง

Claude Code 2026 ระบบปฏิบัติการของ Developer ตัวจริง 5 แกนหลักที่ทีมระดับท็อปใช้กัน

Claude Code Agent Teams มีชุดควบคุมซ่อนอยู่ เปลี่ยนจาก AI วุ่นวายเป็นทีมวิศวกรที่ประสานงานกันเอง
