Google ปล่อย Gemma 4 QAT รันบนมือถือและโน้ตบุ๊กได้ กินแรมไม่ถึง 1GB
สำหรับนักพัฒนาหรือสาย Tech ที่ชอบรันโมเดล AI แบบ Local บนเครื่องตัวเอง คงทราบดีว่าความท้าทายที่สุดคือเรื่องของ "แรม (VRAM)" ยิ่งโมเดลฉลาดเท่าไหร่ ขนาดไฟล์ก็ยิ่งใหญ่จนโน้ตบุ๊กทั่วไปหรือสมาร์ทโฟนแทบจะรันไม่ไหว แต่ล่าสุด Google DeepMind ได้แก้ปัญหานี้ด้วยการปล่อย Gemma 4 QAT โมเดลเปิด (Open-weights) เวอร์ชันพิเศษที่ผ่านการบีบอัดด้วยเทคนิค Quantization-Aware Training ทำให้โมเดลมีขนาดเล็กลงอย่างมหาศาล โดยในรุ่นเล็กสุดอย่าง E2B ใช้หน่วยความจำไม่ถึง 1 GB เท่านั้น บทความนี้เราจะมาเจาะลึกกันว่า เทคโนโลยีนี้ทำงานอย่างไร และมันจะช่วยเปลี่ยนอนาคตของการรัน AI บนอุปกรณ์พกพาไปอย่างไรบ้าง
ในการจำลองการควอนไทเซชันระหว่างการฝึกโมเดลโดยใช้เทคนิค QAT จะช่วยลดการสูญเสียคุณภาพเมื่อโมเดลถูกบีบอัด โดยใช้ checkpoint QAT เป็นรูปแบบการควอนไทเซชัน Q4_0 ซึ่งกำลังเป็นที่ความนิยมในปัจจุบัน รวมถึงรูปแบบการควอนไทเซชันใหม่ที่ออกแบบมาสำหรับกรณีการใช้งานบนมือถือโดยเฉพาะ ทำให้ลดการใช้หน่วยความจำของ Gemma 4 E2B เหลือเพียง 1GB เท่านั้น จะเห็นว่ามีการลดการใช้งานหน่วยความจำลงเยอะมาก ในขณะที่ยังคงรักษาความสามารถและคุณภาพที่คุณคาดหวังจาก Gemma 4 ไว้ได้
การรักษาคุณภาพของโมเดลไว้ในขณะที่ทำให้มีขนาดเล็กลง ทำได้อย่างไร
การควอนไทเซชันเป็นเทคโนโลยีสำคัญในการประมวลผลโมเดลบนฮาร์ดแวร์ โดยสามารถช่วยลดการใช้หน่วยความจำและเพิ่มความเร็วในการถอดรหัสด้วย อย่างไรก็ตาม การควอนไทเซชันหลังการฝึกอบรมแบบมาตรฐาน (Post-Training Quantization หรือ PTQ) มักทำให้ประสิทธิภาพลดลง แทนที่จะควอนไทเซชันโมเดลหลังจากฝึกอบรมเสร็จแล้ว QAT จะผสานกระบวนการควอนไทเซชันเข้ากับการฝึกอบรมโดยตรง แม้ว่า PTQ จะมีประสิทธิภาพในการรักษาคุณภาพอยู่แล้ว แต่ผลลัพธ์จาก QAT ของเราให้คุณภาพโดยรวมที่สูงกว่าเมื่อเทียบกับ PTQ แบบมาตรฐานตามรูปภาพ

รายละเอียดการปรับแต่งให้เหมาะสมกับอุปกรณ์พกพาภายในระบบ
วิศวกรด้าน AI ของ Google ได้ออกแบบรูปแบบการควอนไทเซชันสำหรับอุปกรณ์มือถือโดยเฉพาะ ประกอบด้วย
- การเปิดใช้งานแบบคงที่
โดยปกติแล้ว โมเดลจะสิ้นเปลืองพลังในการประมวลผล การคำนวณวิธีการปรับขนาดข้อมูลแบบเรียลไทม์ แต่วิศวกรได้คำนวณการตั้งค่าเหล่านี้ล่วงหน้าในระหว่างการฝึกอบรมโมเดล ทำให้ช่วยลดภาระงานบนชิปมือถือและทำให้การตอบสนองเร็วขึ้น - การแบ่งปริมาณข้อมูลตามแต่ละช่องสัญญาณ
ด้วยการจัดโครงสร้างข้อมูลที่บีบอัดให้เหมาะสมกับการออกแบบของตัวเร่งความเร็วสำหรับอุปกรณ์พกพา ช่วยให้โทรศัพท์สามารถประมวลผลได้โดยตรง ทำให้ลดระยะเวลาในการประมวลผลมากขึ้น - การกำหนดให้มีการลดขนาดข้อมูลแบบ 2 บิต
เกิดการบีบอัดข้อมูลมากขึ้น (เหลือ 2 บิต) เฉพาะส่วนของโมเดลที่สร้างโทเค็น ในขณะที่ยังคงรักษาเลเยอร์การให้เหตุผลหลักไว้ที่ความแม่นยำสูงกว่า วิธีนี้ช่วยประหยัดพื้นที่จัดเก็บโดยไม่ทำให้โมเดลฉลาดน้อยลง - การฝังข้อมูลและการเพิ่มประสิทธิภาพแคช KV
เน้นการบีบอัดข้อมูลในรายการคำศัพท์ของโมเดลและหน่วยความจำระยะสั้น ซึ่งช่วยลดการใช้หน่วยความจำมากขึ้น ทำให้คุณสามารถสนทนาได้นานโดยไม่ต้องกังวลเรื่องพื้นที่ไม่เพียงพอ
บางครั้งตัวเข้ารหัสเสียงและภาพไม่จำเป็นต้องใช้งานในบางงาน จึงสามารถเพิ่มประสิทธิภาพการใช้หน่วยความจำได้มากยิ่งขึ้นโดยการใช้งานเฉพาะส่วนที่จำเป็นเท่านั้น ตัวอย่างเช่น โมเดล Gemma 4 E2B แบบข้อความอย่างเดียว (โดยไม่มีการฝังข้อมูลต่อเลเยอร์) ต้องการหน่วยความจำน้อยกว่า 1 GB
คุณสามารถติดตามข่าวสารเทคนิคการทำโปรเจคจากเราได้ลอดเวลา เพียงแต่กดติดตามเฟสบุ๊ครับทำโปรเจคและช่องสอนทำโปรเจคเอาไว้ หากต้องการที่ปรึกษาด้านการทำโปรเจค รีบติดต่อทีมงานรับทำโปรเจคเพื่อรับข้อเสนอจากเราได้เลยครับ ปรึกษาฟรี ตอบไวแน่นอน
อ้างอิง: Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency
Gemma 4 เจมมา 4 Quantization-Aware Training การบีบอัดโมเดล AI ลดขนาดโมเดล รัน AI ในคอมตัวเอง รัน LLM บนมือถือ AI ประหยัดแรม เทคโนโลยี QAT รัน AI ออฟไลน์ กูเกิล เอไอ ปรับแต่งโมเดล AI
กลับหน้าข่าวสารโปรเจคและเทคโนโลยี