เปิดบริการทุกวันตั้งแต่เวลา 9.00 - 22.00 น.

Google ปล่อย Gemma 4 QAT รันบนมือถือและโน้ตบุ๊กได้ กินแรมไม่ถึง 1GB

เมื่อ: 09/06/2569 19:38:01
อัปเดทล่าสุด: 19/06/2569 07:37:08
โดย: Administrator
ป้ายกำกับ: Gemma 4, เจมมา 4, Quantization-Aware Training, การบีบอัดโมเดล AI, ลดขนาดโมเดล, รัน AI ในคอมตัวเอง, รัน LLM บนมือถือ, AI ประหยัดแรม, เทคโนโลยี QAT, รัน AI ออฟไลน์, กูเกิล เอไอ, ปรับแต่งโมเดล AI

สำหรับนักพัฒนาหรือสาย Tech ที่ชอบรันโมเดล AI แบบ Local บนเครื่องตัวเอง คงทราบดีว่าความท้าทายที่สุดคือเรื่องของ "แรม (VRAM)" ยิ่งโมเดลฉลาดเท่าไหร่ ขนาดไฟล์ก็ยิ่งใหญ่จนโน้ตบุ๊กทั่วไปหรือสมาร์ทโฟนแทบจะรันไม่ไหว แต่ล่าสุด Google DeepMind ได้แก้ปัญหานี้ด้วยการปล่อย Gemma 4 QAT โมเดลเปิด (Open-weights) เวอร์ชันพิเศษที่ผ่านการบีบอัดด้วยเทคนิค Quantization-Aware Training ทำให้โมเดลมีขนาดเล็กลงอย่างมหาศาล โดยในรุ่นเล็กสุดอย่าง E2B ใช้หน่วยความจำไม่ถึง 1 GB เท่านั้น บทความนี้เราจะมาเจาะลึกกันว่า เทคโนโลยีนี้ทำงานอย่างไร และมันจะช่วยเปลี่ยนอนาคตของการรัน AI บนอุปกรณ์พกพาไปอย่างไรบ้าง

ในการจำลองการควอนไทเซชันระหว่างการฝึกโมเดลโดยใช้เทคนิค QAT จะช่วยลดการสูญเสียคุณภาพเมื่อโมเดลถูกบีบอัด โดยใช้ checkpoint QAT เป็นรูปแบบการควอนไทเซชัน Q4_0 ซึ่งกำลังเป็นที่ความนิยมในปัจจุบัน รวมถึงรูปแบบการควอนไทเซชันใหม่ที่ออกแบบมาสำหรับกรณีการใช้งานบนมือถือโดยเฉพาะ ทำให้ลดการใช้หน่วยความจำของ Gemma 4 E2B เหลือเพียง 1GB เท่านั้น จะเห็นว่ามีการลดการใช้งานหน่วยความจำลงเยอะมาก ในขณะที่ยังคงรักษาความสามารถและคุณภาพที่คุณคาดหวังจาก Gemma 4 ไว้ได้

การรักษาคุณภาพของโมเดลไว้ในขณะที่ทำให้มีขนาดเล็กลง ทำได้อย่างไร

การควอนไทเซชันเป็นเทคโนโลยีสำคัญในการประมวลผลโมเดลบนฮาร์ดแวร์ โดยสามารถช่วยลดการใช้หน่วยความจำและเพิ่มความเร็วในการถอดรหัสด้วย อย่างไรก็ตาม การควอนไทเซชันหลังการฝึกอบรมแบบมาตรฐาน (Post-Training Quantization หรือ PTQ) มักทำให้ประสิทธิภาพลดลง แทนที่จะควอนไทเซชันโมเดลหลังจากฝึกอบรมเสร็จแล้ว QAT จะผสานกระบวนการควอนไทเซชันเข้ากับการฝึกอบรมโดยตรง แม้ว่า PTQ จะมีประสิทธิภาพในการรักษาคุณภาพอยู่แล้ว แต่ผลลัพธ์จาก QAT ของเราให้คุณภาพโดยรวมที่สูงกว่าเมื่อเทียบกับ PTQ แบบมาตรฐานตามรูปภาพ

รายละเอียดการปรับแต่งให้เหมาะสมกับอุปกรณ์พกพาภายในระบบ

วิศวกรด้าน AI ของ Google ได้ออกแบบรูปแบบการควอนไทเซชันสำหรับอุปกรณ์มือถือโดยเฉพาะ ประกอบด้วย

การเปิดใช้งานแบบคงที่
โดยปกติแล้ว โมเดลจะสิ้นเปลืองพลังในการประมวลผล การคำนวณวิธีการปรับขนาดข้อมูลแบบเรียลไทม์ แต่วิศวกรได้คำนวณการตั้งค่าเหล่านี้ล่วงหน้าในระหว่างการฝึกอบรมโมเดล ทำให้ช่วยลดภาระงานบนชิปมือถือและทำให้การตอบสนองเร็วขึ้น
การแบ่งปริมาณข้อมูลตามแต่ละช่องสัญญาณ
ด้วยการจัดโครงสร้างข้อมูลที่บีบอัดให้เหมาะสมกับการออกแบบของตัวเร่งความเร็วสำหรับอุปกรณ์พกพา ช่วยให้โทรศัพท์สามารถประมวลผลได้โดยตรง ทำให้ลดระยะเวลาในการประมวลผลมากขึ้น
การกำหนดให้มีการลดขนาดข้อมูลแบบ 2 บิต
เกิดการบีบอัดข้อมูลมากขึ้น (เหลือ 2 บิต) เฉพาะส่วนของโมเดลที่สร้างโทเค็น ในขณะที่ยังคงรักษาเลเยอร์การให้เหตุผลหลักไว้ที่ความแม่นยำสูงกว่า วิธีนี้ช่วยประหยัดพื้นที่จัดเก็บโดยไม่ทำให้โมเดลฉลาดน้อยลง
การฝังข้อมูลและการเพิ่มประสิทธิภาพแคช KV
เน้นการบีบอัดข้อมูลในรายการคำศัพท์ของโมเดลและหน่วยความจำระยะสั้น ซึ่งช่วยลดการใช้หน่วยความจำมากขึ้น ทำให้คุณสามารถสนทนาได้นานโดยไม่ต้องกังวลเรื่องพื้นที่ไม่เพียงพอ

บางครั้งตัวเข้ารหัสเสียงและภาพไม่จำเป็นต้องใช้งานในบางงาน จึงสามารถเพิ่มประสิทธิภาพการใช้หน่วยความจำได้มากยิ่งขึ้นโดยการใช้งานเฉพาะส่วนที่จำเป็นเท่านั้น ตัวอย่างเช่น โมเดล Gemma 4 E2B แบบข้อความอย่างเดียว (โดยไม่มีการฝังข้อมูลต่อเลเยอร์) ต้องการหน่วยความจำน้อยกว่า 1 GB

คุณสามารถติดตามข่าวสารเทคนิคการทำโปรเจคจากเราได้ลอดเวลา เพียงแต่กดติดตามเฟสบุ๊ครับทำโปรเจคและช่องสอนทำโปรเจคเอาไว้ หากต้องการที่ปรึกษาด้านการทำโปรเจค รีบติดต่อทีมงานรับทำโปรเจคเพื่อรับข้อเสนอจากเราได้เลยครับ ปรึกษาฟรี ตอบไวแน่นอน

อ้างอิง: Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency