Google ปล่อย Gemma 4 QAT รันบนมือถือและโน้ตบุ๊กได้ กินแรมไม่ถึง 1GB


 

Google ปล่อย Gemma 4 QAT รันบนมือถือและโน้ตบุ๊กได้ กินแรมไม่ถึง 1GB

 

 

        สำหรับนักพัฒนาหรือสาย Tech ที่ชอบรันโมเดล AI แบบ Local บนเครื่องตัวเอง คงทราบดีว่าความท้าทายที่สุดคือเรื่องของ "แรม (VRAM)" ยิ่งโมเดลฉลาดเท่าไหร่ ขนาดไฟล์ก็ยิ่งใหญ่จนโน้ตบุ๊กทั่วไปหรือสมาร์ทโฟนแทบจะรันไม่ไหว แต่ล่าสุด Google DeepMind ได้แก้ปัญหานี้ด้วยการปล่อย Gemma 4 QAT โมเดลเปิด (Open-weights) เวอร์ชันพิเศษที่ผ่านการบีบอัดด้วยเทคนิค Quantization-Aware Training ทำให้โมเดลมีขนาดเล็กลงอย่างมหาศาล โดยในรุ่นเล็กสุดอย่าง E2B ใช้หน่วยความจำไม่ถึง 1 GB เท่านั้น บทความนี้เราจะมาเจาะลึกกันว่า เทคโนโลยีนี้ทำงานอย่างไร และมันจะช่วยเปลี่ยนอนาคตของการรัน AI บนอุปกรณ์พกพาไปอย่างไรบ้าง

        ในการจำลองการควอนไทเซชันระหว่างการฝึกโมเดลโดยใช้เทคนิค QAT จะช่วยลดการสูญเสียคุณภาพเมื่อโมเดลถูกบีบอัด โดยใช้ checkpoint QAT เป็นรูปแบบการควอนไทเซชัน Q4_0 ซึ่งกำลังเป็นที่ความนิยมในปัจจุบัน รวมถึงรูปแบบการควอนไทเซชันใหม่ที่ออกแบบมาสำหรับกรณีการใช้งานบนมือถือโดยเฉพาะ ทำให้ลดการใช้หน่วยความจำของ Gemma 4 E2B เหลือเพียง 1GB เท่านั้น จะเห็นว่ามีการลดการใช้งานหน่วยความจำลงเยอะมาก ในขณะที่ยังคงรักษาความสามารถและคุณภาพที่คุณคาดหวังจาก Gemma 4 ไว้ได้

การรักษาคุณภาพของโมเดลไว้ในขณะที่ทำให้มีขนาดเล็กลง ทำได้อย่างไร

        การควอนไทเซชันเป็นเทคโนโลยีสำคัญในการประมวลผลโมเดลบนฮาร์ดแวร์ โดยสามารถช่วยลดการใช้หน่วยความจำและเพิ่มความเร็วในการถอดรหัสด้วย อย่างไรก็ตาม การควอนไทเซชันหลังการฝึกอบรมแบบมาตรฐาน (Post-Training Quantization หรือ PTQ) มักทำให้ประสิทธิภาพลดลง แทนที่จะควอนไทเซชันโมเดลหลังจากฝึกอบรมเสร็จแล้ว QAT จะผสานกระบวนการควอนไทเซชันเข้ากับการฝึกอบรมโดยตรง แม้ว่า PTQ จะมีประสิทธิภาพในการรักษาคุณภาพอยู่แล้ว แต่ผลลัพธ์จาก QAT ของเราให้คุณภาพโดยรวมที่สูงกว่าเมื่อเทียบกับ PTQ แบบมาตรฐานตามรูปภาพ

รายละเอียดการปรับแต่งให้เหมาะสมกับอุปกรณ์พกพาภายในระบบ

วิศวกรด้าน AI ของ Google ได้ออกแบบรูปแบบการควอนไทเซชันสำหรับอุปกรณ์มือถือโดยเฉพาะ ประกอบด้วย

  1. การเปิดใช้งานแบบคงที่ 
    โดยปกติแล้ว โมเดลจะสิ้นเปลืองพลังในการประมวลผล การคำนวณวิธีการปรับขนาดข้อมูลแบบเรียลไทม์ แต่วิศวกรได้คำนวณการตั้งค่าเหล่านี้ล่วงหน้าในระหว่างการฝึกอบรมโมเดล ทำให้ช่วยลดภาระงานบนชิปมือถือและทำให้การตอบสนองเร็วขึ้น
  2. การแบ่งปริมาณข้อมูลตามแต่ละช่องสัญญาณ 
    ด้วยการจัดโครงสร้างข้อมูลที่บีบอัดให้เหมาะสมกับการออกแบบของตัวเร่งความเร็วสำหรับอุปกรณ์พกพา ช่วยให้โทรศัพท์สามารถประมวลผลได้โดยตรง ทำให้ลดระยะเวลาในการประมวลผลมากขึ้น
  3. การกำหนดให้มีการลดขนาดข้อมูลแบบ 2 บิต
    เกิดการบีบอัดข้อมูลมากขึ้น (เหลือ 2 บิต) เฉพาะส่วนของโมเดลที่สร้างโทเค็น ในขณะที่ยังคงรักษาเลเยอร์การให้เหตุผลหลักไว้ที่ความแม่นยำสูงกว่า วิธีนี้ช่วยประหยัดพื้นที่จัดเก็บโดยไม่ทำให้โมเดลฉลาดน้อยลง
  4. การฝังข้อมูลและการเพิ่มประสิทธิภาพแคช KV
    เน้นการบีบอัดข้อมูลในรายการคำศัพท์ของโมเดลและหน่วยความจำระยะสั้น ซึ่งช่วยลดการใช้หน่วยความจำมากขึ้น ทำให้คุณสามารถสนทนาได้นานโดยไม่ต้องกังวลเรื่องพื้นที่ไม่เพียงพอ

        บางครั้งตัวเข้ารหัสเสียงและภาพไม่จำเป็นต้องใช้งานในบางงาน จึงสามารถเพิ่มประสิทธิภาพการใช้หน่วยความจำได้มากยิ่งขึ้นโดยการใช้งานเฉพาะส่วนที่จำเป็นเท่านั้น ตัวอย่างเช่น โมเดล Gemma 4 E2B แบบข้อความอย่างเดียว (โดยไม่มีการฝังข้อมูลต่อเลเยอร์) ต้องการหน่วยความจำน้อยกว่า 1 GB

        คุณสามารถติดตามข่าวสารเทคนิคการทำโปรเจคจากเราได้ลอดเวลา เพียงแต่กดติดตามเฟสบุ๊ครับทำโปรเจคและช่องสอนทำโปรเจคเอาไว้ หากต้องการที่ปรึกษาด้านการทำโปรเจค รีบติดต่อทีมงานรับทำโปรเจคเพื่อรับข้อเสนอจากเราได้เลยครับ ปรึกษาฟรี ตอบไวแน่นอน


อ้างอิง: Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency

 

แชร์ข่าวนี้ให้เพื่อนคุณ

 

กลับหน้าข่าวสารโปรเจคและเทคโนโลยี

 

อย่าลืมกดติดตามอัปเดตข่าวสาร เทคนิคดีๆกันนะครับ Please follow us