เร้ดแฮท ผู้ให้บริการโซลูชันโอเพ่นซอร์สชั้นนำ ประกาศเปิดตัว Red Hat AI Inference Server ทำให้ Generative AI กลายเป็นเทคโนโลยีที่ใครก็ใช้ได้บนไฮบริดคลาวด์ทุกแห่ง
โซลูชันใหม่นี้นำเสนออยู่ใน Red Hat AI เป็นเซิร์ฟเวอร์อนุมานระดับองค์กรที่เกิดจากโปรเจกต์จาก vLLM community และเร้ดแฮทเพิ่มประสิทธิภาพด้วยการผสานรวมเข้ากับเทคโนโลยี Neural Magic ทำให้มีความเร็วมากขึ้น ช่วยเพิ่มประสิทธิภาพให้ accelerator และคุ้มค่าใช้จ่าย เป็นการตอบวิสัยทัศน์ของเร้ดแฮทในการมอบการใช้งานโมเดล Gen AI ใด ๆ บน AI accelerator ใด ๆ ก็ได้ บนทุกสภาพแวดล้อมคลาวด์ แพลตฟอร์มนี้ช่วยให้องค์กรต่าง ๆ ใช้และสเกล Gen AI สู่การทำงานเป็นรูปธรรมได้อย่างมั่นใจมากขึ้น ไม่ว่าจะใช้งานแบบสแตนด์อโลน หรือผสานเป็นส่วนประกอบของ Red Hat Enterprise Linux AI (RHEL AI) และ Red Hat OpenShift AI ก็ตาม
การอนุมานเป็นเครื่องมือทำงานที่สำคัญของ AI โดยโมเดลที่ผ่านการเทรนล่วงหน้าจะแปลงข้อมูลให้เป็นการใช้งานในสถานการณ์จริง ซึ่งเป็นจุดสำคัญของการปฏิสัมพันธ์กับผู้ใช้ ที่ต้องการการตอบสนองอย่างฉับไวและแม่นยำ การที่โมเดล Gen AI ทั้งหลายขยายตัวอย่างรวดเร็วตามขนาดการใช้งานจริงและมีความซับซ้อน ทำให้การอนุมาน (inference) อาจกลายเป็นคอขวดที่เป็นอุปสรรคสำคัญ สิ้นเปลืองทรัพยากรฮาร์ดแวร์ และเป็นเหตุให้การตอบสนองไม่มีประสิทธิภาพ ทั้งยังทำให้ค่าใช้จ่ายในการดำเนินงานเพิ่มขึ้น ดังนั้น เซิร์ฟเวอร์การอนุมานที่มีประสิทธิภาพแข็งแกร่งไม่ใช่สิ่งฟุ่มเฟือยอีกต่อไป แต่เป็นสิ่งจำเป็นที่จะช่วยปลดล็อกให้ได้ใช้ศักยภาพที่แท้จริงของ AI ในวงกว้าง และการใช้งานที่ง่ายขึ้นอย่างมากจะช่วยขจัดความซับซ้อนที่ซ่อนอยู่ได้
เร้ดแฮทเจาะจงจัดการความท้าทายเหล่านี้ด้วย Red Hat AI Inference Server ซึ่งเป็นโซลูชันการอนุมานแบบโอเพ่นที่ออกแบบมาเพื่อมอบประสิทธิภาพที่สูง มีเครื่องมือบีบอัดและเพิ่มประสิทธิภาพโมเดลที่มีประสิทธิภาพชั้นนำติดตั้งมาพร้อม นวัตกรรมนี้ช่วยเสริมให้องค์กรใช้สมรรถนะของ Gen AI ได้อย่างเต็มที่ ด้วยการมอบประสบการณ์การตอบสนองที่ดีขึ้นอย่างมากให้กับผู้ใช้ และผู้ใช้มีอิสระในการเลือกใช้ AI accelerators เลือกใช้โมเดลและสภาพแวดล้อมไอทีได้ตามต้องการ
vLLM: การขยายนวัตกรรมด้านการอนุมาน
Red Hat AI Inference Server สร้างจากโปรเจกต์ vLLM ชั้นนำในวงการที่เริ่มต้นพัฒนาโดย University of California, Berkeley เมื่อกลางปี พ.ศ. 2566 โปรเจกต์ของคอมมิวนิตี้นี้ มอบการอนุมาน gen AI ที่มีปริมาณงานในช่วงเวลาหนึ่ง ๆ ที่สูง (high-throughput gen AI inference) รองรับอินพุตขนาดใหญ่, multi-GPU model acceleration, การแบทช์ต่อเนื่อง และอื่น ๆ อีกมาก
vLLM สนับสนุนการใช้งานในวงกว้างกับโมเดลต่าง ๆ ที่เปิดเป็นสาธารณะ ควบคู่กับการบูรณาการเข้ากับโมเดลชั้นนำต่าง ๆ ตั้งแต่ day zero ซึ่งรวมถึง DeepSeek, Gemma, Llama, Llama Nemotron, Mistral, Phi และอื่น ๆ รวมถึงโมเดลการใช้เหตุผลระดับองค์กรแบบเปิด เช่น Llama Nemotron นับได้ว่าเป็นมาตรฐานที่ได้รับการยอมรับและใช้กันโดยทั่วไปสำหรับนวัตกรรมการอนุมาน AI ในอนาคต การที่ผู้ให้บริการโมเดลระดับแนวหน้าต่างใช้ vLLM มากขึ้น ทำให้ vLLM มีบทบาทสำคัญต่ออนาคตของ gen AI
การเปิดตัว Red Hat AI Inference Server
Red Hat AI Inference Server มัดรวมนวัตกรรมชั้นนำของ vLLM และหลอมรวมเข้ากับความสามารถระดับองค์กรของ Red Hat AI Inference Server มีให้บริการทั้งแบบสแตนด์อโลนในรูปแบบคอนเทนเนอร์ หรือ ให้บริการเป็นส่วนหนึ่งของ RHEL AI และ Red Hat OpenShift AI
Red Hat AI Inference Server มอบการกระจาย vLLM ที่แข็งแกร่ง และใช้ได้กับสภาพแวดล้อมการใช้งานทุกแบบให้แก่ผู้ใช้ ซึ่งมาพร้อมด้วย:
- Intelligent LLM compression tools เพื่อลดขนาดของโครงสร้างพื้นฐาน และปรับแต่งโมเดล AI อย่างละเอียด ลดการใช้การประมวลผลให้เหลือน้อยที่สุด ในขณะที่ยังคงรักษาและเพิ่มความแม่นยำของโมเดลได้
- พื้นที่เก็บข้อมูลโมเดลที่ปรับให้เหมาะสม ซึ่งโฮสต์อยู่ใน Red Hat AI organization บน Hugging Face ช่วยให้เข้าถึงคอลเลกชันของโมเดล AI ชั้นนำที่ได้รับการตรวจสอบและปรับให้เหมาะสม และพร้อมสำหรับใช้ในการอนุมานได้ทันที ซึ่งช่วยเร่งประสิทธิภาพความเร็วได้ 2-4 เท่า โดยไม่กระทบต่อความแม่นยำของโมเดล
- การสนับสนุนระดับองค์กรของเร้ดแฮท และความเชี่ยวชาญที่สั่งสมหลายทศวรรษในการนำโปรเจกต์ต่าง ๆ จากคอมมิวนิตี้มาสู่การผลิตใช้งานจริง
- การสนับสนุนจากบุคคลภายนอก (third-party) เพื่อให้เกิดความยืดหยุ่นในการใช้ Red Hat AI Inference Server ได้บน non-Red Hat Linux และ แพลตฟอร์ม Kubernetes ต่าง ๆ ซึ่งเป็นไปตามนโยบายสนับสนุน third-party ของเร้ดแฮท
วิสัยทัศน์ของเร้ดแฮท: โมเดลใดก็ได้, accelerator ใดก็ได้, คลาวด์ใดก็ได้
เร้ดแฮทมุ่งมั่นที่จะทำให้ Gen AI เป็นเทคโนโลยีที่องค์กรสามารถนำไปใช้ได้อย่างอิสระ ไม่ว่าจะเลือกใช้โมเดล AI แบบไหน ฮาร์ดแวร์เร่งความเร็วอะไร และบนคลาวด์รูปแบบใดก็ตาม เพื่อให้องค์กรสามารถดึงศักยภาพที่แท้จริงของ Gen AI ออกมาใช้ได้อย่างเต็มที่ และเป็นมาตรฐานสำหรับนวัตกรรม AI ในอนาคต
ข่าวอื่น ๆ ที่น่าสนใจ
รู้จัก ‘ดร.ชาญวิทย์ บุญช่วย’ ผู้ก่อตั้งบริษัทเอไอไทยแท้ Synapes และนายกฯ AIEAT
Mobility Data ถอดรหัสการเดินทาง สู่การกระจายรายได้และโอกาสที่ยั่งยืน