SCB 10X ร่วมมือกับ Stanford CRFM เปิดตัว ThaiExam Leaderboard HELM

08 ตุลาคม 2024

SCB 10X และ SCBX ร่วมมือกับ ศูนย์วิจัยสแตนฟอร์ดด้านโมเดลโครงสร้างพื้นฐาน (Stanford CRFM) เปิดตัว ThaiExam leaderboard มาตรฐานที่ออกแบบมาเพื่อประเมินโมเดลภาษาขนาดใหญ่ (LLM) ในบริบทภาษาไทย โดยใช้กรอบการประเมินของ HELM (Holistic Evaluation of Language Models) ผู้นำด้านการออกแบบการประเมินโมเดลภาษาขนาดใหญ่ ความร่วมมือในครั้งนี้ช่วยให้การประเมินโมเดลครอบคลุมมากขึ้นโดยเน้นภาษาไทยเป็นหลัก

ThaiExam Leaderboard ออกแบบมาเพื่อประเมินโมเดลภาษาไทยขนาดใหญ่ ซึ่งได้มาจากการสอบวัดความรู้เชิงวิชาการระดับชั้นมัธยมศึกษาและการสอบวิชาชีพทางการเงิน เช่น ONET, TGAT, A-Level และการสอบผู้แนะนำการลงทุน (IC) เพื่อประเมินโมเดลภาษาไทยชั้นนำต่าง ๆ รวมถึง “ไต้ฝุ่น” (Typhoon) โดยให้ความโปร่งใสอย่างเต็มรูปแบบตั้งแต่การตั้งคำถาม หรือ โจทย์โดยโมเดลสาธารณะที่ใช้กรอบการประเมินของ HELM โครงการนี้เป็นการเปิดตัว leaderboard ในรูปแบบสาธารณะ และเป็นครั้งแรกที่ออกแบบมาโดยเฉพาะสำหรับการประเมินภาษาไทย มีวัตถุประสงค์เพื่อขับเคลื่อนการพัฒนาและการประเมินโมเดลภาษาไทย

– SCB 10X ลงทุนรอบ Series A ใน Ema บริษัท Generative AI ผู้บุกเบิกระบบ Agentic AI สำหรับองค์กร

กสิมะ ธารพิพิธชัย Head of AI Strategy บริษัท เอสซีบี เท็นเอกซ์ จำกัด กล่าวว่า “ความร่วมมือกับ Stanford CRFM ในครั้งนี้ตอกย้ำถึงความมุ่งมั่นในการพัฒนา NLP ภาษาไทยและกำหนดมาตรฐานสำหรับการประเมินโมเดลภาษาหลายภาษา ThaiExam Leaderboard จะสามารถกระตุ้นการพัฒนาโมเดลภาษาไทยและส่งเสริมความร่วมมือในชุมชนวิจัย AI เพื่อสนับสนุนภาษาเฉพาะถิ่นที่ไม่ได้เป็นภาษาสากลและเป็นภาษาที่มีข้อมูลจำกัด”

แก้ไขช่องว่างในการประเมินโมเดลภาษาที่หลากหลายโดยเฉพาะภาษาที่มีข้อมูลจำกัด

แม้ว่าโมเดลขั้นสูง เช่น GPT-4 และ Claude 3 จะมีความสามารถหลายภาษา แต่กรอบการประเมินจะมุ่งเน้นการประเมินเป็นภาษาอังกฤษส่วนใหญ่ อย่างไรก็ตามThaiExam leaderboard จะเป็นกรอบการประเมินของ HELM ซึ่งมีวัตถุประสงค์เพื่อเติมเต็มช่องว่างที่สำคัญ กล่าวคือมอบระบบการประเมินที่ถูกปรับแต่งสำหรับภาษาไทยโดยเฉพาะ ซึ่งเป็นภาษาที่ซับซ้อนที่มีลักษณะทางภาษาที่ไม่เหมือนใคร ผ่านวิธีการที่เข้มงวดของ HELM นักวิจัยและนักพัฒนาสามารถประเมินประสิทธิภาพของโมเดลในภาษาไทยได้อย่างแม่นยำและโปร่งใส ด้วยข้อความภาษาไทยดั้งเดิมและชุดการประเมินที่ครอบคลุม โครงการนี้เสนอมาตรฐานที่จำเป็นสำหรับการทำความเข้าใจว่าโมเดลภาษาทำงานได้ดีแค่ไหนในบริบทภาษาไทย

ผลลัพธ์จากการประเมินโมเดลบน ThaiExam Leaderboard

ThaiExam Leaderboard ได้ประเมิน โมเดลภาษาไทยที่โดดเด่น 34 โมเดล โดย หนึ่งในนั้นมีโมเดลของ Typhoon ซึ่งผลจากการประเมินระบุว่า Typhoon 1.5X Instruct (70B) มีประสิทธิภาพเหนือกว่าโมเดลปิด เช่น GPT-4 Turbo และ Claude 3 Sonnet ที่เน้นความสามารถด้านภาษาไทยที่แข็งแกร่งด้วยความแม่นยำ 61.7% แม้แต่โมเดล Typhoon ขนาดเล็ก (8B) ก็ยังเหนือกว่า GPT-3.5 Turbo ในขณะที่โมเดล เช่น Claude 3 Haiku และ Llama 3 (70B) ก็แสดงผลลัพธ์ที่น่าสนใจ แม้จะไม่ได้รับการฝึกอบรมโดยเฉพาะสำหรับภาษาไทย ผลลัพธ์เหล่านี้เน้นย้ำถึงพลังของการปรับแต่งภาษาไทยที่เน้นภาษาไทยในการเพิ่มประสิทธิภาพภาษาท้องถิ่น

– SCB 10X เปิดตัว “Typhoon” โมเดลภาษาขนาดใหญ่ ประสิทธิภาพเทียบเท่า GPT-3.5 ในภาษาไทย

ส่งเสริม AI ภาษาไทยผ่านความร่วมมือระดับโลกและระดับภูมิภาค

SCB 10X มุ่งส่งเสริมนวัตกรรม AI ผ่านการร่วมมือเชิงกลยุทธ์กับบริษัท AI และสถาบันชั้นนำทั่วเอเชียตะวันออกเฉียงใต้และทั่วโลก ด้วยการทำงานอย่างใกล้ชิดกับผู้เล่น AI ที่โดดเด่น

SCB 10X ใช้ประโยชน์จากความเชี่ยวชาญร่วมกันเพื่อขับเคลื่อนนวัตกรรมในระบบนิเวศ LLM ของไทย ซึ่งยกระดับคุณภาพและความเกี่ยวข้องของโซลูชัน AI ที่ปรับแต่งมาโดยเฉพาะสำหรับตลาดเอเชียตะวันออกเฉียงใต้ โครงการที่โดดเด่น ได้แก่ การเปิดตัว “ThaiLLM Leaderboard”ร่วมกับ VISTECและSEACrowd Project ซึ่งประเมิน LLM โดยใช้ 10 ชุดข้อมูลในงานหลัก เพื่อส่งเสริมการเติบโตของงานวิจัย NLP ภาษาไทย

นอกจากนี้ SCB 10X ยังร่วมมือกับสถาบันระหว่างประเทศ เช่น มหาวิทยาลัยเคมบริดจ์ (University of Cambridge)และมหาวิทยาลัยทิงหัว (Tsinghua University)เกี่ยวกับการตรวจจับภาพลวงตาหลายรูปแบบด้วย “CrossCheckGPT”และกับมหาวิทยาลัยมหิดลเพื่อใช้ประโยชน์จาก AI สำหรับการพัฒนาทั้งส่วนบุคคลและระดับชาติ อีกทั้ง SCB 10Xยังเป็นผู้มีส่วนร่วมในโครงการ เช่น SEA-LION v2 และ Project SEALD ร่วมกับ AI Singapore (AISG)เพื่อส่งเสริมโมเดลภาษาสำหรับภูมิภาค ความพยายามเหล่านี้ทำให้ประเทศไทยมีบทบาทอย่างแข็งขันในการพัฒนาเทคโนโลยี AI ทั่วโลก

ข่าวอื่น ๆ ที่น่าสนใจ

Beacon VC x Baker McKenzie สอนอะไร? ในวิชา Startup Fundraising 101 

LINE แนะองค์กรธุรกิจสร้างกลยุทธ์ใหม่ ตอบโจทย์ผู้บริโภค รับมือความไม่แน่นอน

SCB 10X ร่วมมือกับ Stanford CRFM เปิดตัว ThaiExam Leaderboard HELM

แก้ไขช่องว่างในการประเมินโมเดลภาษาที่หลากหลายโดยเฉพาะภาษาที่มีข้อมูลจำกัด

ผลลัพธ์จากการประเมินโมเดลบน ThaiExam Leaderboard

ส่งเสริม AI ภาษาไทยผ่านความร่วมมือระดับโลกและระดับภูมิภาค

แท็กที่เกี่ยวข้อง

ผู้เขียน

บทความล่าสุด

เดิมพันครั้งใหญ่ของมนุษยชาติ: สรุปทางแยกแห่งยุค AI จาก KBTG Techtopia: At World’s Beginning

บิทคับ รับโล่จาก บก.ปอท. ตอกย้ำความร่วมมือปราบปรามอาชญากรรมไซเบอร์

LINE MAN Wongnai บุกสมรภูมิใหม่ คว้า JERA Cloud คุมตลาดเทคฯ ความงาม

บทความที่เกี่ยวข้อง

Share

SCB 10X ร่วมมือกับ Stanford CRFM เปิดตัว ThaiExam Leaderboard HELM

แก้ไขช่องว่างในการประเมินโมเดลภาษาที่หลากหลายโดยเฉพาะภาษาที่มีข้อมูลจำกัด

ผลลัพธ์จากการประเมินโมเดลบน ThaiExam Leaderboard

ส่งเสริม AI ภาษาไทยผ่านความร่วมมือระดับโลกและระดับภูมิภาค

Share

แท็กที่เกี่ยวข้อง

ผู้เขียน

บทความล่าสุด

เดิมพันครั้งใหญ่ของมนุษยชาติ: สรุปทางแยกแห่งยุค AI จาก KBTG Techtopia: At World’s Beginning

บิทคับ รับโล่จาก บก.ปอท. ตอกย้ำความร่วมมือปราบปรามอาชญากรรมไซเบอร์

LINE MAN Wongnai บุกสมรภูมิใหม่ คว้า JERA Cloud คุมตลาดเทคฯ ความงาม

บทความที่เกี่ยวข้อง

เดิมพันครั้งใหญ่ของมนุษยชาติ: สรุปทางแยกแห่งยุค AI จาก KBTG Techtopia: At World’s Beginning

True Digital Group ชี้ ‘Passion’ คือทักษะสำคัญที่สุดในยุคที่ AI ทำงานแทนสมอง

สวนทางศักยภาพ! นักวิจัยชี้ ‘ระบบ’ คือกับดักงานวิจัย AI ไทย

McKinsey เผย ‘ช่องว่างแห่งคุณค่า’ กับดักใหญ่ยุค AI