Share on
×

Share

Speech-to-Text by WordSense แปลงเสียงเป็นข้อมูล สู่ความเป็นไปได้ใหม่ที่ได้เปรียบทางธุรกิจ

ปัจจุบันความก้าวหน้าของเทคโนโลยีปัญญาประดิษฐ์หรือ AI ถูกนำไปพัฒนาให้เกิดการใช้งานอย่างกว้างขวาง โดยหนึ่งในเทรนด์ AI ที่กำลังมาแรงแห่งยุค นั่นคือ “Speech-to-Text หรือ Automatic Speech Recognition (ASR)” โมเดล AI ที่ช่วยแปลงเสียงมนุษย์ให้กลายเป็นข้อความ จากนั้นนำข้อมูลที่ได้ไปวิเคราะห์ต่อยอดในด้านต่าง ๆ เพื่อเพิ่มประสิทธิภาพในการทำธุรกิจ ลดเวลาการทำงานและสร้างกำไรที่มากขึ้นกว่าเดิม 

ด้วยประสิทธิภาพของเทคโนโลยี AI – Speech-to-Text จึงเป็นที่มาของจุดเริ่มต้นธุรกิจของบริษัทเวิร์ดเซนส์ จำกัด บริษัทในเครือ Looloo Technology ที่มีความตั้งใจผลักดันอุตสาหกรรมและโซลูชัน AI ไทยให้มีคุณภาพระดับเวิลด์คลาส โดยเทคโนโลยี Speech-to-Text ของเราโดดเด่นเรื่องการประมวลผลไฟล์เสียงอัตโนมัติ ครอบคลุมทั้งการแปลงเสียงสนทนาของระบบคอลเซนเตอร์ เทเลเซล การประชุม หรือบทสนทนาต่าง ๆ  ไม่ว่าจะมีเสียงแทรก เสียงผู้พูดหลายคน ก็แปลงออกมาเป็นตัวอักษรได้ รวมถึงเข้าใจศัพท์เทคนิคในแต่ละอุตสาหกรรม 

เทคโนโลยีด้าน AI ของ WordSense แบ่งออกเป็นสองโซลูชันหลัก ได้แก่  

“Speech-to-Text by WordSense” แปลงเสียงเป็นข้อความได้ทันทีหลังจบการสนทนา ทั้งยังเชี่ยวชาญการแปลงเสียงเป็นภาษาไทยระดับสูง ด้วยทีมวิศวกรคอมพิวเตอร์ระดับโลก นำโดยผู้เชี่ยวชาญด้านการพัฒนาระบบ AI ที่มีประสบการณ์ทำงานที่ Google กว่า 10 ปี และยังเป็นหนึ่งในทีมก่อตั้งที่พัฒนาระบบ Google Assistance อีกด้วย นอกจากนี้ Speech-to-Text ของ WordSense ยังปรับแต่งได้ตามความต้องการของแต่ละบริษัท พร้อมรองรับปัญหาและการทำงานทุกรูปแบบ ได้แม่นยำและตรงจุด ตลอดจนให้บริการทั้งแบบ On cloud  และแบบ On-premise ตามความต้องการของลูกค้า

Speech-to-Text by WordSense
ตัวอย่าง ระบบจัดการข้อมูลเสียง Speech-to-Text by WordSense

ทั้งนี้ระบบ Speech-to-Text by WordSense สามารถแปลงเสียงเป็นข้อความได้ทั้งแบบ Real-time และไม่ Real-time โดยหลังจบบทสนทนาไม่เกิน 5 นาที ระบบจะสรุปรายละเอียดบทสนทนาทั้งหมดให้พนักงาน แต่ประสบการณ์ที่ผ่านมา ณ ตอนนี้จาก Use case ที่เกิดขึ้น ลูกค้ามักจะเลือกแบบไม่ Real-time เป็นส่วนใหญ่ เพราะด้วยค่าใช้จ่ายที่ค่อนข้างสูง การแปลงเสียงเป็นข้อความแบบเรียลไทม์จำต้องอาศัยระบบฮาร์ดแวร์สเปกสูง ราคาแพง ซึ่งอาจไม่คุ้มกับการลงทุนสักเท่าไรในยุคนี้

อย่างไรก็ตาม WordSense ยังมีอีกเทคโนโลยี AI ที่น่าสนใจไม่แพ้กัน นั่นก็คือ “Optical Character Recognition (OCR)” เอไอที่ช่วยแปลงข้อความเอกสารจากกระดาษได้ทั้งตัวอักษรแบบลายมือและตัวพิมพ์ ให้อยู่ในรูปแบบของข้อความดิจิทัล เช่น ทะเบียนรถ บัตรประชาชน เป็นต้น เพื่อนำข้อความที่ได้ไปประมวลผลต่อได้ ที่สำคัญ OCR by WordSense ถือเป็นเจ้าเดียวในตลาด OCR ไทยตอนนี้ ที่อ่านลายมือภาษาไทยได้ด้วยความแม่นยำสูงในระดับใช้งานจริง

Optical Character Recognition
ใบสมัครบัตรเครดิตที่ลูกค้าเขียนด้วยลายมือที่ถูกอ่านด้วย OCR by WordSense แบบเลือกเฉพาะจุด

 Speech-to-Text by WordSense พลิกโฉมงาน Telesales เพิ่มประสิทธิภาพ (QC/QA) ลดต้นทุน

สหพัฒณ์ ล้ำสมบัติ CEO บริษัท เวิร์ดเซนส์ จำกัด เล่าถึงกรณีศึกษาของการนำเทคโนโลยี AI Speech-to-Text ของเวิร์ดเซนส์ไปใช้ในธุรกิจ Telesales ในแง่ของการควบคุมคุณภาพและรักษามาตรฐาน (QC/QA) การทำงานพนักงาน 

การทำงานของระบบจะเริ่มต้นด้วยการแปลงเสียงพูดขณะสนทนาของลูกค้าและพนักงาน (หลังแยกเสียงผู้พูด) เป็นข้อความเพื่อสรุปบทสนทนา แล้วนำข้อมูลเหล่านั้นไปวิเคราะห์และพัฒนาบริการในด้านอื่น ๆ ต่อ ที่สำคัญระบบของ Speech-to-Text by WordSense ยังถูกออกแบบมาให้รองรับจำนวนพนักงานTelesales ได้ตั้งแต่ 100-1,000 คนขึ้นไป ไม่ว่าองค์กรของคุณจะมีขนาดเล็กหรือใหญ่ Solution ของเราก็พร้อมตอบโจทย์ทุกธุรกิจคุณ

นอกจากนี้จะแปลงข้อความได้แล้ว จุดเด่นของ Speech-to-Text by WordSense ยังแจ้งเตือนทันทีเมื่อพบปัญหาระหว่างสนทนา ไม่ว่าจะเป็น ข้อมูลลูกค้าไม่ครบถ้วนตามเช็กลิสต์ที่ทางบริษัทกำหนด หรือมีการพูดจาไม่เหมาะสมของพนักงานต่อลูกค้า รวมถึงมีการสนทนาอื่นที่เข้าข่ายหลอกลวงลูกค้า ไปจนถึงการใช้ถ้อยคำที่ละเมิดกฎหมายหรือข้อบังคับตามระเบียบสำนักงานคณะกรรมการกำกับและส่งเสริมการประกอบธุรกิจประกันภัย (คปภ.) โดยเฉพาะข้อหลังถือเป็นเรื่องใหญ่มาก หากพนักงานละเมิดข้อบังคับของคปภ. เผลอพูดคำที่ดูกำกวมฟังแล้วหมิ่นเหม่ ลูกค้าเองมีสิทธิ์เรียกคืนเงินส่งเบี้ยประกันนั้น ๆ รวมถึงบริษัทประกันอาจต้องเสียค่าปรับเป็นจำนวนเงินมหาศาล 

“เราเคยทำวิจัยและพบว่า หากจ้างพนักงานมาทำการ QC จะมีค่าใช้จ่ายเฉลี่ยนาทีละ 10 บาท แต่ถ้าใช้ Speech-to-Text by WordSense ค่าใช้จ่ายเฉลี่ยจะเหลือนาทีละ 0.50-3 บาท” CEO บริษัท เวิร์ดเซนส์ กล่าว

Speech-to-Text-by-WordSense
ตัวอย่าง ระบบควบคุมคุณภาพและรักษามาตรฐาน (QC/QA) Speech-to-Text by WordSense

 Speech-to-Text by WordSense แปลงเสียงเป็นข้อความได้แม่นยำสูง 90% ตอบโจทย์ทุกธุรกิจ

สหพัฒณ์ ยังกล่าวถึงอีกหนึ่งจุดเด่นของ Speech-to-Text by WordSense ที่น่าสนใจเอาไว้ว่า โมเดลของเราสามารถปรับแต่งการทำงานให้เข้ากับความต้องการของลูกค้าได้จริง เพราะเราเข้าใจว่าแต่ละธุรกิจก็มีความเฉพาะที่เป็นเอกลักษณ์ของตัวเอง แต่ละธุรกิจก็มีศัพท์เทคนิคที่ต่างกันไป อย่างในธุรกิจประกันภัย คำว่า “กรมธรรม์” หากถอดเสียงด้วย Speech-to-Text อื่น อาจจะสะกดเป็น “กรมทัณฑ์” แต่ WordSense จะปรับการสะกดให้ถูกต้องตามหลักภาษาไทย โดยทั้งหมดนี้มาจากการทำงานอย่างใกล้ชิดกับลูกค้าและรับฟีดแบ็กต่าง ๆ มาปรับปรุงอยู่เสมอ

อธิบายเป็นข้อมูลตัวเลขเพื่อให้เห็นชัด ปกติแล้วอัตราความแม่นยำในการถอดเสียงเป็นข้อความ (Accuracy Rate) ของ Speech-to-Text by WordSense โดยพื้นฐานอยู่ที่ 85-90% แต่เมื่อระบบของเราเรียนรู้ เข้าใจคำศัพท์เทคนิค รวมถึงบริบทสนทนาเพิ่มเติมอยู่เรื่อย ๆ ความแม่นยำของระบบก็จะเพิ่มขึ้นได้มากกว่า 90% ซึ่งแต่ละองค์กรสามารถ Customize ใส่ความพิเศษเฉพาะตัวได้ตามความต้องการของแต่ละอุตสาหกรรม 

นอกจากความแม่นยำแล้ว  Speech-to-Text by WordSense ยังมาพร้อมเทคโนโลยี Diarization ที่ช่วยในการจำแนกแยกเสียงของคู่สนทนาว่าใครเป็นเจ้าของเสียง โดยระบบจะช่วยวิเคราะห์ให้อัตโนมัติ โดยพิจารณาจากความถี่ ความเร็ว และความทุ้มของเสียงผู้พูดแต่ละคนได้ถูกต้อง มั่นใจได้กับผู้เชี่ยวชาญที่พัฒนาระบบ ซึ่งมีประสบการณ์ร่วมพัฒนา Google Assistant มาก่อน

ตัวอย่าง เทคโนโลยี Diarization ที่ช่วยแยกเสียงคู่สนทนา Speech-to-Text by WordSense
ตัวอย่าง เทคโนโลยี Diarization ที่ช่วยแยกเสียงคู่สนทนา Speech-to-Text by WordSense

เพิ่มความพึงพอใจให้ลูกค้ากับระบบแนะนำส่งเสริมการขาย (Script Recommendation) ด้วย Speech-to-Text by WordSense

นอกจากจะช่วยเพิ่มประสิทธิภาพการทำงาน และลดค่าใช้จ่ายแล้ว Speech-to-Text by WordSense ยังมีอีกหนึ่งบริการที่ช่วยส่งเสริมการขายและเพิ่มความพึงพอใจให้ลูกค้า ด้วย Solution แนะนำสคริปต์ (Script Recommendation)

วิธีที่ช่วยยกระดับการบริการลูกค้าให้มีประสิทธิภาพมากขึ้น โดยระบบนี้ทำงานโดยใช้เทคโนโลยีแปลงเสียงพูดของลูกค้าเป็นข้อความ จากนั้นนำข้อมูลมาวิเคราะห์เพื่อเข้าใจความต้องการหรือปัญหาของลูกค้า แล้วแนะนำสคริปต์หรือวิธีการตอบสนองที่เหมาะสมที่สุดให้กับพนักงาน ทำให้พนักงานสามารถให้บริการได้อย่างตรงจุดและมีประสิทธิภาพ ทำให้ลูกค้าได้รับประสบการณ์ที่ดี รวดเร็ว และตรงตามความต้องการแบบเฉพาะคน นำไปสู่ความพึงพอใจที่เพิ่มขึ้นและโอกาสทางธุรกิจที่มากขึ้นสำหรับองค์กร พนักงานเองก็สนทนากับลูกค้าได้ลื่นไหลขึ้น ลดความเครียดและความกดดันของคนทำงานได้ด้วย 

Script-Recommendation
ตัวอย่าง ระบบแนะนำ Script Recommendation ของ Speech-to-Text by WordSense
  • ลดความผิดพลาดในการสื่อสาร: ช่วยลดความเข้าใจผิดที่อาจเกิดขึ้นจากการฟังผิด
  • ลูกค้ารู้สึกว่าได้รับการใส่ใจ: ลูกค้าจะรู้สึกว่าองค์กรให้ความสำคัญกับความต้องการของพวกเขา เพราะสามารถตอบสนองได้อย่างตรงจุด
  • แก้ปัญหาอย่างมีประสิทธิภาพ: ระบบจะช่วยแนะนำวิธีแก้ปัญหาที่เคยประสบความสำเร็จมาก่อน ทำให้ลูกค้าได้รับการแก้ไขปัญหาอย่างรวดเร็ว
  • ตอบสนองรวดเร็วและแม่นยำ: ระบบสามารถวิเคราะห์ความต้องการของลูกค้าได้อย่างรวดเร็ว ทำให้พนักงานสามารถตอบสนองได้ทันที โดยไม่ต้องใช้เวลาคิดหาคำตอบนาน
  • ความสม่ำเสมอในการบริการ: ไม่ว่าลูกค้าจะติดต่อกับพนักงานคนใด ก็จะได้รับมาตรฐานการบริการที่คงที่

เทคโนโลยี Speech-to-Text by WordSense ไม่เพียงแต่เปลี่ยนโฉมหน้าการทำงานของทีม Telesales เท่านั้น แต่ยังเป็นการปฏิวัติกระบวนการควบคุมคุณภาพ (QA) ทั้งระบบ ด้วยความสามารถในการแปลงเสียงสนทนาเป็นข้อความ ทำให้การวิเคราะห์ข้อมูลเชิงลึกเป็นไปอย่างรวดเร็วและแม่นยำ นำไปสู่การตัดสินใจทางธุรกิจที่ฉลาดและทันต่อสถานการณ์

ทั้งนี้สหพัฒณ์ แนะนำทิ้งท้ายว่า การใช้งาน AI ในทุก ๆ ธุรกิจไม่สามารถทำให้จบครบสมบูรณ์ในครั้งเดียว ลองการเริ่มต้นด้วยการเปิดใจและเดินทางด้วยกันไปทีละก้าว จากการใช้โมเดล AI ง่ายและเร็วต่อการใช้งานโดยพื้นฐาน แล้วค่อยขยายผลให้ใหญ่ขึ้นในก้าวต่อไป จะทำให้การใช้งานเอไอขององค์กรเกิดประสิทธิภาพสูงได้อย่างแน่นอน

ข่าวอื่น ๆ ที่น่าสนใจ

LLM ภาษาไทย กับอนาคตของนวัตกรรมไทย

เริ่มแล้ว! ผู้โดยสารภายในประเทศ เดินทางผ่าน 6 สนามบินของ AOT ด้วยระบบ BIOMETRIC แค่ Scan หน้าก็ผ่านเลย

×

Share

ผู้เขียน