News & Update

Meta สร้าง EnCodec อัลกอริทึมบีบอัดเสียงคุณภาพดีขึ้นกว่า MP3 สิบเท่าด้วยปัญญาประดิษฐ์

เมื่อสัปดาห์ที่ผ่านมา Meta เผยความสำเร็จในการนำปัญญาประดิษฐ์มาสร้างอัลกอริทึมบีบอัดไฟล์เสียงให้มีขนาดเล็กลงกว่าการใช้ MP3 ถึงสิบเท่า แต่ยังคงคุณภาพใกล้เคียงของเดิมเอาไว้ได้ โดยใช้ชื่อว่า EnCodec

Meta EnCodec

ไฟล์ขนาดมาตรฐานที่ใช้เป็นตัวอย่างในการเทียบขนาดไฟล์คือ MP3 ที่บิทเรท 64kbps ซึ่งแม้จะเป็นไฟล์ขนาดที่เล็กที่สุดในการใช้ MP3 แต่ก็เป็นคุณภาพระดับต่ำสุดด้วย โดย EnCodec ทำไฟล์ขนาดเล็กลงกว่า MP3 บิทเรทนี้สิบเท่า แต่แทบไม่สูญเสียคุณภาพเลยแม้แต่น้อย ทำให้อนาคตของการทำวิดิโอคอลจะดีขึ้นกว่าเดิม แม้อินเตอร์เน็ทจะไม่สเถียรแต่ไฟล์ยังคงแจ่มชัด

Meta EnCodec audio process

Meta อธิบายว่ากระบวนการดังกล่าวแบ่งออกเป็นสามส่วนด้วยกันเพื่อให้ไฟล์มีขนาดเล็กลง โดยส่วนแรกตัว Encoder จะทำการไฟล์ดั้งเดิมให้เป็นเฟรมเรทแฝง จากนั้น Quantizer จะทำการบีบอัดไฟล์ให้ได้ขนาดที่กำหนดเอาไว้ แต่ยังเก็บรายละเอียดสำคัญที่จะต้องใช้ตอนถอดรหัสไฟล์กลับ และตัวถอดรหัส (decoder) ฝั่งผู้รับที่จะแปลงสัญญาณกลับมาเป็นไฟล์คุณภาพสูง ซึ่งตัวถอดรหัสไม่ได้ใช้พลังประมวลผลมากนัก แค่หน่วยประมวลผล Neural Network บน CPU คอร์เดียวก็เพียงพอแล้ว

การบีบอัดไฟล์แบบ Lossy (สูญเสียคุณภาพ) นั้นเกิดจากความพยายามที่จะถอดส่วนที่มนุษย์ไม่สามารถรับรู้ ได้ยินออกจากไฟล์ไป แต่เมื่อบิทเรทไฟล์ต่ำมากๆ ก็ยากที่จะคืนสภาพกลับให้ได้ดีเหมือนเดิม ทาง Meta จึงใช้ Discriminator ในการเทรนปัญญาประดิษฐ์เพื่อปรับปรุงคุณภาพการคืนไฟล์ที่บีบอัดกลับมาให้ได้คุณภาพสูง ตัว Discriminator กับอัลกอริทึมเข้ารหัสจึงกลายเป็นเกมส์แมวไล่จับหนู ขณะที่สูตรบีบอัดของปัญญาประดิษฐ์พยายามทำไฟล์ให้ออกมาเหมือนต้นฉบับที่สุด เพื่อหลอกให้ Discriminator เชื่อว่านี่เป็นไฟล์คุณภาพสูงจริงๆ ไม่ใช่ไฟล์ที่ผ่านการบีบอัดมา ตัว Discriminator ก็จะพยายามจับผิดให้ได้ว่าไฟล์ดังกล่าวถูกบีบอัดมาหรือไม่ จนกลายเป็นอัลกอริทึมในการบีบอัดไฟล์ที่ใกล้เคียงไฟล์ต้นฉบับที่สุด

การใช้ปัญญาประดิษฐ์บีบอัดไฟล์เสียงนั้นไม่ใช่เรื่องใหม่ครับ แต่ Meta อ้างว่าเป็น EnCodec เป็นครั้งแรกที่บีบอัดไฟล์คุณภาพได้ระดับ 48kHz (คุณภาพสูงกว่า CD ที่ 44.1 kHz เล็กน้อย) เป้าหมายหลักของ Meta ก็คือการนำไปใช้ในสถานการณ์ที่ต้องบีบอัดเสียงอย่างมาก เช่นการทำ Video Call ที่อินเตอร์เน็ทไม่ดี และแน่นอนว่าจะนำไปใช้งานใน metaverse ด้วย

ในอนาคตเราอาจจะได้เห็นไฟล์คุณภาพสูงนี้เป็นไฟล์เสียงต่างๆ ตั้งแต่ดนตรีไปจนถึงไฟล์อัดจากห้องประชุม แต่ตอนนี้ทาง Meta ระบุว่ายังอยู่ในขั้นตอนวิจัยพัฒนา และคงต้องใช้เวลาอีกสักพักกว่าจะไปอยู่บน Facebook ครับ

ที่มา – Ars Technica

To Top

เราใช้คุกกี้เพื่อพัฒนาประสิทธิภาพ และประสบการณ์ที่ดีในการใช้เว็บไซต์ของคุณและสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ ตั้งค่า

Privacy Preferences

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

Allow All
Manage Consent Preferences
  • คุกกี้ที่จำเป็น
    Always Active

    ประเภทของคุกกี้มีความจำเป็นสำหรับการทำงานของเว็บไซต์ เพื่อให้คุณสามารถใช้ได้อย่างเป็นปกติ และเข้าชมเว็บไซต์ คุณไม่สามารถปิดการทำงานของคุกกี้นี้ในระบบเว็บไซต์ของเราได้

  • GA

    Google Analytic

Save