เมื่อ AI สามารถคาดเดาใบหน้าของคนได้จากเสียงของพวกเขา

Speech2Face เป็นโครงข่ายประสาทเทียมขั้นสูงของ AI ที่ถูกพัฒนาโดยนักวิทยาศาสตร์จาก MIT และได้รับการฝึกฝนให้จดจำลักษณะบนใบหน้า และสามารถสร้างใบหน้าของผู้คนขึ้นมาใหม่เพียงแค่ฟังเสียงของพวกเขาเท่านั้น

คุณอาจเคยได้ยินเกี่ยวกับกล้องที่ขับเคลื่อนด้วย AI ที่สามารถจดจำผู้คนได้ด้วยการวิเคราะห์ลักษณะบนใบหน้าของพวกเขา แต่จะเกิดอะไรขึ้นถ้ามีวิธีที่ทำให้ AI รู้ว่าใบหน้าของคุณเป็นอย่างไร จากการฟังเพียงแค่เสียงของคุณเท่านั้น โดยที่ไม่ใช่การนำเสียงไปเปรียบเทียบกับฐานข้อมูล

นั่นคือสิ่งที่ทีมนักวิทยาศาสตร์ของ MIT กำลังดำเนินการอยู่ และผลงานของเขาก็น่าประทับใจไม่น้อย แม้ว่าโครงข่ายประสาทเทียมของพวกเขาที่ชื่อ Speech2Face จะยังไม่สามารถระบุใบหน้าของคนจริง ๆ ด้วยเสียงของพวกเขาได้ แต่มันก็สร้างใบหน้าใหม่ขึ้นมาพร้อมกับรายละเอียดที่น่าสนใจไม่น้อย

ผู้สร้าง Speech2Face กล่าวว่า “แบบจำลองของเราถูกออกแบบมาเพื่อเปิดเผยความสัมพันธ์ทางสถิติระหว่างลักษณะใบหน้ากับเสียงของผู้พูด”

ในขณะที่มนุษย์เราอาจบอกได้แค่ว่า เสียงดังกล่าวเป็นผู้ชายหรือผู้หญิง เด็ก วัยรุ่น หรือคนชรา แต่ Speech2Face ทำได้มากกว่านั้น เพราะมันสามารถกำหนดรูปทรงของจมูก โหนกแก้ม หรือกรามของใครบางคนได้อย่างแม่นยำจากการฟังแค่เสียงพูดเพียงอย่างเดียว นั่นเป็นเพราะจมูกและกระดูกอื่น ๆ บนหน้าของเรา เป็นโครงสร้างที่กำหนดวิธีที่เราเปล่งเสียงออกมา

เชื้อชาติ เป็นอีกสิ่งหนึ่งที่ Speech2Face สามารถระบุออกมาได้อย่างแม่นยำจากการฟังแค่เสียงของใครบางคนเพียงแค่เสี้ยววินาที เนื่องจากผู้คนที่มีถิ่นที่อยู่เดียวกันก็จะมีคุณสมบัติของเสียงคล้ายกัน ดังนั้น AI จึงคำนึงถึงปัจจัยเหล่านี้ และบางครั้งมันก็ให้ผลลัพธ์ที่น่าประทับใจ แต่มันก็ยังอยู่ในกระบวนการพัฒนาเพื่อทำให้ AI สมบูรณ์ยิ่งขึ้น

ในบางกรณี AI ก็มีปัญหาในการสร้างใบหน้าของผู้คน ปัจจัยต่าง ๆ เช่น สำเนียง ภาษาที่พูดและโทนเสียง เป็นสาเหตุที่ทำให้ Speech2Face วิเคราะห์ได้ผิดเพี้ยนไป ทั้งเพศ อายุ หรือเชื้อชาติ

ตัวอย่างเช่น ผู้ชายที่มีเสียงสูงเป็นพิเศษอาจถูกระบุได้ว่าเป็นผู้หญิง หรือผู้หญิงที่มีเสียงต่ำมากก็จะถูกระบุว่าเป็นผู้ชาย คนชราที่มีเสียงเด็ก หรือคนเอเชียที่พูดภาษาอังกฤษได้คล่องแคล่วก็อาจถูกมองว่าไม่ใช่คนเอเชีย

แม้จะมีข้อจำกัดอยู่บ้าง แต่ Speech2Face ถือเป็นจุดเริ่มต้นของเทคโนโลยี AI แห่งอนาคตอันใกล้ ลองนึกภาพหากเรามีเครื่องมือที่สามารถบ่งบอกเจ้าของเสียงที่เปล่งออกมาได้เพียงแค่เสี้ยววินาที มันจะถูกนำไปใช้ประโยชน์ได้มากมายขนาดไหน ตัวอย่างเช่นการช่วยระบุเจ้าของเสียงในคลิปเสียงต่าง ๆ ซึ่งพวกเขาไม่สามารถดิ้นหลุดได้อย่างแน่นอน

ที่มา : odditycentral | เรียบเรียงโดย เพชรมายา