บริษัท OpenAI ได้เปิดตัว GPT-4o (o ย่อมาจาก “omni” แปลว่า “รอบด้าน”) ซึ่งเป็นก้าวสำคัญในการพัฒนาการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ให้เป็นธรรมชาติมากขึ้น โดยโมเดลนี้สามารถรับข้อมูลประเภทต่างๆ ได้อย่างหลากหลาย ไม่ว่าจะเป็น ข้อความ เสียง ภาพ หรือ วิดีโอ และสามารถสร้างสรรค์ผลลัพธ์ที่เป็น ข้อความ เสียง หรือ ภาพ ขึ้นอยู่กับข้อมูลที่ป้อนเข้าไป
GPT-4o ใช้เวลาตอบสนองต่อข้อมูลเสียงเพียงแค่ 232 มิลลิวินาทีโดยเฉลี่ย (เฉลี่ยอยู่ที่ 320 มิลลิวินาที) ซึ่งใกล้เคียงกับระยะเวลาที่มนุษย์ใช้ตอบสนองในการสนทนา
ประสิทธิภาพการประมวลผลข้อความภาษาอังกฤษและโค้ดของ GPT-4o นั้นเทียบเท่ากับ GPT-4 Turbo แต่มีความโดดเด่นในเรื่องของการประมวลผลข้อความภาษาอื่นๆ นอกเหนือจากภาษาอังกฤษที่ดีขึ้นอย่างมาก นอกจากนี้ GPT-4o ยังทำงานได้เร็วกว่า และมีค่าใช้จ่ายผ่าน API ถูกกว่าถึง 50% อีกด้วย
จุดเด่นที่สำคัญที่สุดของ GPT-4o คือความสามารถในการทำความเข้าใจข้อมูลประเภทภาพและเสียง ซึ่งเหนือกว่าโมเดลที่มีอยู่ทั่วไปอย่างชัดเจน
ก่อนหน้านี้ การสนทนากับ ChatGPT ด้วยเสียงผ่าน Voice Mode จะใช้เวลาตอบสนองเฉลี่ยอยู่ที่ 2.8 วินาที สำหรับรุ่น GPT-3.5 และ 5.4 วินาทีสำหรับรุ่น GPT-4 เนื่องจาก Voice Mode ทำงานโดยใช้โมเดลแยกกัน 3 ตัว กระบวนการนี้ส่งผลให้สูญเสียข้อมูลระหว่างทาง เนื่องจาก GPT-4 ซึ่งเป็นโมเดลหลัก ไม่สามารถรับรู้ข้อมูลน้ำเสียง การมีผู้พูดหลายคน เสียงรบกวนเบื้องหลัง หรือแม้กระทั่งสร้างเสียงหัวเราะ ร้องเพลง หรือแสดงอารมณ์ผ่านเสียงตอบกลับได้เลย
จุดเปลี่ยนสำคัญคือการพัฒนา GPT-4o ซึ่งเป็นโมเดลเดี่ยวที่ได้รับการฝึกฝนแบบครบวงจร ครอบคลุมทั้งข้อความ ภาพ และเสียง หมายความว่า ข้อมูลทั้งขาเข้าและขาออกจะถูกประมวลผลโดยเครือข่ายประสาทเทียม (neural network) ตัวเดียวกัน
ที่มา : OpenAI