OpenAI Yazıdan Geçti: Bütçenize Göre Ses Pazarı Kuracak
OpenAI sesli asistanları daha doğal ve etkili hale getirmek için yeni ses modellerini duyurdu. Bu modeller metinden sese veya tam tersine çeviri yapabiliyor.

OpenAI metinden sese (TTS) ve sesten metne (STT) çeviri yapabilen, daha akıllı ve kişiselleştirilebilir sesli yapay zekalar oluşturmak üzere kolları sıvadı.
Bu yeni modeller, aksan farklarını daha iyi ayırt edebiliyor, hızlı konuşmaları doğru bir şekilde çevirebiliyor ve gürültülü ortamlarda bile güvenilir sonuçlar üretebiliyor. Üstelik önceki Whisper modellerine kıyasla çok daha yüksek doğruluk payına sahip. OpenAI, bu gelişmelerin büyük ölçüde takviyeli öğrenme ve geniş çaplı, yüksek kaliteli ses veri setleriyle yapılan eğitimler sayesinde mümkün olduğunun altını çizdi.
Ses Modeline Göre Fiyat Tablosu
Maliyetler milyon token başına belirleniyor. İşte fiyat tablosu:
- gpt-4o-transcribe: 6 dolar (Ses Girişi), 2.50 dolar (Metin Girişi), 10 dolar (Metin Çıkışı)
- gpt-4o-mini-transcribe: 3 dolar (Ses Girişi), 1.25 dolar (Metin Girişi), 5 dolar (Metin Çıkışı)
- gpt-4o-mini-tts: 0.60 dolar (Metin Girişi), 12 dolar (Ses Çıkışı)
Bu maliyetler dakika bazında hesaplandığında şu şekilde:
- gpt-4o-transcribe: 0.6 cent / dakika
- gpt-4o-mini-transcribe: 0.3 cent / dakika
- gpt-4o-mini-tts: 1.5 cent / dakika
OpenAI Öneriyor: Realtime API Kullanın
OpenAI, ses modellerini daha da geliştirmeye devam edeceklerini ve ilerleyen dönemde kullanıcıların kendi seslerini sisteme entegre edebilmesine olanak tanıyacaklarını belirtiyor.
Yeni ses modelleri, API üzerinden tüm geliştiricilere açılmış durumda. Ayrıca Agents SDK ile entegrasyon sağlanarak, geliştiricilerin daha kolay bir şekilde sesli yapay zeka çözümleri oluşturmasına olanak tanınıyor. Gerçek zamanlı konuşma deneyimleri için ise Realtime API kullanımı öneriliyor.