Teknik4 Ocak 20264 dk okuma

Seslendirmede Doğallık: Vurgu, Duraklama ve Tonlama

Yapay zekanın insan konuşmasındaki incelikleri nasıl taklit ettiğine dair analiz.

Bu Makaleyi Dinle

Seslendirmede Doğallık: Vurgu, Duraklama ve Tonlama

Spesh Audio ile seslendirilmiştir

00:0000:00
Seslendirmede Doğallık: Vurgu, Duraklama ve Tonlama

Bir robotu insandan ayıran şey "monotonluktur". İnsan konuşması kaotiktir; hızlanır, yavaşlar, duraksar ve nefes alır.

Prosody (Prozodi)

Teknik dilde buna prozodi denir. Modern TTS motorları, sadece harfleri sese çevirmez, cümlenin anlamını analiz eder.

  • *"Geliyor musun?"* -> Soru işareti var, ses sonda yükselmeli.
  • *"Hayır, gelmiyorum!"* -> Ünlem var, ses sert ve kararlı olmalı.

SpeshAudio "Style" Ayarları

Panelimizdeki "Style Exaggeration" (Stil Abartısı) ayarı, bu prozodi değişimlerinin ne kadar dramatik olacağını belirler. %0 çok düz bir okuma sağlarken, %100 tiyatral bir okuma sunar.

Bu yazıyı paylaş: