Zarządzanie głosem

Ten moduł umożliwia zarządzanie integracją narracji głosowych w Twoich grach i projektach narracyjnych.
Dla każdego klucza w Twoim projekcie możesz wygenerować i przypisać odpowiadającą mu wersję głosową.
Pełny przewodnik znajdziesz tutaj jako uzupełnienie tej strony.

Jak to działa?

LSDE obsługuje dwa podejścia, w skrócie SAD i MAD.

SAD: „Single Actor Dialog”
W tym paradygmacie możesz ręcznie przypisać konkretnego rozmówcę do każdego klucza dialogu za pośrednictwem jego metadanych.

Chociaż tryb SAD jest głównie przeznaczony dla jednego aktora na klucz, możliwe jest przypisanie wielu profili głosowych do tego samego klucza za pośrednictwem metadanych, na przykład dla ogólnych wiadomości wymagających różnych intonacji lub głosów.
Przykład dialogu zarządzanego w trybie SAD z dwoma osobnymi kluczami:
textsalut ca va ?
textoui ca va super

MAD: „Multi Actor Dialog”
W tym paradygmacie kilku rozmówców może interweniować w ramach tego samego klucza dialogowego.
Ich kwestie są identyfikowane przez specyficzne znaczniki (tags), które segmentują tekst.
Kolejność interwencji jest sekwencyjna.
Aby wyodrębnić identyfikatory postaci i ich powiązane teksty, należy zdefiniować wyrażenie regularne (regex).

W niektórych złożonych projektach, grupowanie kilku dialogów w jednym kluczu i zarządzanie ich rozdzieleniem w postprodukcji, bezpośrednio w silniku gry, może być rozsądne.
Przykład dla dialogu MAD:

doc-lsde-features-howtorendering-0-animate

text{lia} salut ca va ?
{boo} oui ca va super
{lia} Ho !
{boo} quoi !? pourquoi cette tete ?
{lia} ...
{sam} ...<br/>hey vous 2 !

Ta metoda znacznie redukuje liczbę kluczy do zarządzania.
Dla powyższego przykładu, gdzie każda kwestia miałaby swój własny klucz, a z tłumaczeniem na 10 języków, oznaczałoby to ponad 60 kluczy.
Zarządzanie każdą interwencją indywidualnie szybko stałoby się niemożliwe do opanowania w przypadku RPG zawierającego setki tego typu interakcji.

Wymagania

Aby generować głosy, musisz posiadać konto i klucz API ElevenLabs.

ElevenLabs oferuje darmowy klucz API z miesięcznym limitem kredytów, co pozwala na przetestowanie ich technologii.

Interfejs

Interfejs wyświetla listę języków, profile postaci, narzędzia do generowania głosu oraz historię stworzonych głosów.

Historia
Lista wszystkich instancji audio stworzonych dla wybranego klucza.

Kontener języków
Te zakładki grupują postacie według języka.

Kontener rozmówców
Lista encji (postaci), którym można przypisać narrację głosową.
W trybie \\MAD\\, ich kolejność odpowiada kolejności ich pojawienia się w tekście źródłowym.

Tekst
Przechwycony tekst służący jako podstawa do generowanej narracji głosowej.
Zaleca się modyfikowanie interpunkcji lub dodawanie wskazówek emocjonalnych w celu wpłynięcia na głos, bez zmiany oryginalnego tekstu źródłowego.
Wyświetlone zostanie ostrzeżenie, jeśli tekst źródłowy zostanie zmodyfikowany.

Ulepszanie
Ten przycisk umożliwia ulepszenie tekstu przeznaczonego do narracji głosowej, bazując na osobowości postaci i kontekście zdefiniowanym w metadanych klucza.

Ta funkcja jest dostępna wyłącznie dla modeli V3 ElevenLabs.

Generator
Ten przycisk generuje głos i dodaje go do historii.

Resetuj
Ten przycisk anuluje zmiany wprowadzone w tekście i przywraca oryginalną, przechwyconą wersję.

Zatwierdź głos
Umożliwia zatwierdzenie głosu.
Zatwierdzone głosy są przechowywane niezależnie od historii i będą eksportowane zgodnie z kryteriami zdefiniowanymi podczas zapisywania projektu.

Możliwe jest zatwierdzenie wielu głosów dla tego samego tekstu i tej samej postaci.
Nazwy plików zostaną wtedy automatycznie inkrementowane.
Może to być przydatne, na przykład, do zróżnicowania głosów w silniku gry używającym random seeds.

Sygnatura generowania
Te informacje, używane podczas generowania, służą jako sygnatura do śledzenia i zrozumienia pochodzenia każdego głosu.

Na przykład, jeśli dodasz nową postać lub przesuniesz ją w tekście źródłowym, będziesz mógł ponownie przypisać istniejące głosy do encji, nawet jeśli jej położenie się zmieniło.

Odtwarzacz audio
Pozwala uruchomić odtwarzanie głosu i wizualizować jego wysokość (pitch), aby porównać ją z pożądanym ogólnym nastrojem.

Tworzenie głosów

Z SAD

Musisz mieć skonfigurowany co najmniej jeden profil głosowy i aktywowany menedżer głosów w ustawieniach projektu.
Konfiguracja aktorów (lub encji) powiązanych z kluczem oraz ich profili głosowych odbywa się w oknie metadanych.

Z MAD

Musisz mieć skonfigurowany co najmniej jeden profil głosowy i aktywowany menedżer głosów w ustawieniach projektu.
Następnie aktywuj tryb MAD i napisz wyrażenie regularne (regex).
Musi ono przechwytywać dwie obowiązkowe grupy: identyfikator aktora i odpowiadający mu tekst.
Zdefiniuj indeks tych grup przechwytywania w ustawieniach skojarzeń głosowych.

doc-lsde-ui-voicereorder

Naprawianie problemów

Generowanie głosów przed finalizacją tekstu jest praktyką, której należy unikać.
Jednakże, jeśli to nastąpi, LSDE oferuje narzędzia do korygowania i reorganizowania głosów, unikając w ten sposób konieczności robienia wszystkiego od nowa.
Gdy zmienisz tekst dialogu po wygenerowaniu głosów, ich sygnatura stanie się niekompatybilna i zostaniesz poproszony o ich ponowne zatwierdzenie.
W trybie MAD, jeśli przemieścisz, dodasz lub usuniesz postacie, będziesz musiał również ponownie przypisać już wygenerowane instancje głosowe.

Ponowne przypisanie odbywa się w języku ojczystym projektu; pozostałe języki zostaną automatycznie przeorganizowane dzięki ich oryginalnej sygnaturze.

Pełny przewodnik znajdziesz tutaj.