A feliratok javítják a siketek, nagyothallók és a más nyelvet beszélők számára a hozzáférhetőséget, így a tartalom mindenki számára elérhetőbbé válik. Segítik a keresőmotorokat is, hogy könnyebben megtalálják a tartalmat, ami növeli az elérést.
A kimondott szavak textualizálása sok más, erre épülő jövőbeni alkalmazás alapja is, melyeket lefektetünk. Ezek közé tartozik a keresési funkció javítása, a tartalmi ajánlások, a kulcsszavak egyszerűsítése vagy részleges automatizálása, az automatikus fordítások és még sok más.
Az automatikus létrehozás megkönnyíti a folyamatot és időt takarít meg. Az átírás vagy feliratozás manuális folyamata időigényes és sok erőforrást igényel, mivel minden nyelv és minden epizód megköveteli az emberektől, hogy a beszélt tartalmat szöveggé alakítsák.
A feliratokat a Whisper AI, a Google által kifejlesztett beszéd-szöveg algoritmus segítségével állítják elő. Több mint 50 nyelven képes a kimondott szavakat szöveggé konvertálni, és nyílt forráskódú, vagyis nyílt forráskódú és szabadon használható. Mivel egy ilyen algoritmus betanítása nagyon költséges, sok máshoz hasonlóan nekünk is a meglévő technológiákra kell hagyatkoznunk, mint például a Whisper AI.
Az algoritmus átalakítja az ún Fonémák (nyelvi hangok) betűkké, szótagokká és végül szavakká. Számos különböző módszert alkalmaznak a felismerés javítására vagy az olvasó érthetőségének növelésére. Például ún A beszédzavarok kiszűrhetők, mint például: Az „Uh” és „Ah” vagy bizonyos nyelvjárási kifejezések általánosabban érthetővé alakítva (például a „megkap” bizonyos kontextusokban „elér”-ré válhat).
Ezen kívül ún A „szószedetet” használnak, amelyek felismernek és reprodukálnak bizonyos kifejezéseket, amelyeket csak egy bizonyos nyelven vagy nyelvjárási területen használnak. Mivel ezek a szószedetek is inkább a német kifejezésekkel vannak kiképezve, kevésbé képesek felismerni az Ausztriára jellemző kifejezéseket, mint például a „Nemzeti Tanács”, a „Kerületi Hatóság”, vagy akár a tulajdonneveket, mint a „Freistadt”. Ilyen helyzetekben ezért előfordulhat, hogy a kifejezéseket félreírják, még akkor is, ha egyértelműen megfogalmazták őket, ha a kifejezés nem szerepel a szójegyzékben. Például a „Freistadt” város néha „Szabad Várossá” válik.
Az algoritmust folyamatosan fejlesztik, és feltételezhető, hogy az osztrák német nyelv minősége is folyamatosan javulni fog.
A feliratok létrehozása általában a hang teljes hosszának körülbelül egyhatodát-egyharmadát veszi igénybe. Az időtartam a nyelvtől vagy a zenei tartalomtól, a beszélt nyelv(ek)től és az emberek beszédmódjától függ. Átlagosan egy egyórás fájl körülbelül 10-20 percet vesz igénybe az automatikus átíráshoz.
A létrehozás a háttérben történik, és sok számítási teljesítményt igényel, ami időbe és költségbe kerül. Először a teljes adatbázist átírjuk, elsősorban a keresési funkció javítása érdekében. Az erőforrások és az idő megtakarítása érdekében az új fájlok csak akkor kerülnek átírásra, ha már közzétételre kerültek. Miután a teljes adatkészletet szövegesítettük – ami több mint egy évet vesz igénybe –, megfontoljuk, hogy nagyobb irányítást biztosítsunk az átirat létrehozása felett.
A CBA-ban található bejegyzések közül sok kevés leíró szöveget vagy kulcsszavakat tartalmaz. Ezek azonban csak akkor találhatók meg, ha elegendő szöveges információ áll rendelkezésre. Ennek érdekében az átiratokkal gazdagítjuk keresési indexünket, és a következő lépésben az értelmes kulcsszavakat is kiszűrhetjük, és így kulcsszavazásra ajánlhatjuk fel. Ez a folyamat nemcsak precízebb keresési eredményekhez vezet, hanem kiegyensúlyozottabbá is: az archívumból most már olyan tartalmak is nyilvánosságra hozhatók, amelyekről korábban nem, vagy nagyon kevés szöveges információ állt rendelkezésre.
A helyes átírás számos tényezőtől függ
A Whisper AI egy ún Nyelvi modell a hangok szöveggé alakításához. Egy adott beszédmód, például egy dialektus megértéséhez az ilyen technológiának sok információra van szüksége arról, hogyan beszélnek az emberek ebben a dialektusban. A képzési adatok gyakran a nyelvtől és a nyelvjárási területtől függően eltérő mértékben állnak rendelkezésre. Ez azt jelenti, hogy például ezeket az algoritmusokat nagyobb valószínűséggel képezik a szövetségi német nyelvváltozatokkal, ami azt jelenti, hogy a standard német sokkal jobban felismerhető, mint például bizonyos nyelvjárások.
A beszédmódon túlmenően az átírás minősége elsősorban a hangminőségtől függ. A „mosott” vagy tompa hang, a vágás/torzítás, a visszhang és még a bitsebesség is (például az MP3 tömörítési sebessége) súlyosan befolyásolhatja a minőséget, és ezért hibákhoz vezethet a feliratokban.
Ezeket a hibákat azonban manuálisan is kijavíthatod a feliratszerkesztővel.
Igen, az automatikusan generált feliratok szerkeszthetők a feliratszerkesztőben, hogy meggyőződj a helyességükről. Itt megtudhatod, hogyan kell használni.
Igen, a feliratszerkesztővel exportálhatod és letöltheted a feliratokat WebVTT fájlként és a teljes átiratot szövegként.