Тэхналогіі сінтэзу маўлення імкліва захопліваюць свет, але сінтэзаваная беларуская мова дагэтуль гучыць з адчувальнымі дэфектамі. Нават самыя прасунутыя мадэлі спатыкаюцца на нашых націсках і фанетыцы. Беларусы запусцілі праект Sonora па стварэнні першага студыйнага датасэта, які мусіць назаўжды змяніць гучанне лічбавай беларушчыны, піша «Наша Ніва».
Гуказапісвальная студыя. Ілюстрацыйнае фота. Фота: Freepik / DC Studio
Важны тэхналагічны прарыў у сінтэзе беларускага маўлення адбыўся яшчэ вясной 2025 года, дзякуючы ўкараненню карпарацыяй Google сваёй новай мадэлі Gemini, якая навучылася якасна распазнаваць беларускае маўленне (STT — Speech-to-Text), дзякуючы чаму, напрыклад, на ютубе нарэшце з’явіліся аўтаматычныя беларускамоўныя субцітры.
Гэтаму шмат у чым паспрыялі самі беларусы праз валанцёрскі праект Donar.by, сабраўшы тысячы гадзін жывых галасоў.
Дзякуючы гэтай гіганцкай базе даных, сёння менавіта голас ад Google з’яўляецца найбольш блізкім да правільнага гучання беларускай мовы. Мадэль добра разумее кантэкст і мае вялізны слоўнікавы запас, пакідаючы далёка ззаду канкурэнтаў з OpenAI ці ElevenLabs, чые спробы загаварыць па-беларуску далёкія ад натуральнага маўлення.
Але распазнаць маўленне — гэта толькі палова справы. Калі ж нейрасетцы даводзіцца самой агучваць тэкст (TTS — Text-to-Speech), яна сістэматычна памыляецца ў рэдкаўжывальных словах і не можа справіцца з амографамі — словамі, якія пішуцца аднолькава, але маюць розны сэнс у залежнасці ад націску.
Калі замест правільнага «спарыша́мі» штучны інтэлект упэўнена выдае «спары́шамі», гэта адразу выдае яго сінтэтычную прыроду для носьбіта мовы. Сам носьбіт можа і не ведаць значэнне слова, не ведаць дзе ў ім ставіцца націск, але моўная інтуіцыя яму падказвае, што нешта не тое.
Да таго ж такія памылкі, няхай і рэдкія ў мадэлях Google, робяць мядзведжую паслугу тым, хто толькі пачынае засвойваць беларускую мову, замацоўваючы перакрыўленае вымаўленне.
Дадайце сюды праблемы з перадачай мяккасці зычных, спецыфічным гучаннем «ў», афрыкатамі «дз» і «дж» — слухаць і ўспрымаць доўгія тэксты ў такім выкананні пакуль фізічна цяжка.
Праблема не ў тым, што алгарытмы недастаткова разумныя — у выпадку з беларускай мовай ім проста няма на чым вучыцца. Каб штучны інтэлект засвоіў правільную інтанацыю, рытм і націскі, яму недастаткова аўдыя з ютуба ці падкастаў, дзе якасць гуку заўсёды розная, а дыкцыя людзей недасканалая.

Для стварэння натуральнага сінтэзаванага голасу патрабуецца спецыяльны, крышталёва чысты студыйны датасэт. Гэта тысячы гадзін прафесійнай начыткі, дзе тэксты спецыяльна сканструяваныя лінгвістамі такім чынам, каб ахапіць усе магчымыя фанетычныя спалучэнні і паказаць мадэлі, як правільна ставіць націскі ў складаных кантэкстах. Сёння ў свеце проста не існуе такога адкрытага масіва дадзеных для беларускай мовы.
Менавіта гэтую пустую нішу і збіраецца запоўніць праект Sonora. Гэта валанцёрская ініцыятыва, якую рухаюць праектная менеджарка Ганна Маклакова, інжынер-лінгвіст Уладзіслаў, каманда распрацоўшчыкаў TuteishyGPT і шэраг спецыялістаў, чые імёны не называюцца з меркаванняў бяспекі. Іх мэта — не стварыць закрыты камерцыйны прадукт, а зрабіць фундаментальную базу, якую змогуць выкарыстоўваць усе.
Цяпер каманда знаходзіцца на этапе збору сродкаў, плануючы сабраць 13 000 еўра на праект. Найбольшая частка бюджэту пойдзе на арэнду прафесійнай студыі і аплату працы дыктараў з ідэальным вымаўленнем. Рэшта — на паслугі гукарэжысёраў і карпатлівую працу лінгвістаў, якія будуць рыхтаваць і размячаць тэкставы корпус, і іншыя выдаткі.
Вынікам гэтай працы стане цалкам адкрыты датасэт з публічнай ліцэнзіяй. На яго аснове аўтары праекта плануюць дапрацаваць ужо існуючую айчынную мадэль BexTTS, вывеўшы яе на прынцыпова новы ўзровень.
Каманда шукае прамыя кантакты з прадстаўнікамі Google, OpenAI, Meta і Speechify, каб прапанаваць ім гатовы і якасны матэрыял. У логіцы глабальных карпарацый усё проста: калі ім даюць гатовы інструмент для паляпшэння прадукту на лакальным рынку, яны з радасцю яго інтэгруюць.
Калі сабраць усю суму адразу не атрымаецца, аўтары праекта абяцаюць пачаць запіс на тыя сродкі, якія ўжо будуць на рахунках, бо нават частковае папаўненне базы — гэта практычны крок наперад.
Прысутнасць беларускай мовы ў тэхналогіях сёння — гэта пытанне яе выжывання ў прынцыпе. Якасны сінтэз маўлення кардынальна змяняе правілы гульні ў стварэнні кантэнту.
Гэта азначае, што выданне беларускіх аўдыякніг ці агучванне доўгіх артыкулаў больш не будзе патрабаваць вялізных бюджэтаў і тыдняў працы ў студыі. Гэта магчымасць для школьнікаў і студэнтаў слухаць падручнікі, а для людзей з парушэннямі зроку ці дыслексіяй — атрымаць паўнавартасны доступ да беларускамоўнай інфармацыі.
Гэта база для стварэння айчынных галасавых памочнікаў, чат-ботаў і навігатараў, якія не будуць размаўляць з намі паламанай гуглаўскай гаворкай. Урэшце, гэта зручны інструмент для велізарнай беларускай дыяспары, якая хоча захаваць моўнае асяроддзе для сваіх дзяцей за мяжой.
Калі вы працуеце ў Літве, вы можаце падтрымаць «Будзьма беларусамі!», пералічыўшы нам 1,2% ад сваіх падаткаў. Вам уласна гэта не будзе каштаваць анічога.