«Узровень А2+». Чаму штучны інтэлект кепска гаворыць па-беларуску

Якія памылкі часьцей робіць штучны інтэлект у вуснай беларускай мове. Якія ініцыятывы спрабавалі яго навучыць на ёй гаварыць, расказвае «Радыё Свабода».

Bielaruskaja mova
Ілюстрацыйнае фота

Задаеш пытаньне па-беларуску, а ChatGPT адказвае па-ўкраінску. Хочаш перавесьці галасавое паведамленьне ў тэкст, а ён замест гэтага піша нязьвязныя літары. Спрабуеш агучыць беларускамоўны рылз згенэраваным голасам, а ён чытае тэкст зь няправільнымі націскамі і мяккім [ч]. У той час калі штучны інтэлект досыць добра авалодаў ангельскай і расейскай мовамі, ён усё яшчэ кепска гаворыць па-беларуску. Таму беларускамоўным людзям усьцяж нязручна ім карыстацца на роднай мове.

Як стала вядома Свабодзе, на гэты момант усяго каля 20 беларусаў спрабуюць навучыць штучны інтэлект гаварыць па-беларуску добра. Рабіць гэта дорага і нявыгадна. Таму займаюцца гэтым пераважна валянтэры і пасіянары, якія не зарабляюць, а нават укладаюць свае грошы і час у распрацоўку.

Разьбіраемся, якія памылкі часьцей робіць штучны інтэлект у вуснай беларускай мове, якія ініцыятывы спрабавалі яго навучыць гаварыць на матчынай мове беларусаў, чаму гэта пакуль што не атрымалася і што для гэтага кожны можа зрабіць проста цяпер.

ШІ кепска гаворыць па-беларуску

Беларуская мова ёсьць у сьпісе моваў у такіх кампаніях-гігантах, як Google, Open AI, Elevenlabs, аднак вуснае маўленьне там яшчэ недасканалае. Нэўрасеткі ў 2026 годзе кепска валодаюць беларускай. Яны блытаюць яе з украінскай, расейскай, польскай мовамі.

З словаў суразмоўцаў Свабоды, якія займаюцца гэтымі пытаньнямі, ШІ, калі спрабуе гаварыць па-беларуску, найчасьцей робіць такія памылкі:

  • няправільныя націскі, асабліва ў словах-амографах, якія пішуцца аднолькава, але маюць розны сэнс і па-рознаму вымаўляюцца (прыкладам, му́ка ‘пакута’ і мука́ ‘збожжавы прадукт’; часам націскі толькі на перадапошнім складзе, як у польскай);
  • няправільна вымаўляюць гукі, адметныя ад расейскіх: мяккі [ч] замест зацьвярдзелага, выбухны [ґ] замест фрыкатыўнага [г], проста [і] замест [ji] пад націскам у пачатку слова;
  • не зьмякчае зычных у словах сьнег, зьвер, дзьверы.

Ганна Маклакова, якая працуе зь беларускай мовай у тэхналёгіях, уважае, што штучны інтэлект сёньня валодае беларускаю на ўзроўні А2+.

«Штучны інтэлект можа нам нешта сказаць, магчыма, без эмацыйных адценьняў і з памылкамі ў нейкіх націсках. Быў бы ўзровень А1, калі б ён мог сказаць: «Менск — гэта сталіца Беларусі»… Цяпер, калі мы спрабуем паразмаўляць з штучным інтэлектам па-беларуску, то ён будзе размаўляць, але ня так, як беларускае вуха прывыкла чуць», — камэнтуе становішча яна.

Hanna Maklakova
Ганна Маклакова, фота з прыватнага архіву

Але чаму ШІ па-беларуску гаворыць горш, чым, прыкладам, па-ангельску? Як жывым людзям лягчэй вучыць мову, калі навокал іх атачаюць носьбіты гэтай мовы і хапае падручнікаў, так і штучнаму інтэлекту, каб добра загаварыць па-беларуску, трэба перад гэтым спажыць дастаткова якаснага аўдыёкантэнту па-беларуску.

У сеціве ёсьць аўдыё- і відэазьмесьціва па-беларуску: аўдыёкнігі, фільмы, мультфільмы, навіновыя перадачы, ток-шоў, інтэрвію. Чаму тады нельга «скарміць» гэта ўсё нэўрасеткам і хутка зрабіць іх беларускамоўнымі?

Міхась* (імя зьмененае дзеля бясьпекі суразмоўцы. — РС), які распрацоўвае праекты, зьвязаныя ў тым ліку з вуснай беларускай мовай у тэхналёгіях, патлумачыў, што гэта ня так проста і хутка. Спачатку трэба адабраць якаснае зьмесьціва — дзе ня будзе памылак у вымаўленьні, ня будзе «трасянкі». Пасьля трэба нарэзаць гук на невялікія фрагмэнты прыкладна па 15 сэкундаў, пачысьціць ад фонавых шумаў, музыкі, зрабіць тэкставы адпаведнік гэтай аўдыёдарожцы і толькі тады «скормліваць» гэта ШІ.

Каб добра навучыць тэхналёгіі нейкай мове, патрэбныя дзясяткі тысяч гадзін запісу. Бясплатна вучыць ШІ немагчыма, бо распрацоўнікі звычайна выкарыстоўваць ранейшыя тэхналягічныя працы буйных кампаніяў. Гэта каштуе вялікіх грошай, працягвае суразмоўца, трэба плаціць за кожную гадзіну працы на іхных пляцоўках.

«Каб генэраваць правільную прыгожую беларускую мову, трэба правільна і прыгожа на ёй размаўляць. Пажадана ў студыі, каб гэта было прафэсійнае абсталяваньне, бяз шуму. Асноўная праблема — гэта брак якаснага разнастайнага беларускага збору дадзеных у студыі», — зазначае Міхась.

Ганна Маклакова заўважае, што ў мультфільмах, аўдыёкнігах звычайна ёсьць слэнгавыя словы, якім лепш вучыць на пазьнейшых этапах, як і скарачэньням «мо», «до» ці абрэвіятурам. Да таго ж такое зьмесьціва часта яскрава эмацыйна афарбаванае. А на пачатку навучаньня мадэлі штучнага інтэлекту лепей выкарыстоўваць эмацыйна нэўтральны матэрыял. Аднак, на думку Міхася, лепш вучыць на матэрыяле, дзе ёсьць эмоцыі, інтанацыя.

Sonora. Перавод пісанага тэксту ў вусны

Адзін з апошніх праектаў, у якім ШІ спрабуюць навучыць гаварыць па-беларуску, а дакладней пераводзіць друкаваны тэкст у маўленьне (па-ангельску Text-to-Speech) — гэта Sonora.

Людзі, якія працуюць над праектам, хочуць запісаць якасныя беларускамоўныя аўдыё, на якіх далей штучны інтэлект будзе вучыцца гаварыць па-беларуску, расказвае мэнэджарка праекту Sonora Ганна Маклакова. Які аб’ём гадзін і тэкстаў спатрэбіцца запісаць, каб навучыць ШІ гаварыць па-беларуску, пакуль няясна, бо невядома, як ён будзе вучыцца. Першапачаткова ідзецца пра 20–30 гадзін запісу.

Цяпер каманда праекту шукае прынамсі аднаго чалавека, які зможа прафэсійна запісаць беларускае маўленьне ў якасным гучаньні, а таксама чалавека, які будзе сядзець побач у студыі, слухаць якасьць запісу і пры патрэбе карэктаваць яго. Каманда таксама зацікаўленая ў дапамозе валянтэраў гэтаму праекту.

Кандыдату ў якасьці тэсту прапануюць прачытаць і запісаць сем сказаў, якія адабралі мовазнаўцы. Перавагу аддадуць чалавеку з дыктарскім досьведам. Пажадана, каб ён знаходзіўся не ў Беларусі, бо аплаціць гэтую працу чалавеку ўнутры краіны было б складана. Сярод тых, хто прапаноўваў свае паслугі, быў чалавек, які агучваў тэксты і працаваў у кампаніі Disney, расказвае Ганна.


Bielaruskaja mova
Ілюстрацыйнае фота

Каманда цяпер вядзе перамовы з Elevenlabs (кампанія, якая распрацоўвае праграмнае забесьпячэньне на базе штучнага інтэлекту для генэрацыі мовы і сынтэзу голасу. — РС), высьвятляе іхныя тэхнічныя налады, каб дапасаваць прадукт да іх. Дамаўляюцца пра супрацу таксама з адным зь беларускамоўных мэдыя, якія маюць вялікую базу аўдыёзьмесьціва па-беларуску.

Цяпер на праект зьбіраюць грошы, каб аплаціць арэнду студыі, выплаціць ганарар дыктару, гукарэжысэру, тым, хто падбірае тэксты, праводзіць лінгвістычную працу, хто пазьней будзе апрацоўваць аўдыё. Усяго хочуць сабраць 13 тысяч эўра.

Гэта некамэрцыйны праект. На ім стваральнікі не плянуюць зарабляць грошы. Вынікі сваёй працы яны хочуць перадаць буйным тэхналягічным кампаніям, а таксама выкласьці ў агульны доступ. Цяпер частка каманды, якая працуе над праектам, не атрымлівае за гэта заробку.

«Гэта нашая зацікаўленасьць, каб беларуская мова гучала так, як яна павінна гучаць. Гэта права беларускай мовы — існаваць у тэхналёгіях і не гучаць як украінская, ці расейская, ці польская, а гучаць як беларуская мова», — падкрэсьлівае Ганна.

Яна прызнаецца, што часам чуе заўвагі: маўляў, каманда надта пэрфэкцыйна ставіцца да навучаньня ШІ, ставіць занадта высокія патрабаваньні да гучаньня.

«Я не лічу, што мы павінны спускацца на прыступку ніжэй: «Украінскія словы і ўкраінскія словы, ну і няхай». Мы ж хочам, каб беларуская мова жыла, каб нашчадкі чулі гэтую мову», — разважае праектная мэнэджарка Sonora.

Яна таксама зьвяртае ўвагу, што ня ўсе хочуць, каб штучны інтэлект добра загаварыў па-беларуску.

ŠI
Ілюстрацыйнае фота

«Беларусы, якія прафэсійна займаюцца агучваньнем кніг, пачынаюць абурацца. Гэта быццам забірае ў іх працу», — заўважае суразмоўца.

Праект Sonora разьлічаны на 3–5 месяцаў.

Каманда хоча, каб дзякуючы іхняй распрацоўцы можна было зайсьці на сайт навінаў, націснуць на кнопачку — і агучыць голасам тэкставыя навіны, каб у музэях яна дапамагла зрабіць беларускамоўныя аўдыёгіды, каб людзі з асаблівасьцямі зроку маглі лягчэй спажываць зьмесьціва на беларускай мове, каб студэнты маглі ня толькі прачытаць, але і пры жаданьні праслухаць вучэбныя матэрыялы, каб навігатары пачалі добра гаварыць па-беларуску, — пералічвае Ганна Маклакова.

«Мы хочам, каб беларускай мовы стала больш у сьвеце тэхналёгіяў», — падсумоўвае Ганна іхныя матывы.

Разумная калёнка «Голас»

«Голас» holas.ai пачалі распрацоўваць як разумную калёнку накшталт Google Home і «Yandex Алиса» ў пачатку 2024 году. Спачатку яна называлася Adam, пазьней яе перайменавалі.

«Мы ствараем першую ў сьвеце разумную AI-калёнку, якая размаўляе па-беларуску. Ваш штодзённы хатні суразмоўца», — прэзэнтуюць калёнку аўтары.

Адзін з стваральнікаў калёнкі Міхась расказаў Свабодзе, што цяпер яна добра разумее, калі да яе зьвяртаесься па-беларуску, у тым ліку распазнае імёны людзей. Раней разумела прыкладна палову. Але гаворыць «Голас» усё яшчэ ня вельмі добра, на сем зь дзесяці, ацэньвае Міхась. Калёнка робіць памылкі ў націсках, блытае словы-амографы, няправільна вымаўляе беларускія гукі.

ŠI Ілюстрацыйная выява

Распрацоўнікі «Голасу» выкарыстоўваюць працу буйных гульцоў, найбольш прыдаецца Gemini, яна распазнае беларускую мову выдатна — з словаў Міхася, значна лепш за Open AI. У будучыні аўтары плянуюць прадаваць «Голас». Раней суразмоўца ацэньваў, што на такі праект трэба 100–180 тысяч эўра.

Яшчэ адзін праект, над якім працуе Міхась, называецца «Плынь». Ён канвэртуе вуснае маўленьне ў напісаны тэкст (Speech-to-text), калі, прыкладам, дасылаеш камусьці паведамленьне. Але пакуль гэтыя напрацоўкі недасяжныя для карыстальнікаў.

У 2020 годзе зьявіўся праект Donar.by, які заахвочваў усіх беларусаў запісваць беларускамоўныя аўдыё. Трэба было прачытаць прапанаваны сказ. Тады ў агучваньні ўзялі ўдзел некалькі тысяч чалавек. Самы ахвярны «донар голасу» запісаў больш за 6 тысяч сказаў. Галасы дзяліліся па рэгіёнах.

«Дапамагаем тэхналягічнай будучыні нашай мовы (каб кампутары разумелі жывую размову)! Пераходзім на беларускую, вучымся ёй, трэнуем маўленьне, слухаем галасы беларусаў, калекцыянуем асаблівасьці гаворак раёнаў Беларусі», — пішуць пра свой праект аўтары.

Мінус гэтага праекту — частка запісаў няякасная.

«Людзі запісвалі недзе па дарозе, мікрафон з тэлефона або мікрафон з ноўтбука. Вельмі шмат трэба было прыкласьці высілкаў, каб пачысьціць усе шумы, гукі на фоне», — тлумачыць Ганна Маклакова.

Цяперашні праект Sonora карыстаецца цяпер гэтымі напрацоўкамі, адзначае Ганна Маклакова.

Bielaruskaja movaІлюстрацыйнае фота

Mozilla Common voice гэта адкрыты міжнародны праект, які зьбірае ўзоры чалавечага маўленьня для навучаньня сыстэмаў штучнага інтэлекту. Яго стварыла Mozilla Foundation у 2017 годзе. Галоўная ідэя праекту — зрабіць тэхналёгіі распазнаваньня і сынтэзу маўленьня даступнымі ня толькі буйным карпарацыям, але і дасьледнікам, унівэрсытэтам, стартапам і незалежным распрацоўнікам.

Кожны ахвотны можа агучыць сказы ў мікрафон, праверыць чужыя запісы, пацьвердзіць, што чалавек прачытаў тэкст правільна, дадаць новыя тэксты — сказы для будучых запісаў.

Беларусы актыўна далучыліся да праекту ў 2019–2020 гадах. Дзякуючы запісам праекту Donar.by беларуская мова нечакана апынулася ў лідэрах на гэтай плятформе па колькасьці запісаных гадзін, тлумачыць Міхась.

«Я ўпэўнены, што гэта дапамагае ўсім, хто навучае свае мадэлі, у тым ліку Gemini, якая клясна спраўляецца», — камэнтуе Міхась унёсак праекту Donar.by.

«Тутэйшы GPT» стварылі, каб вялікая моўная мадэль лепш разумела беларускую мову, культуру, гісторыю і мясцовы кантэкст. Гэта беларускамоўны AI-асыстэнт, які адказвае па-беларуску, ведае беларускія рэаліі, тапанімію, літаратуру, гісторыю, імкнецца ўнікаць аўтаматычнага пераходу на расейскую або ангельскую мовы.

Публічнай інфармацыі пра «Тутэйшы GPT» амаль няма. Днямі на Youtube-канале музыкі Піта Паўлава зьявілася інтэрвію з распрацоўнікам гэтага праекту Сяргеем.

З словаў Міхася, «Тутэйшы GPT» зараз робіць значную працу для навучаньня ШІ вуснай беларускай мове.

У 2025 годзе фанэтычны канвэртар і сынтэз маўленьня зьявіўся на старонцы Нацыянальнага корпусу беларускай мовы.

Там можна напісаць тэкст да 2 тысяч знакаў і ў выніку атрымаць аўдыё. Стваральнікі праекту зьвяртаюць увагу, што трэба пазначаць асобна літару ґ, аддзяляць прыстаўку ад кораня, пазначаць націскі.

«Агучваньне пакуль выкарыстоўвае стары рухавік — мы працуем над паляпшэньнем», — кажуць аўтары.

У Нацыянальным корпусе беларускай мовы таксама ёсьць пошук па аўдыё. Ён дапамагае ўбачыць расшыфраваны ўрывак з патрэбным словам, праслухаць аўдыёзапіс гэтага фрагмэнту, адкрыць поўную расшыфроўку тэксту, зь якога ён узяты.

BexTTS гэта адна зь першых адкрытых мадэляў сынтэзу беларускага маўленьня (Text-to-Speech, TTS), якая пераўтварае тэкст на беларускай мове ў натуральнае гучаньне голасу. BexTTS дазваляе агучваць беларускія тэксты, ствараць аўдыёкнігі, выкарыстоўваць беларускі голас у чат-ботах і AI-асыстэнтах, агучваць сайты, відэа й адукацыйныя матэрыялы.

«Мы ўдзячныя праекту Donar.by за закладзеную аснову: сабраныя матэрыялы ўжо дапамаглі ў навучанні беларускай мадэлі BexTTS», — пішуць стваральнікі праекту Sonora.

Тысячы валянтэраў, якія агучвалі фразы праз Donar.by і Mozilla Common Voice, дапамаглі ствараць беларускую мадэль сынтэзу маўленьня.