Дүниежүзінде адамның дауысын танитын түрлі дыбыс ассистенті бар. Алайда iOS жүйесінің жеке көмекшісі Siri де, Яндекстің дыбыс көмекшісі Алиса да қазақша "түсінбейді". Осы олқылықтың орнын толтыру үшін қазақстандық ІТ-мамандар Speech Lab жобасын жасады.

Speech Lab жобасы Kazdream technologies IT холдингіне тиесілі. Идея авторы – холдингтің бас директоры Дәурен Төлебаев.

Жоба жетекшісі Динара Әлімованың айтуына қарағанда, коммерциялық ІТ-жобаларда машиналық оқыту мен жасанды интеллектіні дамыту 2012 жылдары басталған. Ал 2016 жылдан бастап нейрон желілерін қолдану арқылы сөйлейтін технология жайлы алғашқы ғылыми мақалалар жариялана бастады. Қазақстанның ІТ мамандары бұл бағыттың даму процесін үнемі бақылауда ұстаған. Көп ұзамай «ақылды» дауыс көмекшілері түрлі функция орындау қабілетіне ие болып, сұранысқа ие бола бастайды. 2018 жылы Қазақстандағы ІТ-мамандар тобын «Қазақ тілін түсінетін және қазақша сөйлейтін дыбыс ассистенті неге жоқ?» деген сұрақ мазалайды. Осылайша, олар Speech Lab командасына бірігеді.

Speech Lab ұжымы 2019 жылдың басында іске кіріседі. Нейрон модельдерін оқыту үшін деректерді белгілейтін аннотаторлар, машиналық оқытуды жүзеге асыратын мамандар бір командаға жиналып, жоба стартапқа айналады.

Сөйлеу зертханасының қызметкерлері жобаны тек қазақ тілінде жасау 100% нәтижеге әкелмейтді деп есептейді. Өйткені Қазақстан халқының көпшілігі қазақша және орысша сөйлейді. Сол себепті команда екі тілді «түсінетін» модель біздің нарыққа қолайлырақ деп шешкен.

Динараның айтуынша, компьютерге кез келген тілді түсіндіргенде деректер маңызды. Speech Lab командасы жинаған деректер 2019 жылы 70 сағат болса, қазір 3,5 мың сағатқа жетіпті.

Біз жұмыс барысында модельдік оқытудың түрлі тәсілін қолданып, тәжірибеден өткіздік. Себебі бұған дейін дыбыс ассистентінің алгоритміне қатысты салада жұмыс істеп көрмеген едік, — дейді Динара Әлімова.

Speech Lab командасы қарқынды жұмыстың арқасында алғашқы нәтижелеріне 2019 жылы қол жеткізген. Бір жыл ішінде компьютердің қазақ тілін тану дәлдігі 40% болған. Дыбыс ассистенті алғаш рет қазақша түсініп, сөйлей бастағанда «баламыздың тілі шыққандай қуандық» дейді ІТ-мамандар.

Дегенмен бұл нәтиже жобаны іске қосуға жеткіліксіз еді. Себебі тілді тану жылдамдығы айтарлықтай төмен болған. Мысалы, 1 минуттық аудионы автомат түрде 3 минутта жаза алатын.

Алғашқында қателер білім мен тәжірибенің аздығынан болды. Бастапқыда біз сөйлеуді тану саласында көбірек тәжірибе алып, содан кейін іске кіріссек, көп уақыт пен энергия үнемдей алатын едік, бірақ бұл салада тәжірибелі тәлімгерлерді табудың өзі қиын болды. Сондықтан ұжымдағы қызметкердің бәрі өзі ізденіп, оқып, тәжірибе жасап үйренді. Қазір үздіксіз жетілдірудің арқасында тану дәлділігі 85%-ке жетті және біздің қызмет 1 секундта 1 минуттық дыбысты тани алады, — дейді Динара.

Speech Lab  командасында бес адам жұмыс істейді. Жоба менеджері барлық процестің қалыпты жұмысын ұйымдастырады. Үш машиналық оқыту инженерлері аталған технологияларды құрастырумен айналысады. Ал backend-әзірлеуші дайын модельдерді қызметке қосып отырады.

Жоғарыда айтылғандай, қазір жобаның тілді тану дәлділігі 85%, яғни жазбада 100 сөз айтылса, соның 85 сөзін дәл танып береді. Бұл деңгейге жету үшін көп еңбек пен энергия жұмсалыпты. Биометрия, синтез, дауысты тану, үлкен көлемдегі аудиоақпаратты анализдеу және интеллектуал өңдеу процесінен кейін ғана компьютер қазақша түсіне бастаған.

Деректерді жинағанда тап болған ең үлкен мәселе адам факторы болыпты. Алғашында машиналық оқыту үшін мамандар аудионы тыңдап, естіген сөз бен сөйлемнің бәрін қолмен жазу арқылы деректерді аннотациялаған. Мұндай процесте тыныс белгілерінен қателесу, сөздерді байқамай өткізіп алу, айтылған сөзді білмеу, жазбай кету сияқты қателер кездесіпті.

Мұнымен күресу үшін біз аномалияларды анықтаудың статистикалық әдістерін, басқа адамдармен қосымша тексеруді және оқыған адамның өзі деректер сапасын тексеретіндей жұмыс істеп тұрған үлгіні қолдандық, — дейді зертхана жетекшісі.

Қазақстанда бұрын-соңды мұндай жоба болмағандықтан арнайы сервер де болмаған.

Тағы бір қиын әрі маңызды мәселе машиналық модельдерді үйретуге қажетті есептегіш қуаттылықтардың тапшылығы болды. Біз Nvidia V100 есептегіш серверін, яғни машиналық оқытуға арналған арнайы қуатты серверді сатып алу туралы шешім қабылдадық, — дейді Динара.

Қазір Speech.kz сайты жұмыс істеп тұр. Сайтта адамдардың дауысын жинайтын арнайы функция бар. Яғни кез келген адам сайтқа кіріп, деректер базасына өз дауысын қоса алады. Бұл функция белгіленген деректерді жинау үшін қосымша құрал ретінде енгізілген. Сайтқа кіріп,  тіркелген қолданушы ұсынылған мәтінді дауыстап оқи отырып Speech Lab жобасына деректер жинауға көмектесе алады. Бұл функция толық іске қосылғанымен, әлі көп мөлшерде дерек жиналмаған екен. Қазіргі таңда шамамен 20-дан астам қолданушы әртүрлі көлемде жазба қалдырған. Компьютерге қазақ тілін түсінуге көмектескісі келетін адамдар болса, сайтқа кіріп, тіркеліп және дауыс жазбасын қалдыра алады. 

Команда жуырда жобалық өнім ретінде «Сәлем» ақылды колонкасын таныстырды. Ол әзірше уақыт, ауа райы, валюта бағамы сияқты қарапайым сұрақтарға қазақша жауап бере алады. Жоба авторлары әу бастағы мақсат компьютерді қазақша сөйлету болғандықтан қазақтілді контентке көбірек мән беретінін айтады. Колонка қолданушының «Ты кто такой?» деген сауалына «Давай, только қазақша сөйлесейік» деп жауап береді. Әрі қарай төмендегідей диалогқа куә бола аласыз.

— Cенің атың кім?
— Мен виртуал көмекшімін. Менің атым – Сәлем. Ал сен кімсің?
— Менің атым – Мұрат.
— Әй, бәрекелді, Мұрат. Сәтті күн тілеймін.
— Бүгін ауа райы қалай?
— Далада жаңбыр жауып тұр. Қолшатырыңды ұмытпа.
— Сәбіздің бағасы қанша?
— Ойбуу, қымбаттап кетті ғой. Келісі базарда 400 теңге.

Құрылғының функционалдарына әлі тәжірибе жүргізіліп жатыр. Команда болашақта «Сәлем» колонкасын «Ақылды үй» жобасына қосымша ретінде енгізуді ойластырып жатыр. Алайда бұған көп қаражат керек, сол себепті қазір жоба тоқтап тұр.

Қазір Speech Lab қолданушыларға қазақша және орысша, аралас дауысты тану, қазақ тілінде дауысты синтездеу және дауыстық биометрия қызметтерін ұсына алады. Бұл қызметті түрлі салада тиімді қолдануға болады. Мысалы, call-центр қызметін автоматтандыру, клиенттерге автомат қоңырау шалу, мүгедектігі бар азаматтардың өмірін жеңілдету, тұлғаны дауыс арқылы ажырату арқылы қауіпсіздікті қамтамасыз етуге көмектесуге болады. Speech Lab командасы қазір бірнеше компанияның call-орталық қызметіне жобасын ұсынған.

Қазір компания дауысты тану бойынша деректер қорын ұлғайтып, машиналық оқудың жаңартылған архитектураларын қолдануды жоспарлап отыр. Дауысты синтездеу бойынша дауыстар санын көбейтіп, олардың адам сияқты табиғи түрде дыбысталуын жақсартуға мүдделі.

Speed Lab жобасының мақсаты нарықтағы үлесті ұлғайту ғана емес, әлеуметтік жобаларға да атсалысу.

Атап айтсақ, нашар көретін жандарға арналған қосымшаларға қазақ тілінде біздің технологияларды қолдануға болады. Сонымен қатар мемлекеттік ұйымдардың call-орталықтаррына өз қызметтерімізді ұсыну жоспарымызда бар, — дейді сөйлеу технологиялары зертханасының меңгерушісі.