×
478.77
548.62
5.87
#қаңтар қақтығысы #Украинадағы соғыс #жемқорлық #тағайындау
478.77
548.62
5.87

Knowledge base: Қазақша мәтін түзейтін бот несімен ерекшеленді

Knowledge base: Қазақша мәтін түзейтін бот несімен ерекшеленді
Ulysmedia.kz коллажы

Қазақ тіліндегі мәтін сапасын автоматты түрде тексеретін жаңа цифрлық құрал пайда болды. IT маманы, программист  Ерлан Оспан әзірлеген “Қатегер” жобасы күнделікті жазбадағы қателерді түзетіп қана қоймай, тіл мәдениетін қалыптастыруға бағытталған. Автордың айтуынша, бұл бастаманың басты мақсаты ешкімді сынамай, дұрыс нұсқаны ұсыну арқылы қазақша жазуға деген ынтаны арттыру.

Идея қалай туды?

Ерлан Оспанның айтуынша, жобаны жасау идеясы оның кәсіби тәжірибесінен туған.

«Медиа саласына келгенде, редакцияларда Рабиға Сыздықтың кітабы қолдан-қолға өтіп, алба-жұлба болып жүретінін көрдім. Содан, компьютер заманында кітап іздеген біртүрлі деп шешіп, осындай жоба жасау ойыма келді», - деді ол. 

Жобаның алғашқы нұсқасы десктоп қосымша ретінде пайда болған. Кейін әріптестер арасында қолданыла бастаған. 

Бүгінде жоба Telegram-бот форматында ұсынылған. Мұндай шешім кездейсоқ таңдалмаған. Ерлан Оспанның пікірінше, «қолданушылар әбден еріншек болып кеткен», сондықтан жобаның бұрыннан орнатылған платформалар арқылы қызмет көрсеткені тиімді. 

"Қазаққа керек дүние, тастама!"

Жобаның тарихы 15 жылдан астам уақытты қамтиды. Алғашында Ерлан Оспан MS Word редакторына жиі кездесетін қателерді түзететін арнайы макрос-скрипт жазған. Кейін бұл құрал жеке қосымшаға айналған. Программист жобаны тоқтатуды да ойлағанын бөлісті. 

«Шамамен 2024 жылға қарай бұл жобаны тастаймын деп шештім. Facebook-те сондай мазмұндағы жазбамды оқыған мәжіліс депутаты Абзал Құспан хабарласып, "қазаққа керек дүние, тастама!" деп, ұйымдастыру проблемаларымды шешіп беріп, қанаттандырды. Негізі, бұл жобаны сол Абзал мырзаға берген сертімнің көрінісі десеңіз болады», - дейді Ерлан.

Бот қалай жұмыс істейді?

Ерлан Оспанның айтуынша, бот мәтінді алдымен механикалық алгоритмдер арқылы өңдеп, жиі кездесетін қателерді арнайы маскалар көмегімен анықтайды. Ал барлық ықтимал қатені алдын ала қамту мүмкін болмағандықтан, жүйеге көрінеу қате мәтіндермен жаттыққан жасанды интеллект қосылған.

«Алдымен, жұрт жиі сынайтын қателерге нұсқауға тырысамын. Ол үшін күндіз-түні әлеуметтік желілерді, Назгүл Қожабек сынды қазақ тілінің білгірлерінің жазбаларын тіміскілеп отырамын (айтпақшы, "Қатегердің" бастапқы атауы "Тіміскі" болды). Жинаған қателерге маска жасаймын, форматқа келтіріп, ЖИ-ді "жемдеймін". Боттың да, алгоритмдердің де жалпы сипаты осы. Әрине, өзімше авторлық әдісім деп есептейтін әлдебір амалдарым да бар, оны айта алмаймын», - деді программист. 

Бот грамматикалық қателермен қатар стилистикалық және пунктуациялық кемшіліктерді де анықтауға тырысады. Дегенмен автор тілдің күрделілігін ескере отырып, «мәтіннің емле тұрғысындағы сапасының идеал формасы жоқ» екенін атап өтеді. Сондықтан жүйе негізінен дөрекі қателерді сенімді анықтайды, ал қалған бағытта үнемі жетілдіріліп келеді.

«Тілге қатысты академиялық білім мен тірі тілдің арасында алшақтық барын көрдім. Сондықтан, әлдеқандай қатып қалған ережелерге емес, өзекті білімге (knowledge base) сүйену керек деп шештім. Себебі, осы бағыттың дұрыс екенін мен өндірісте жүргенде көргенмін», - дейді Ерлан Оспан. 

Бүгінде бот тегін ұсынылады. Автор донат арқылы қаржы жинап көргенімен, күткен нәтиже болмаған. Ерланның айтуынша, алдағы уақытта ақылы қызмет енгізу немесе демеуші табу жоспарда бар.

Жоба кез келген мәтінді тексеруге арналған. Болашақта оны салалық бағыттарға бейімдеу де қарастырылып отыр. Алайда әзірге бұл тек жоспар. 

Боттың әлсіз тұстары туралы айтқанда, Ерлан Оспан жасанды интеллекттің табиғатына байланысты кейбір шектеулер бар екенін жасырмайды.

Серіктес жаңалықтары