Қазақ тілінің үлкен моделін – «Kaz LLM» жасау үшін деректер жинау жарияланады
Қазақ тілінің үлкен моделін құру және іске қосу мақсатында «Ұлттық ақпараттық технологиялар» АҚ («ҰАТ» АҚ) машиналық оқыту саласындағы көшбасшы – Hugging Face сервисін пайдалануға кіріседі. Платформа базасында ашық деректердің жиналуы ұйымдастырылып, оған Қазақстанның кәсіби IT-қауымдастығы мен ашық деректерді ұстаушылары қосыла алады.
Hugging Face дегеніміз не?
Hugging Face – бұл машиналық оқыту саласындағы зерттеулермен бөлісуге арналған жетекші платформа, оның базасында пайдаланушылар құралдарды әзірлеп, ЖИ модельдерін жасай алады. Платформа пайдаланушылары ашық көздермен өзара іс-қимыл жасайды, бұл жасанды интеллектті қолжетімді етеді және білім мен прогресс алмасу мәдениетін ынталандырады. Компаниялар өз жұмысында пайдаланатын ЖИ модельдерін Hugging Face бөлісуге көмектеседі. Қолданушы компаниялар арасында Google, Microsoft Corp., Amazon, Meta Platforms Inc және басқалар да бар. 2023 жылы платформаға 1,2 миллионнан астам пайдаланушы тіркелді. 2024 жылдың қаңтар айының өзінде сайтқа 30 миллион шамасында пайдаланушы кірді. Сервистің ең белсенді пайдаланушыларының қатарында АҚШ, Қытай, Жапония және Үндістан тұрғындары бар.
Бұл не үшін қажет?
Қазақ тілінің заманауи тілдік моделін құру – Қазақстанның цифрлық тәуелсіздігін нығайтуға және жаһандық цифрлық кеңістікте ұлттық мәдениетті ілгерілетуге жасалған маңызды қадам. Кез-келген тіл моделін құру деректерді жинау кезеңнен басталады.
Жалпы деректерді жинау нәтижесінде қазақ тілін өңдеудің жоғары сапалы моделі (NLP) құрылады. Болашақта бұл автоматты аударманы жақсартуға ғана емес, жалпы қазақ тіліндегі мәтіндерді өңдеудің сапасы мен дәлдігін арттыруға көмектеседі.
Деректерді жинау «ҰАТ» АҚ арнайы құрылған аккаунтында жүзеге асырылады. Кәсіби IT-қауымдастығының өкілдері мен ашық деректер иелері huggingface.co/nitec платформасындағы аккаунтқа файлдарды жүктей алады. Қазақ тілінде txt, .csv, .json форматында түрлі стильдегі және жанрдағы мәтіндік файлдар жүктелуге жатады.
Hugging Face платформасындағы NITEC аккаунтына деректерді жүктеу туралы толық нұсқаулық: