Словарный фонд казахского языка создадут с помощью нейросетей

В Казахстане планируют создать Национальный словарный фонд казахского языка.

Согласно проекту приказа Министерства науки и высшего образования РК, опубликованному на сайте “Открытые НПА”, предлагается утвердить Правила формирования и ведения государственной информационной системы "Национальный словарный фонд казахского языка".

“Основная цель создания фонда — сохранение , защита и развитие казахского языка как культурного наследия, укрепление его статуса государственного языка, а также накопление ресурсов, охватывающих все сферы применения языка”, – отмечено в документе.

Фонд будет способствовать упорядочению, цифровизации и генерации актуального лексического состава, адаптации языка к требованиям искусственного интеллекта и современным технологиям, а также автоматизации процессов его обработки.

Национальный словарный фонд формируется на основе академических и переводческих словарей, Национального корпуса казахского языка, терминологической базы и датасета, представляющего совокупность данных различных форматов.

В проекте также используются следующие ключевые понятия:

  • Генерация – процесс автоматического создания нового контента (текста, изображения, звука) на основе исходных данных и заранее установленных правил.
  • Модели искусственного интеллекта (ИИ) – внедрение технологий и алгоритмов ИИ для обработки казахскоязычных данных в различных системах, приложениях и платформах.
  • Обработка естественного языка – технология машинного обучения, позволяющая компьютерам интерпретировать, анализировать и понимать человеческий язык.