Национальный словарный фонд казахского языка на основе ИИ разработают в Казахстане

Разработчики утверждают, что принятие проекта не потребует дополнительных финансовых затрат.
Как отмечается в пояснительной записке к документу, целью проекта является формирование государственной информационной системы Национального словарного фонда казахского языка, предоставляющей доступ к словарному фонду казахского языка и обеспечивающей обработку содержащейся в ней информации посредством информационно-коммуникационных технологий.
"Целями формирования Национального словарного фонда являются сохранение, защита и развитие казахского языка как культурной ценности, а также укрепление статуса государственного языка, накопление ресурсов, охватывающих все сферы применения казахского языка, упорядочение, цифровизация, генерация действующего лексического состава языка, адаптация его к искусственному интеллекту и современным технологиям, автоматизация процессов обработки", – сказано в документе.
Пользователям системы предоставят доступ к функциональным и информационным сервисам для формирования Национального словарного фонда.
Национальный словарный фонд формируется на основании академических и переводческих словарей, Национального корпуса казахского языка, терминологической базы и датасета, который является совокупностью данных различных форматов.
Формирование Национального словарного фонда включает:
- разработку поэтапного плана мероприятий по вопросам создания и развития Национального словарного фонда;
- утверждение функциональных и технических требований к Национальному словарному фонду, графика технического оказания услуг и технических спецификаций информационной системы, предназначенной для сбора, обработки и систематизации данных;
- обеспечение интерактивного пользовательского интерфейса, поисковой системы и возможности экспорта данных;
- координацию действий субъектов в области создания и совершенствования Национального словарного фонда;
- формирование списка информационных ресурсов, способных к интеграции с Национальным словарным фондом;
- использование платформ открытых данных и обеспечение соответствия международным стандартам.
Ведение Национального словарного фонда требует:
- разработки базы словарей, включающих значение, этимологию и модели общего употребления слов;
- создания централизованной системы языковых корпусов;
- совершенствования терминологической базы казахского языка;
- разработки технических требований для сбора датасетов, включающих все сферы применения казахского языка;
- предоставления доступной платформы для научных исследований;
- интеграции моделей ИИ, современных технологий на казахском языке;
- разработки интерактивной поисковой системы;
- обеспечения деятельности модератора, постоянно контролирующего работу системы и анализирующего предложения и замечания;
- формирования самостоятельной коллегиальной группы (рабочие группы по экспертизе и цифровизации), не относящейся к государственным органам, сформированной из отраслевых специалистов.
Функционирование Национального словарного фонда охватывает:
- осуществление сбора, обработки, хранения базы данных, вносимых в информационную систему;
- размещение общедоступной информации в открытом пространстве интернета;
- информационный обмен данными между субъектами информационной системы;
- предоставление текстовых материалов в цифровом формате.
- Формировать и вести Национальный словарный фонд будет юридическое лицо, определенное уполномоченным органом в области развития языков.
Определены принципы работы такого юридического лица:
- научная обоснованность, необходимость опираться на научные исследования и фактические данные всех лексических единиц;
- систематичность, необходимость полного и дальнейшего совершенствования как уникальной системы;
- обеспечение соблюдения норм литературного языка;
- сочетание традиций и новаторства, необходимость гармоничной адаптации и введения новых слов и терминов в соответствии с нормами лексики казахского языка и требованиями современности;
- доступность и инклюзивность, доступность всех данных для пользователей языковых ресурсов.
Разработчики утверждают, что принятие проекта не повлечет отрицательных социально-экономических, правовых или иных негативных последствий и не потребует дополнительных финансовых затрат.
Проект размещен на портале "Открытые НПА" для публичного обсуждения до 19 марта 2025 года.