Национальный словарный фонд казахского языка на основе ИИ разработают в Казахстане

Разработчики утверждают, что принятие проекта не потребует дополнительных финансовых затрат.

Как отмечается в пояснительной записке к документу, целью проекта является формирование государственной информационной системы Национального словарного фонда казахского языка, предоставляющей доступ к словарному фонду казахского языка и обеспечивающей обработку содержащейся в ней информации посредством информационно-коммуникационных технологий.

"Целями формирования Национального словарного фонда являются сохранение, защита и развитие казахского языка как культурной ценности, а также укрепление статуса государственного языка, накопление ресурсов, охватывающих все сферы применения казахского языка, упорядочение, цифровизация, генерация действующего лексического состава языка, адаптация его к искусственному интеллекту и современным технологиям, автоматизация процессов обработки", – сказано в документе.

Пользователям системы предоставят доступ к функциональным и информационным сервисам для формирования Национального словарного фонда.

Национальный словарный фонд формируется на основании академических и переводческих словарей, Национального корпуса казахского языка, терминологической базы и датасета, который является совокупностью данных различных форматов.

Формирование Национального словарного фонда включает:

  • разработку поэтапного плана мероприятий по вопросам создания и развития Национального словарного фонда;
  • утверждение функциональных и технических требований к Национальному словарному фонду, графика технического оказания услуг и технических спецификаций информационной системы, предназначенной для сбора, обработки и систематизации данных;
  • обеспечение интерактивного пользовательского интерфейса, поисковой системы и возможности экспорта данных;
  • координацию действий субъектов в области создания и совершенствования Национального словарного фонда;
  • формирование списка информационных ресурсов, способных к интеграции с Национальным словарным фондом;
  • использование платформ открытых данных и обеспечение соответствия международным стандартам.

Ведение Национального словарного фонда требует:

  • разработки базы словарей, включающих значение, этимологию и модели общего употребления слов;
  • создания централизованной системы языковых корпусов;
  • совершенствования терминологической базы казахского языка;
  • разработки технических требований для сбора датасетов, включающих все сферы применения казахского языка;
  • предоставления доступной платформы для научных исследований;
  • интеграции моделей ИИ, современных технологий на казахском языке;
  • разработки интерактивной поисковой системы;
  • обеспечения деятельности модератора, постоянно контролирующего работу системы и анализирующего предложения и замечания;
  • формирования самостоятельной коллегиальной группы (рабочие группы по экспертизе и цифровизации), не относящейся к государственным органам, сформированной из отраслевых специалистов.

Функционирование Национального словарного фонда охватывает:

  • осуществление сбора, обработки, хранения базы данных, вносимых в информационную систему;
  • размещение общедоступной информации в открытом пространстве интернета;
  • информационный обмен данными между субъектами информационной системы;
  • предоставление текстовых материалов в цифровом формате.
  • Формировать и вести Национальный словарный фонд будет юридическое лицо, определенное уполномоченным органом в области развития языков.

Определены принципы работы такого юридического лица:

  • научная обоснованность, необходимость опираться на научные исследования и фактические данные всех лексических единиц;
  • систематичность, необходимость полного и дальнейшего совершенствования как уникальной системы;
  • обеспечение соблюдения норм литературного языка;
  • сочетание традиций и новаторства, необходимость гармоничной адаптации и введения новых слов и терминов в соответствии с нормами лексики казахского языка и требованиями современности;
  • доступность и инклюзивность, доступность всех данных для пользователей языковых ресурсов.

Разработчики утверждают, что принятие проекта не повлечет отрицательных социально-экономических, правовых или иных негативных последствий и не потребует дополнительных финансовых затрат.

Проект размещен на портале "Открытые НПА" для публичного обсуждения до 19 марта 2025 года.