ivdon3@bk.ru
Данная статья посвящена сравнительному анализу методов извлечения из текстов знаний, используемых для построения онтологий. Обозреваются разнообразные подходы извлечения, такие как лексические, статистические, методы машинного обучения и глубокого обучения, а также онтологически ориентированные методы. В результате исследования сформулированы рекомендации по выбору наиболее эффективных методов в зависимости от специфики задачи и типа обрабатываемых данных.
Ключевые слова: онтология, извлечение знаний, классификация текстов, именованные сущности, машинное обучение, семантический анализ, модель
В статье представлены существующие методы уменьшения размерности данных для обучения машинных моделей естественного языка. Вводятся понятия векторизации текста и слоформенного эмбеддинга. Формируется задача классификации текста. Формируются этапы обучения классификатора. Проектируется классифицирующая нейронная сеть. Проводится серия экспериментов на определение влияния уменьшения размерности словоформенных эмбеддингов на качество классификации текста. Сравниваются результаты оценки работы обученных классификаторов.
Ключевые слова: обработка естественного языка, векторизация, словоформенный эмбеддинг, классификация текста, уменьшение размерности данных, классификатор
В статье представлено краткое описание существующих методов векторизации текстов на естественном языке. Описывается оценка методом определения похожести слов. Проводится сравнительный анализ работы нескольких моделей векторизаторов. Описывается процесс подбора данных для оценки. Сравниваются результаты оценки работы моделей.
Ключевые слова: обработка естественного языка, векторизация, словоформенный эмбеддинг, семантическая близость, корреляция
В статье представлены способы повышения точности классификации нормативно-справочной информации при помощи алгоритмов иерархической кластеризации.
Ключевые слова: машинное обучение, искусственная нейронная сеть, сверточная нейронная сеть, нормативно-справочная информация, иерархическая кластеризация, DIANA