Аннотация:
Статья посвящена проблеме выделения единиц знаний из множеств (корпусов) тематических текстов. Данная проблема актуальна для построения систем обработки, анализа, оценивания и понимания информации, в частности, изображений. Конечной практической целью здесь является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка (ЕЯ) для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области (ПО). В настоящей статье разбиением слов исходной фразы на классы по значению меры TF-IDF относительно текстов корпуса решается задача поиска в корпусе фраз, максимально близких исходной по описываемому фрагменту фактического знания и формам его выражения в языке.
Ключевые слова:
распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний.
Поступила в редакцию: 22.04.2015 Исправленный вариант: 02.06.2015