О.В. Золотарёв

Семантический подход к визуализации научных документов с использованием веб-графики 3D

Title: 
Semantic approach to visualization of scientific documents using 3D web graphics
Год/Year: 
2018
Начальная страница/First page: 
46
Краткое описание: 
В статье описывается семантический подход к визуализации 3D-киберпространства научных работ и их исследований с использованием веб-3D-графики. Наиболее цитируемые и значимые документы в этом киберпространстве отображаются сферами большого размера, а расстояние между документами – пропорционально их смысловому сходству. Предложена новая мера семантического подобия документов, которая определяется максимальной корреляцией между явной и неявной связностью документов. Предложен и внедрен новый индекс контекстного цитирования документов (SCCI), который определяется по максимуму корреляции с индексом научного цитирования (SCI). SCCI может более точно измерять научную значимость документов, находить важные документы и оценивать новые статьи с нулевым SCI. Значимые научные статьи подтверждают друг друга и образуют кластеры в киберпространстве. В результате исследования формируется набор таких кластеров. Предлагаемое киберпространство, реализованное в WebVR и с помощью интерактивной 3D-графики, можно рассматривать как динамичную среду обучения, которая удобна для обнаружения новых значимых статей, идей и тенденций.
Short description: 
In this paper we describe a semantic approach to visualization of 3D cyberspace of scientific papers and their research front using web-based 3D graphic. The most cited and signifi cant documents in this cyberspace are represented by spheres of a large size, and the distance between documents is proportional to their semantic similarity. A new measure of semantic similarity of documents is proposed that is determined by the maximum correlation between explicit and implicit connectivity of the documents. A new science contextual citation index (SCCI) that is defined by a correlation maximum with a science citation index (SCI) is proposed and implemented. SCCI can more accurately measure scientific impact, find significant documents and evaluate new articles with zero SCI. The significant similar articles confi rm each other and form clusters in the cyberspace. The research front exists as a set of such clusters. The proposed cyberspace implemented by WebVR and interactive 3D graphics can be considered as a dynamic learning environment that is convenient for discovering new significant articles, ideas and trends.

Исследование методов автоматического формирования ассоциативно-иерархического портрета предметной области

Title: 
Research of methods of automatic formation of associative and hierarchical portrait of the subject area
Год/Year: 
2018
№: 
1
Начальная страница/First page: 
91
Краткое описание: 
В работе рассматриваются проблемы семантического моделирования, методики автоматизированного выявления иерархических, синонимических и ассоциативных связей из интернет-текстов и построение лингвостатистических портретов различных предметных областей. Исследование основано на гипотезе о том, что более общие термины имеют больше ассоциативных связей, а также о привлечении ассоциативных связей для определения значения, полный смысл которого выявляется с помощью контекстных окружений, что дает возможность автоматизации процесса разграничения значений и извлечения знаний из текстов. Решение проблемы строится на основе комплексного подхода, сочетающего методы статистики, корпусной лингвистики и дистрибутивной семантики, и реализуется в технологии, которая предполагает разработку лингвостатистических механизмов формирования ассоциативно-иерархического портрета предметной области (АИППО), представляющего собой словарь значимых терминов предметной области, элементы которого связаны ассоциативными и иерархическими связями. Работы проводятся на основе анализа различных предметных областей, в частности – по автономным необитаемым подводным аппаратам (АНПА).
Short description: 
The paper discusses the problems of semantic modeling techniques for automated detection of hierarchical, synonymous and associative relationships from online texts and the construction of linguistic and statistical portraits of various subject areas. The study is based on the hypothesis that the more general terms have more associative relations. The involvement of associative relationships for the definition of the full meaning is revealed by the context of the environments that gives you the ability to automate the process of differentiating between values and knowledge extraction from texts. The solution is based on an integrated approach that combines statistical methods, corpus linguistics and distributional semantics, and is implemented in a technology which involves the development of linguo-statistical mechanisms for the formation of associative-hierarchic portrait of the subject area (AHPSA), which is a dictionary of important terms of the subject area, elements of which are connected by the associative and hierarchical relationships. Work is carried out on the basis of the analysis of different subject areas, in particular, Autonomous Unmanned Underwater Vehicle (AUUV).

Использование онтологического подхода для анализа текстов естественного языка

Title: 
Ontological approach for the analysis of natural language texts
Год/Year: 
2017
Начальная страница/First page: 
67
Краткое описание: 
В данной статье рассматриваются подходы по построению онтологий предметной области на основе анализа текстов естественного языка. Определяются понятия «онтология», «семантический поиск», описывается структура онтологии, анализируются различные аспекты формирования поисковых запросов, рассматриваются особенности извлечения информации из текстов естественного языка.
Short description: 
This article discusses the approaches for developing onthologies of the subject area based on the analysis of natural language texts. The article defines the concepts of ontology, semantic search, and describes the structure of the ontology, different aspects of the formation of a search query, the features of information extraction from natural language texts.

Метод шинглов

Title: 
Shingle method
Год/Year: 
2016
№: 
4
Начальная страница/First page: 
72
Краткое описание: 
В данной статье рассматриваются методы по определению дублирования документов с целью недопущения их включения в коллекции; анализируются подходы для поиска нечетких дубликатов на основе метода шинглов с целью определения спама в электронной почте, поиска плагиата, очистки коллекций документов от дубликатов. В данной работе представлен разбор методики реализации и выбора параметров алгоритма шинглов, выработаны критерии для выбора функции контрольных сумм (сигнатур), разработана программа для определения дубликатов, предложены критерии выбора параметров оптимизации алгоритма шинглов с применением MinHash и алгоритма супершинглов.
Short description: 
This article discusses the methods for identifying duplicate documents to prevent their inclusion into collections; it also analyses the approaches for fi nding near-duplicate documents based on the method of shingles to determine spam e-mail, search of plagiarism, to clean collections’ documents from duplicates. This paper also presents analysis methods and parameter selection of shingle algorithm, criteria of the checksums (signatures) selection. There was developed a program for identifying duplicates, and proposed the criteria for selecting the optimization algorithm of shingles with using MinHash and supershingles algorithm.

Мера подобия текстов как инструмент оценки интертекстуальности при анализе больших коллекций документов

Title: 
The measure of text similarity as a tool for assessment of intertextuality in large collections of documents
Год/Year: 
2016
№: 
4
Начальная страница/First page: 
62
Краткое описание: 
Предложена методика обнаружения интертекстуальных отношений через нахождение неявных ссылок с помощью лингвистических и статистических методов. Интертекстуальность – это наличие в тексте элементов и идей из других текстов. Продемонстрирована возможность выявления временнóй межъязыковой миграции терминов и идей с целью прогноза и определения идеологических траекторий. Предложена новая мера подобия текстов, апробированная на коллекции научных документов и развиваемая путем максимизации корреляции явных и неявных ссылок. Описана методика кластеризации документов в соответствии с мерой подобия текстов. Продемонстрирована возможность применения предложенной меры для анализа экстремистских текстов из Интернета.
Short description: 
The method for detection of intertextual relations by finding implicit links using linguistic and statistical methods is suggested. Intertextuality is a presence in one text of elements and ideas from other texts. The possibility of identifying of crosslanguage migration of terms and ideas for prognosis and determination of ideological trajectories is demonstrated. A new text similarity measure is suggested. The measure was tested using collection of scientific documents. The measure was improved by maximizing correlation between explicit and implicit links. A method for documents clustering according to the measure of text similarity is suggested. The possible application of the proposed measure for analysis of extremist texts from the Internet is suggested.

Семантический подход к анализу террористической активности в сети Интернет на основе методов тематического моделирования

Title: 
A semantic approach to the analysis of terrorist activity on the Internet based on the methods of topic modeling
Год/Year: 
2016
Начальная страница/First page: 
64
Краткое описание: 
В работе исследуются вопросы анализа текстов естественного языка на предмет обнаружения неявных ссылок. В работе приведены результаты проведения семантического анализа текстов на примере анализа степени террористической угрозы в Интернете. Описываются задачи выявления террористических групп в среде Интернет. Анализируются тексты естественного языка в Интернете. Для проведения анализа текстов используется аппарат расширенных семантических сетей.
Short description: 
The paper deals with the analysis of the degree of terrorist threats on the Internet based on the analysis of natural language texts. The article describes the tasks of identifying terrorist groups in the Internet environment. It also analyzes natural language texts on the Internet. For the analysis of texts we use the technique of extended semantic networks. The paper presents examples of the results of the semantic analysis of texts.

Методы оценки качества и влияния (impact) научных статей для повышения объективности индекса научного цитирования

Title: 
Methods of assessing the quality and influence (impact) of scientific articles to improve the objectivity of the science citation index
Год/Year: 
2016
Начальная страница/First page: 
51
Краткое описание: 
Важная современная тенденция в системе оценки работ ученых заключается не только в учете формальных библиографических ссылок на публикуемые статьи, но также в анализе содержания текстов научных работ. Предлагаемый подход к анализу текстов состоит в выявлении неформальных (неявных) ссылок в тексте на авторские идеи. Разработана методика выявления неявных ссылок, которая обеспечивает высокую корреляцию неявных ссылок с формальными. В процессе дальнейших исследований предполагается разработка мер по повышению корреляции явных и неявных ссылок. Это позволит более точно и объективно оценивать не только работы ученых, но и взаимовлияние идей в различных документах, даже в таких, где редко используются формальные ссылки, как, например, в интернет-текстах.
Short description: 
An important current trend in the assessment of the work of scientists is not only to account the formal references in published articles, but also in the analysis of the content of scientifi c texts. The proposed approach to the analysis of texts is to identify the informal (implicit) references in text to the author’s ideas. The developed method of detecting the implicit links provides a high correlation of implicit links with the formal links. In the course of further studies there is planned to develop measures to improve the correlation of the explicit and implicit links. This will allow you to more accurately and objectively assess not only the works of scientists, but also to the interaction between ideas in different documents, even in those that rarely use the formal links, such as, for example, in the online Internet texts.

Страницы

Subscribe to RSS - О.В. Золотарёв