Cite this article as:

Grigorieva E. G., Klyachin V. A. The Study of the Statistical Characteristics of the Text Based on the Graph Model of the Linguistic Corpus. Izv. Saratov Univ. (N. S.), Ser. Math. Mech. Inform., 2020, vol. 20, iss. 1, pp. 116-126. DOI: https://doi.org/10.18500/1816-9791-2020-20-1-116-126


Published online: 
02.03.2020
Language: 
Russian
Heading: 
UDC: 
519.688+004.942

The Study of the Statistical Characteristics of the Text Based on the Graph Model of the Linguistic Corpus

Abstract: 

The article is devoted to the study of the statistical characteristics of the text, which are calculated on the basis of the graph model of the text from the linguistic corpus. The introduction describes
the relevance of the statistical analysis of the texts and some of the tasks solved using such an analysis. The graph model of the text proposed in the article is constructed as a graph in the vertices of which the words of the text are located, and the edges of the graph reflect the fact that two words fall into any part of the text, for example, in — a sentence. For the vertices and edges of the graph, the article introduces the concept of weight as a value from some additive semigroup. Formulas for calculating a graph and its weights are proved for text concatenation. Based on the proposed model, calculations are implemented in the Python programming language. For an experimental study of statistical characteristics, 24 values are distinguished, which are expressed in terms of the weights of the vertices, edges of the graph, as well as other characteristics of the graph, for example, the degrees of its vertices. It should be noted that the purpose of numerical experiments is to squeak in the characteristics of the text, with which you can determine whether the text is man-made or randomly generated. The article proposes one of the possible such algorithms, which generates random text using some other text created by man as a template. In this case, the sequence of parts of speech in an auxiliary text alternation is preserved in the random text. It turns out that the required conditions are satisfied by the median value of the ratio of the text graph edge weight value to the number of sentences in the text.

References
  1. Кипяткова И. С., Карпов А. А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. 2010. № 4 (47). С. 2–8.
  2. Колмогорова А. В., Калинин А. А., Маликова А. В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов // Актуальные проблемы филологии и педагогической лингвистики. 2018. № 1 (29). С. 139–148. DOI: https://doi.org/10.29025/2079-6021-2018-1(29)-139-148
  3. Воронина И. Е., Кретов А. А., Попова И. В. Алгоритмы определения семантической близости ключевых слов по их окружению в тексте // Вестн. ВГУ. Сер. Системный анализ и информационные технологии. 2010. № 1. С. 148–153.
  4. Берман Н. Д., Левенец А. В., Сергеева Л. А. Статистический анализ текстовой информации // Информационные технологии XXI века : сб. науч. тр. / отв. за вып. Е. А. Шеленок. Хабаровск : Изд-во Тихоокеан. гос. ун-та, 2016. С. 282–286.
  5. Донина О. В. Применение методов Data Mining для решения лингвистических задач // Вестн. ВГУ. Сер. Системный анализ и информационные технологии. 2017. № 1. С. 154– 160.
  6. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space. arxiv.org/abs/1301.3781v3
  7. Райгородский А. М. Случайные графы // Математика в задачах. Сборник материалов выездных школ команды Москвы на Всероссийскую математическую олимпиаду / под ред. А. А. Заславского, Д. А. Пермякова, А. Б. Скопенкова, М. Б. Скопенкова, А. В. Шаповалова. М. : Изд-во МЦНМО, 2009. С. 312–315.
  8. Erdos P., R ˝ anyi A. ´ On random graphs I // Publ. Math. Debrecen. 1959. Vol. 6. P. 290–297.
  9. Newman M. E. J., Strogatz S. H., Watts D. J. Random graphs with arbitrary degree distribution and their applications // Phys. Rev. E. 2001. Vol. 64. P. 26–118.
  10. Павлов Ю. Л., Чеплюкова И. А. Случайные графы Интернет-типа и обобщенная схема размещения // Дискрет. матем. 2008. Т. 20, вып. 3. С. 3–18. DOI: https://doi.org/10.4213/dm1008
  11. Павлов Ю. Л. О предельных распределениях степеней вершин в условных Интернет-графах // Дискрет. матем. 2009. Т. 21, вып. 3. С. 14–23. DOI: https://doi.org/10.4213/dm1057
Full text: