English (United Kingdom) 
Русский (Россия) 
Український (Україна) 

Міжнародна наукова конференція MEGALING

  • Збільшення розміру шрифта
  • Звичайний розмір шрифта
  • Зменшити розмір шрифта
Головна сторінка > ТЕЗИ > ТЕЗИ 2013 рік > ЛАНДЭ ДМИТРИЙ ВЛАДИМИРОВИЧ, СНАРСКИЙ АНДРЕЙ АЛЕКСАНДРОВИЧ, ЯГУНОВА ЕЛЕНА ВИКТОРОВНА. ИСПОЛЬЗОВАНИЕ ГРАФОВ ГОРИЗОНТАЛЬНОЙ ВИДИМОСТИ ДЛЯ ВЫЯВЛЕНИЯ СЛОВ, ОПРЕДЕЛЯЮЩИХ ИНФОРМАЦИОННУЮ СТРУКТУРУ ТЕКСТОВ НА РАЗЛИЧНЫХ ЯЗЫКАХ

ЛАНДЭ ДМИТРИЙ ВЛАДИМИРОВИЧ, СНАРСКИЙ АНДРЕЙ АЛЕКСАНДРОВИЧ, ЯГУНОВА ЕЛЕНА ВИКТОРОВНА. ИСПОЛЬЗОВАНИЕ ГРАФОВ ГОРИЗОНТАЛЬНОЙ ВИДИМОСТИ ДЛЯ ВЫЯВЛЕНИЯ СЛОВ, ОПРЕДЕЛЯЮЩИХ ИНФОРМАЦИОННУЮ СТРУКТУРУ ТЕКСТОВ НА РАЗЛИЧНЫХ ЯЗЫКАХ


Предлагается использование предложенного авторами компактифицированного графа горизонтальной видимости для создания сети слов и выявления информационно-значимых  слов в текстах литературных произведений и в их переводах. Обнаружена большая степень совпадения значений таких слов для одних и тех же произведений,  представленных на различных языках.

 

В [1] приведено описание алгоритма формирования компактифицированного графа горизонтальной видимости для создания сети слов. Данный подход позволяет определять, какие из важных структурных элементов текста оказываются также информационно-значимыми, определяющими  его информационную структуру.

В рамках теорий цифровой обработки сигналов (Digital Signal Processing) и сложных сетей (Complex Network) [2] предложено несколько методов построения сетей на основе временных рядов, среди которых можно назвать несколько методов построения графов видимости (см. обзор [3]), в частности, так называемый граф горизонтальной видимости (Horizontal Visibility Graph – HVG). Эти подходы также позволяют строить сетевые структуры на основании текстов, в которых отдельным словам или словосочетаниям некоторым специальным образом  поставлены в соответствие числовые значения. В качестве функции, ставящей в соответствие слову число, можно рассматривать, например, порядковый номер уникального слова в тексте, «вес» слов в текстах, различные дисперсионные оценки, общепринятую оценку TFIDF  или ее варианты [4] и т.д.

При построении сетей слов в данной работе также будет использована дисперсионная оценка важности слов [5], которая реализуется следующим образом: 

,

где:  – среднее значение последовательности ,  – последовательности ,  –количество появления слова  в тексте.

По сути, дисперсионная оценка позволяет отделить слова, встречающиеся в тексте относительно равномерно, от слов, распределенных неравномерно.

В отличие от остальных рядов, изучаемых в рамках цифровой обработки сигналов, ряды из численных значений, соответствующих словам, преобразуются в графы горизонтальной видимости, в которых узлам соответствуют также сами слова, выражающие определенное смысловое значение.

Сеть слов с использованием алгоритма горизонтальной видимости строится в три этапа. На первом на горизонтальной оси отмечается ряд узлов, каждый из которых соответствует словам в порядке появления в тексте, а по вертикальной оси откладываются весовые численные оценки (визуально – набор вертикальных линий). На втором этапе строится традиционный граф горизонтальной видимости. В этом случае между узлами устанавливается связь, если они находятся в «прямой видимости», т.е. если их можно соединить горизонтальной линией, не пересекающей никакую другую вертикальную линию. На третьем, заключительном этапе, полученный граф компактифицируется. Все узлы с данным словом объединяются в один узел. Все связи таких узлов также объединяются (кратные связи изымаются). В результате получается новая сеть слов – компактифицированный  граф горизонтальной видимости (КГГВ) – рис. 1.

Рис. 1. Этапы построения компактификационного графа горизонтальной видимости

 

Для всех исследованных КГГВ-сетей слов было определено распределение степеней узлов (количества входящих связей), которое оказалось близким к степенному (), т.е. эти сети являются безмасштабными. Узлы КГГВ-сети с наибольшими степенями и рассматриваются в рамках данной модели как наиболее информационно-значимые, определяющие информационную структуру текста слова.

В качестве иллюстрации метода рассмотрим тексты повестей Джона Рональда Руэла Толкина (John Ronald Reuel Tolkien) «Хоббит, или Туда и обратно» (The Hobbit or There and Back Again) и Рэймонда Дугласа (Рэя) Брэдбери (Raymond Douglas (Ray) Bradbury) «Вино из одуванчиков» ( Dandelion Wine) , представленных на оригинале – английском языке и в переводах на русский и украинский.

Следует, отметить, что авторами проводились подобные исследования на базе десятков других произведений самых разных объемов. Анализировались также законодательные акты Украины и России. Концептуальные результаты анализа при этом совпадали с приведенными ниже, поэтому остановимся на предложенных произведениях, как примерах. В состав узлов с наибольшими степенями в для КГГВ-сетей, наряду с личными местоимениями и другими служебными словами (частицы, предлоги, союзы и т.д.), попали слова, определяющие информационную структуру текста [6].

Для сравнения исследовано поведение простейших сетей языка, когда не первом этапе построения сети связываются соседние слова, входящие в текст, а на втором происходит компактификация сети. В этом случае самые большие степени имеют узлы, соответствующие словам с наибольшей частотой – союзам, предлогами и т.п., имеющим большое значение для связности текста, но малоинтересным с точки зрения информационной структуры.

Если обозначить  – множество слов в стоп-словарях, соответствующих языкам исследуемых текстов, а  – множество из слов, соответствующих наиболее весомым узлам КГГВ, то множество  соответствует информативным словам, имеющим, кроме того, важное значение и для связности текста.  Ниже приведены сопоставления  20 наиболее весомых узлов для КГГВ-сетей слов (построенных на основе дисперсионных оценок слов) по указанным выше повестям.  В частности, в КГГВ-сети по повести Дж. Толкина в список 12 наиболее весомых узлов (в порядке убывания весов) попали слова:

Английский: BILBO, GANDALF, THORIN, GOBLINS, DWARVES, MOUNTAIN, DOOR, DRAGON, FOREST, GOLLUM, ELVES, SMAUG.

Русский: БИЛЬБО, ГЭНДАЛЬФ, ТОРИН, ГОБЛИНЫ, ГНОМЫ, ГОЛЛУМ, ЭЛЬФЫ, ДРАКОН, ПОНИ, БЭРД, ГОРЫ, КОРОЛЬ.

Украинский:БІЛЬБО, ГАНДАЛЬФ, ГНОМИ, ТОРІН, ГОБЛІНИ, ГОРИ, ГАМ (GOLLUM в украинском переводе), ЕЛЬФИ, ГОБІТ, ДРАКОН, ДВЕРІ, ЧАРІВНИК.

Соответственно, в КГГВ-сети по повести Рэя Брэдбери в список 12 наиболее весомых узлов попали слова:

Английский: DOUGLAS, TOM, GRANDMA, LAVINIA, NIGHT, JOHN, MAN, RAVINE, MACHINE, MRS, AUFFMANN, ELMIRA.

Русский: ДУГЛАС, ТОМ, ЛАВИНИЯ, БАБУШКА, МИССИС, ЛЕО, ДЖОН, ДЕДУШКА, БЕНТЛИ, ПОЛКОВНИК, ЭЛЬМИРА,  ГЛАЗА.

Украинский: ДУГЛАС, ТОМ, ЛЕО, МІСІС, ДІДУСЬ, ОЧІ, ДЖОН, БАБУСЯ, ЕЛМІРА, ЛАВІНІЯ, БЕНТЛІ, ЧАРЛІ.

На рис. 2 приведены примеры визуализации фрагментов КГГВ-сетей, соответствующих рассмотренным произведениям.

а)

б)

Рис. 2. Фрагмент КГГВ-сети, соответствующей повестям «Хоббит, или Туда и обратно» (а) и   «Вино из одуванчиков» (б)

В результате проведенных исследований сетей:

1. Реализован алгоритм построения компактифицированного графа горизонтальной видимости (КГГВ).

2. На основе последовательности дисперсионных оценок слов,  с помощью метода КГГВ, построены сети слов различных текстов.

3. Для литературных текстов среди узлов соответствующих КГГВ-сетей с наибольшими степенями присутствуют слова, не только обеспечивающие связность структуры текста, но и определяющие его информационную структуру, отражают семантику литературных произведений.

4. Обнаружена большая степень совпадения значений наиболее весомых слов КГГВ-сетей, которые построены из одних и тех же произведений,  представленных на различных языках.

 

Литература

1.      Ландэ Д.В., Снарский А.А., Ягунова Е.В. Использование графов горизонтальной видимости для выявления слов, определяющих информационную структуру текста // Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2013, Ярославль, Россия, 14-17 октября 2013 г. – С. 67-76.

2.      Strogatz S. H. Exploring Complex Networks //  Nature. – 410. – P. 268-276 (2001).

3.      Nunez A. M., Lacasa L., Gomez J. P., Luque B. Visibility algorithms: A short review // New Frontiers in Graph Theory, Y. G. Zhang, Ed. Intech Press, ch. 6. – P. 119 – 152 ( 2012).

4.      Salton G., McGill M. J. Introduction to Modern Information Retrieval. – New York: McGraw-Hill. – 448 p. (1983).

5.      Ortuño M., Carpena P., Bernaola P., Muñoz E., Somoza A.M. Keyword detection in natural languages and DNA // Europhys. Lett, – 57(5). – P. 759-764 (2002).

6.      Черняховская Л.А. Смысловая структура текста и ее единицы // Вопросы языкознания.  – № 6. – С. 118–126. (1983).


 


ВКЛАДЕННЯ:
FileОписFile size
Download this file (lande.doc)lande.docPDF623 Kb
 


ПОШУК ПО САЙТУ

Наші партнери

http://www.ulif.org.ua - Український мовно-інформаційний фонд НАН України

http://nbuv.gov.ua - Національна бібліотека імені В.І. Вернадського

http://www.tnu.crimea.ua/ - Таврійський Національний Університет ім. В.І.Вернадського

КОНТАКТИ

Український мовно-інформаційний фонд НАН України (www.ulif.org.ua), тел.: (+38-044) 525-86-75

Заїка Наталія Михайлівна (e-mail: zayika.n@nas.gov.ua, тел.: (+38) 050-072-83-37)

Остапова Ірина Вадимівна (e-mail: irinaostapova@gmail.com, тел.: (+38) 095-886-37-82)

Єрошенко Олександр Русланович (e-mail: alexandr.yeroshenko@hotmail.com, тел.: (+38-044) 466-74-08

 
 
 

ПОШУК ПО САЙТУ