БІЛЯТИНСЬКА ІРИНА МИКОЛАЇВНА. ПАРСИНГ ЯК ІНСТРУМЕНТ АВТОМАТИЗОВАНОЇ КОНВЕРТАЦІЇ ТЕКСТУ СЛОВНИКА У ЛІНГВІСТИЧНУ БАЗУ ДАНИХ

ТЕЗИ 2013 рік
| Друк |

Український мовно-інформаційний фонд НАН України
Київ, Україна

Ця електронна адреса захищена від спам-ботів, Вам потрібно включити JavaScript для перегляду

У доповіді висвітлюється проблема використання парсингу в процесі створення лінгвістичної бази даних.
Сучасна обчислювальна техніка відіграє важливе місце в процесі лексикографування, маючи можливості не тільки по-новому представити традиційний словник, а й значно спростити його розробку.

Використання комп’ютерних технологій під час створення словника починається із оцифровування матеріалу, якщо до того він був представлений в паперовому варіанті. Коли етап введення цих даних, їх розпізнавання та коректура завершується, вони повинні конвертуватися до лексикографічної бази даних.

На перший погляд процедура не складна, проте якщо враховувати той факт, що словники можуть містити значні обсяги інформації, то стане ясно, що здійснити даний етап у «ручному» режимі досить важко.

Альтернативою є використання процедури парсингу. У широкому значенні парсинг, або, як ще його називають, синтаксичний аналіз, – це процес співставлення лінійної послідовності лексем природньої мови з її формальною граматикою, результатом якого є синтаксичне дерево. Зазвичай використовується з лексичним аналізом. Дану процедуру виконує програма, або певний блок програми, який називається парсером.
Під час синтаксичного аналізу текст перетворюється на структуру даних, яка відображає відповідну синтаксичну будову вхідного тексту та підходить для подальшого використання. В лексикографуванні під процедурою парсингу розуміють процес конверсії вмісту словника до лексикографічної бази даних.
На даний час існує значна кількість розробок готових парсерів, написаних різними мовами програмування, проте більшість із них прив’язані до конкретних задач. Найпоширенішими є парсери різноманітних мережевих ресурсів.

Найбільш відомий підхід до створення парсеру базується на використанні регулярних виразів.
Регулярний вираз — це рядок, що описує або збігається з множиною рядків, відповідно до набору спеціальних синтаксичних правил [1]. Регулярний вираз являє собою певний шаблон із сукупності метасимволів, на основі якого здійснюються пошук та наступні маніпуляції з даними. Більшість мов програмування мають вбудовані функції, призначені для роботи з такими конструкціями.

Для прикладу можна розглянути засоби роботи з даним типом виразів платформи програмування .NET Framework, представлені об’єктом System.Text.RegularExpressions.Regex. Методи класу Regex дозволяють здійснювати пошук співпадінь із наперед заданим шаблоном та запис їх в окрему змінну, значення якої можна легко записати у відповідне поле бази даних.

Кожний словник являє собою формалізовану систему із розгалуженою словниковою структурою, метамова якої формулюється за допомогою певного поліграфічного оформлення. На основі закономірності, яка полягає в тому, що однакові структурні елементи словникової статті мають однакове поліграфічне оформлення, можна і побудувати шаблон для їх запису до відповідних полів бази даних.
Отже, процедура парсингу може бути зведена до побудови шаблону, який базується на виділенні елементів словника на основі поліграфічних ознак їх текстової ідентифікації та процедури пошуку і вилучення даних за цим шаблоном із використанням регулярних виразів.


Список використаних джерел

1. Регулярний вираз. Матеріал з Вікіпедії — вільної енциклопедії. [Електронний ресурс] – режим доступу: http://uk.wikipedia.org/wiki/%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%B8%D0%B9_%D0%B2%D0%B8%D1%80%D0%B0%D0%B7 – Назва з екрану.




ВКЛАДЕННЯ:
FileОписFile size
Download this file (Bilyatynska_tezy.doc)Bilyatynska_tezy.docPDF35 Kb