English (United Kingdom) 
Русский (Россия) 
Український (Україна) 

Міжнародна наукова конференція MEGALING

  • Збільшення розміру шрифта
  • Звичайний розмір шрифта
  • Зменшити розмір шрифта
Головна сторінка > ТЕЗИ > ТЕЗИ 2013 рік > БІЛЯТИНСЬКА ІРИНА МИКОЛАЇВНА. ПАРСИНГ ЯК ІНСТРУМЕНТ АВТОМАТИЗОВАНОЇ КОНВЕРТАЦІЇ ТЕКСТУ СЛОВНИКА У ЛІНГВІСТИЧНУ БАЗУ ДАНИХ

БІЛЯТИНСЬКА ІРИНА МИКОЛАЇВНА. ПАРСИНГ ЯК ІНСТРУМЕНТ АВТОМАТИЗОВАНОЇ КОНВЕРТАЦІЇ ТЕКСТУ СЛОВНИКА У ЛІНГВІСТИЧНУ БАЗУ ДАНИХ

Український мовно-інформаційний фонд НАН України
Київ, Україна

Ця електронна адреса захищена від спам-ботів, Вам потрібно включити JavaScript для перегляду

У доповіді висвітлюється проблема використання парсингу в процесі створення лінгвістичної бази даних.
Сучасна обчислювальна техніка відіграє важливе місце в процесі лексикографування, маючи можливості не тільки по-новому представити традиційний словник, а й значно спростити його розробку.

Використання комп’ютерних технологій під час створення словника починається із оцифровування матеріалу, якщо до того він був представлений в паперовому варіанті. Коли етап введення цих даних, їх розпізнавання та коректура завершується, вони повинні конвертуватися до лексикографічної бази даних.

На перший погляд процедура не складна, проте якщо враховувати той факт, що словники можуть містити значні обсяги інформації, то стане ясно, що здійснити даний етап у «ручному» режимі досить важко.

Альтернативою є використання процедури парсингу. У широкому значенні парсинг, або, як ще його називають, синтаксичний аналіз, – це процес співставлення лінійної послідовності лексем природньої мови з її формальною граматикою, результатом якого є синтаксичне дерево. Зазвичай використовується з лексичним аналізом. Дану процедуру виконує програма, або певний блок програми, який називається парсером.
Під час синтаксичного аналізу текст перетворюється на структуру даних, яка відображає відповідну синтаксичну будову вхідного тексту та підходить для подальшого використання. В лексикографуванні під процедурою парсингу розуміють процес конверсії вмісту словника до лексикографічної бази даних.
На даний час існує значна кількість розробок готових парсерів, написаних різними мовами програмування, проте більшість із них прив’язані до конкретних задач. Найпоширенішими є парсери різноманітних мережевих ресурсів.

Найбільш відомий підхід до створення парсеру базується на використанні регулярних виразів.
Регулярний вираз — це рядок, що описує або збігається з множиною рядків, відповідно до набору спеціальних синтаксичних правил [1]. Регулярний вираз являє собою певний шаблон із сукупності метасимволів, на основі якого здійснюються пошук та наступні маніпуляції з даними. Більшість мов програмування мають вбудовані функції, призначені для роботи з такими конструкціями.

Для прикладу можна розглянути засоби роботи з даним типом виразів платформи програмування .NET Framework, представлені об’єктом System.Text.RegularExpressions.Regex. Методи класу Regex дозволяють здійснювати пошук співпадінь із наперед заданим шаблоном та запис їх в окрему змінну, значення якої можна легко записати у відповідне поле бази даних.

Кожний словник являє собою формалізовану систему із розгалуженою словниковою структурою, метамова якої формулюється за допомогою певного поліграфічного оформлення. На основі закономірності, яка полягає в тому, що однакові структурні елементи словникової статті мають однакове поліграфічне оформлення, можна і побудувати шаблон для їх запису до відповідних полів бази даних.
Отже, процедура парсингу може бути зведена до побудови шаблону, який базується на виділенні елементів словника на основі поліграфічних ознак їх текстової ідентифікації та процедури пошуку і вилучення даних за цим шаблоном із використанням регулярних виразів.


Список використаних джерел

1. Регулярний вираз. Матеріал з Вікіпедії — вільної енциклопедії. [Електронний ресурс] – режим доступу: http://uk.wikipedia.org/wiki/%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%B8%D0%B9_%D0%B2%D0%B8%D1%80%D0%B0%D0%B7 – Назва з екрану.




ВКЛАДЕННЯ:
FileОписFile size
Download this file (Bilyatynska_tezy.doc)Bilyatynska_tezy.docPDF35 Kb
 


ПОШУК ПО САЙТУ

Наші партнери

http://www.ulif.org.ua - Український мовно-інформаційний фонд НАН України

http://nbuv.gov.ua - Національна бібліотека імені В.І. Вернадського

http://www.tnu.crimea.ua/ - Таврійський Національний Університет ім. В.І.Вернадського

КОНТАКТИ

Український мовно-інформаційний фонд НАН України (www.ulif.org.ua), тел.: (+38-044) 525-86-75

Заїка Наталія Михайлівна (e-mail: zayika.n@nas.gov.ua, тел.: (+38) 050-072-83-37)

Остапова Ірина Вадимівна (e-mail: irinaostapova@gmail.com, тел.: (+38) 095-886-37-82)

Єрошенко Олександр Русланович (e-mail: alexandr.yeroshenko@hotmail.com, тел.: (+38-044) 466-74-08

 
 
 

ПОШУК ПО САЙТУ