Русские вычислители

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Русские вычислители » Любопытное в Сети » Соревнования парсеров


Соревнования парсеров

Сообщений 1 страница 2 из 2

1

в ходе синтаксического анализа текста устанавливаются взаимосвязи слов в рамках предложения, т.е. какое слово от какого зависит и как именно.
Ценность проведения состязаний синтаксических анализаторов заключается в выработке единых стандартов.
разные системы зачастую используют разные принципы представления синтаксической структуры.
договорились представлять результаты разбора в виде дерева зависимостей,
но и в этом случае они сильно отличались друг от друга,
поскольку разные системы по-разному трактуют связи между словоформами
(например, у одних синтаксистов предлог управляет существительным, у других наоборот).

первые места заняли системы, основанные на фундаментальной лингвистике.
(что такое эта "фундаментальная лингвистика"?)
Это значит, что в области синтаксического анализа
нельзя обойтись только поверхностными, статистическими методами оценками
(а какими можно? и чем они не поверхностные?)

конференция по компьютерной лингвистике «Диалог»
https://habrahabr.ru/company/abbyy/blog/147696/

открытый корпус есть, и довольно активно развивается: opencorpora.org

создана выверенная и размеченная коллекция текстов (доступна на сайте РОМИП)

был получен корпус вручную размеченных и выверенных текстов,
который можно использовать в научно–исследовательских целях
(он представлен в свободном доступе на сайте testsynt.soiza.com).

Для русского существует синтаксически размеченный корпус — СинТагРус, который входит в состав НКРЯ.
http://www.ruscorpora.ru/instruction-syntax.html
(Корпус представляет собой набор текстов размеченных в формате XML)

на Диалоге-2010 проводилось соревнование систем автоматического морфологического анализа русского языка (систем, которые умеют делать грамматический разбор слов).
соревнования синтаксических анализаторов (парсеров) прошли осенью 2011 года
В соревновании приняло участие 12 систем.
Вычислительный центр МГУ
  Николь Четверкин
Отделение теоретической и прикладной лингвистики филфака МГУ
Институт лингвистики РГГУ

https://habrahabr.ru/post/148124/

Найти открытый парсер для русского практически невозможно.
Все существующие наработки (например, ЭТАП, ABBYY и прочие) закрыты для публики.

ЭТАП–3
  много лет разрабатывается в Институте проблем передачи информации им. А.А. Харкевича
  http://www.dialog-21.ru/digests/dialog2 … Iomdin.pdf
ИППИ РАН
Парсер грамматики связей
SynAutom
DictaScope Syntax
SemSin
синтактико–семантический анализатор русского языка группы SemanticAnalyzer Group
проект AotSoft
ABBYY Compreno

http://sz.ru/parser/
https://nlpub.ru/Обработка_текста

http://vallaam.livejournal.com/68186.html
http://www.solarix.ru/for_developers/do … yzer.shtml
http://starling.rinet.ru/morpho.php?lan=ru
http://www.codenet.ru/progr/alg/morf.php

Отредактировано ВежливыйЛис (25.07.2016 23:12:01)

0

2

Ценность проведения состязаний синтаксических анализаторов заключается в выработке единых стандартов.
разные системы зачастую используют разные принципы представления синтаксической структуры.
договорились представлять результаты разбора в виде дерева зависимостей,

А какие ещё структуры есть и почему дерево зависимостей лучше?

0


Вы здесь » Русские вычислители » Любопытное в Сети » Соревнования парсеров


форум на 24bb Создать форум бесплатно