Морфемная разметка русского языка
Формат разметки
Морфы слова разделяются между собой с помощью символа /
. После каждого морфа указывается тип его морфемы после символа:
. Используются основные типы морфем:
PREF
– приставка;ROOT
– корень;SUFF
– суффикс;END
– окончание;POSTFIX
– постфикс (возвратныеся
ись
для глаголов).
Дополнительно используются вспомогательные типы:
LINK
– соединительная гласная в многокоренных словах;HYPH
– дефис в словах с дефисом.
Примеры размеченных слов:
рубчик руб:ROOT/ч:SUFF/ик:SUFF
обижаться обиж:ROOT/а:SUFF/ть:END/ся:POSTFIX
биобиблиографический био:ROOT/библи:ROOT/о:LINK/граф:ROOT/ическ:SUFF/ий:END
сборно-щитовой с:PREF/бор:ROOT/н:SUFF/о:LINK/-:HYPH/щит:ROOT/ов:SUFF/ой:END
Датасеты с морфемной разметкой для русского языка
RuMorphs-Lemmas
Датасет содержит 96036 лемм русского языка с морфемной разметкой в формате TSV: в первом столбце содержится лемма, во втором её разбор. Датасет построен на основе словообразовательного словаря А. Н. Тихонова. Фрагмент датасета:
спутываться с:PREF/пут:ROOT/ыва:SUFF/ть:END/ся:POSTFIX
фуфаечка фуфаеч:ROOT/к:SUFF/а:END
променять про:PREF/мен:ROOT/я:SUFF/ть:END
лужа луж:ROOT/а:END
заиндеветь за:PREF/ин:ROOT/дев:SUFF/е:SUFF/ть:END
отсаживаться от:PREF/саж:ROOT/ива:SUFF/ть:END/ся:POSTFIX
тамильский тамиль:ROOT/ск:SUFF/ий:END
снетковый снетк:ROOT/ов:SUFF/ый:END
Вариант датасета без классификации морфем доступен доступен по ссылке.
RuMorphs-Words
Датасет содержит 1756376 уникальных словоформ русского языка с морфемной разметкой в формате TSV: в первом столбце содержится словоформа, во втором её разбор, в третьем флексия словоизменительного класса, в четвертом пара (часть речи словоформы, словоизменительный класс). Датасет построен на основе датасета RuMorph-Lemmas с использованием словоизменитльных классов русского языка, открытого морфологического словаря Opencorpora и процедуры на основе правил. Фрагмент датасета:
расшить рас:PREF/ши:ROOT/ть:END с-ши-ть (sp: VERB, class_num: 201)
расшил рас:PREF/ш:ROOT/и:SUFF/л:SUFF с-ш-и-л (sp: VERB, class_num: 201)
расшила рас:PREF/ш:ROOT/и:SUFF/л:SUFF/а:END с-ш-и-л-а (sp: VERB, class_num: 201)
расшило рас:PREF/ш:ROOT/и:SUFF/л:SUFF/о:END с-ш-и-л-о (sp: VERB, class_num: 201)
расшили рас:PREF/ши:ROOT/л:SUFF/и:END с-ши-л-и (sp: VERB, class_num: 201)
разошью разо:PREF/шь:ROOT/ю:END зо-шь-ю (sp: VERB, class_num: 201)
разошьешь разо:PREF/шь:ROOT/ешь:END зо-шь-ешь (sp: VERB, class_num: 201)
разошьет разо:PREF/шь:ROOT/ет:END зо-шь-ет (sp: VERB, class_num: 201)
разошьем разо:PREF/шь:ROOT/ем:END зо-шь-ем (sp: VERB, class_num: 201)
разошьете разо:PREF/шь:ROOT/ете:END зо-шь-ете (sp: VERB, class_num: 201)
разошьют разо:PREF/шь:ROOT/ют:END зо-шь-ют (sp: VERB, class_num: 201)
расшей рас:PREF/ше:ROOT/й:END с-ше-й (sp: VERB, class_num: 201)
расшейте рас:PREF/ше:ROOT/йте:END с-ше-йте (sp: VERB, class_num: 201)
расшив рас:PREF/ши:ROOT/в:SUFF с-ши-в (sp: GRND, class_num: 201)
расшивши рас:PREF/ши:ROOT/вши:SUFF с-ши-вши (sp: GRND, class_num: 201)
RuMorphs-SynTagRus
Датасет построен на основе корпуса с морфологической разметкой SynTagRus и содержит 1105517 словоформ русского языка с морфологической и морфемной разметкой. Файл содержит исходные предложения SynTagRus в формате TSV к которым в 3-ем и 5-ом столбцах добавлена морфемная разметка словоформы и леммы соответственно. Разметка датасета производилась в автоматическом режиме с помощью модели морфемного разбора обученной на датасете RuMorphs-Words. Фрагмент датасета:
1 Скорее скор:ROOT/ее:END скорее скор:ROOT/ее:END ADV Degree=Pos
2 всего всего:ROOT все все:ROOT PRON Animacy=Inan|Case=Gen|Gender=Neut|Number=Sing
3 , ,:UNKN , ,:UNKN PUNCT _
4 это это:ROOT это это:ROOT PRON Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing
5 фальшивка фальш:ROOT/ив:SUFF/к:SUFF/а:END фальшивка фальш:ROOT/ив:SUFF/к:SUFF/а:END NOUN Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing
6 или или:ROOT или или:ROOT CCONJ _
7 не не:ROOT не не:ROOT PART Polarity=Neg
8 его ег:ROOT/о:END его ег:ROOT/о:END DET _
9 фотография фото:ROOT/граф:ROOT/и:SUFF/я:END фотография фото:ROOT/граф:ROOT/и:SUFF/я:END NOUN Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing
10 . .:UNKN . .:UNKN PUNCT _