Skip to content

Latest commit

 

History

History
254 lines (148 loc) · 32.5 KB

File metadata and controls

254 lines (148 loc) · 32.5 KB

Інструкція з NER-розмітки тексту

English version

(Версія 2022-03-27)

Named Entity (NE) — це назва, яка вказує на певну унікальну сутність. До сутностей належать імена осіб, назви місцевостей, організацій, творів, веб-сайтів і т.і.

Сутність складається з одного або декількох слів, а також може містити пунктуацію (лапки чи коми). Більшість сутностей починається зі слова з великої літери, хоча сутності можуть містити і слова з маленької літери (Маркіз де Сад, Кримінальний кодекс України, поліклініка №3, народний депутат, червень 2020 р.). Бувають також випадки, коли допущена помилка написання або весь текст приведений до одного регістру.

До іменованих сутностей не належать і, відповідно, не виділяються:

  • загальні іменники, які з тих чи інших причин написані з великої літери;
  • назви хвороб, сортів рослин, тварин та інші назви, які пишуться з маленької літери (але помилково можуть також бути написані з великої літери);
  • загальноприйняті абревіатури загальних іменників, які не вказують на унікальну сутність: ЗМІ, ВНЗ, БТІ, ОСББ (але ООН, НАТО — це сутності);
  • нові власні іменники, які стали загальновживаними: "компанія Facebook" (Facebook - це сутність), "у своєму Фейсбуку" (тут Фейсбуку - це вже не сутність);
  • прикметники або іменники, які є похідними від іменованих сутностей: кіровоградський, УДАРівці, СБУшник (однак, різні відмінки одного й того самого іменника залишаються сутностями - наприклад, у словосполученні "Наташина мама" НаташинаPERS).

Загальні правила анотації

  • Одна сутність має бути неперервною: Тарас Шевченко, а не окремо Тарас і Шевченко, Тернопільска міська рада.
  • Різні сутності, що стоять поряд, мають бути виділені окремо. Приклад: "спікер Верховної Ради Гройсман" - тут спікер — це окрема сутність типу JOB, Верховної Ради — це окрема сутність типу ORG, Гройсман — окрема типу PERS.
  • Якщо назва повністю знаходиться в лапках (приклад: "картина «Ніч на Дніпрі»", "картина" не є частиною сутності), то виділяти її без лапок (тільки слова). Якщо ж назва містить слово в лапках, то виділяти також і лапки (приклад: Школа-інтернат "Барвінок", ТОВ «Саланг» — всі слова входять до сутності).
  • Якщо одна сутність є частиною іншої (як правило, це стосується географічних назв), то додатково виділяти її не треба ("картина «Ніч на Дніпрі»": Ніч на Дніпрі — це сутність типу ART, слово Дніпрі окремо не виділяємо). Винятком є сутності DOC котрі містять в собі дату договору/документу як невід'ємну частину назви документа, а також сутності типу PERIOD які можуть містити в собі також дві окремих дати.
  • Деякі абревіатури у межах сутності можуть закінчуватися крапкою. Якщо крапка позначає також кінець речення, непотрібно її захоплювати. Якщо ж абревіатура з крапкою трапляється посеред речення, то варто захопити. Наприклад: "... від 10 млн грн. до 15 млн грн."
  • При анотації дуже важливо дотримуватись однакових підходів до виділення та класифікації подібних сутностей, бути уважними і педантичними.

Типи сутностей

  • ORG (організація) — назва будь-якої компанії, бренду, агенції, організації, установи (включно з релігійними, неформальними, некомерційними), партії, гурту, об'єднання людей, а також певних проєктів (фестивалів, конференцій, програм на телебаченні тощо). Приклади: ЮНЕСКО, INSIDER, Українська правда, КМДА, Рівненська АЕС, Київський міський ордена Трудового червоного гудзика музей космонавтики ім. С.П. Корольова і т.і. ORG може включати досить багато слів, частина яких пишеться з маленької літери. Окремі підрозділи організацій (наприклад, "департамент Національної гвардії") не входять у сутність, тобто треба виділяти тільки назву самої організації (тут — Національної гвардії). Як правило, це можна розрізнити по використанню великої літери: Головне управління МВС України в м.Києві є сутністю повністю, а якщо використовується словосполучення "управління МВС України", то сутність в ньому — це тільки МВС України.
  • PERS (персона) — ім'я будь-якої персони (людини, персонажа, тварини, людиноподібного персонажу на кшталт вампіра, духа, русалки тощо). Ім'я може складатися з декількох власних іменників, всі з яких, як правило, пишуться з великої літери. Винятком є ситуації, коли саме ім'я включає якийсь титул: Маркіз де Сад (але не "пан Андрій" чи "лікар Френк" — в загальному випадку назви посад або розповсюдженні звертання не є частиною імені, тобто сутності тут будуть Андрій та Френк). Особливий випадок — це коли імена декількох осіб пишуться разом з одним прізвищем: Андрій і Тарас Шевченко — тут треба виділити всі 4 слова як одну сутність.
  • LOC (локація) — будь-які географічні назви: райони, населені пункти та великі міста, області/штати/повіти/регіони, назви річок, гір, озер, морів, океанів, гірських масивів, акваторій, країн, континентів. Наприклад: CША, Вигурівщина, Ворскла, Будинок Офіцерів, Львівська область, Шевченківський район, Мар'янське–Берислав (як назва дороги), адреси (вул. Хрещатик 1), будівлі та споруди, що мають власну назву (аеропорти, мости, акведуки). Загальні слова, такі як "село", "місто", "смт", не є частиною сутності, але "область", "район" та "вул." включаємо, бо вони є частиною назви. У випадку, коли назва країни ("Росія напала на Україну"), міста ("позиція офіційного Вашингтону") чи іншого топоніма ("гвардія Майдану") використовується у якості політичного суб'єкту, це все одно виділяється як сутність типу LOC.
  • MON — грошові суми включно з валютою. Наприклад: 1000 гривень, 500 грн, 1000 (одна тисяча) гривень, один мільйон гривень, $400000, $400,000, 15-16 млрд грн, один мільйон триста п'ятдесят п'ять тисяч гривень 77 копійок, $1,5 млн, $200 тисяч, 57898490,55 (п'ятдесят сім мільйонів вісімсот дев'яносто вісім тисяч чотириста дев'яносто грн 55 коп) гривень.
  • PCT — відсотки (включно зі знаком відсотку або зазначенням слів "відсоток", "процент", 'процентний пункт', тощо). Наприклад: 10%, п'ять відсотків, двісті процентів, 1,1 процентного пункту.
  • DATE — повні та неповні календарні дати (сторіччя, рік, місяць, день). Наприклад: 10.12.1999 р., сьогодні, 2014 році, 2007-му, 2013 р.в., 1980 р.н., червні цього року, вісімнадцятому сторіччі, тиждень тому, минулого року, торік, квітні, початку 2016. Слово "рік" є частиною дати, якщо воно присутнє. Прийменники не є частиною дати, тобто у фразі "у 2015 році" виділяємо лише 2015 році.
  • TIME — час (текстовий або числовий). Наприклад: першій годині, 18:30, пів на третю. Прийменники не є частиною сутності.
  • PERIOD — часовий період, який може містити дві (повні або неповні) дати. Наприклад: кілька місяців, три роки, 22 години, 2014-2015 роках, червня по липень 2020 р., квітні та травні 2011 р, 2018-го по травень поточного року, двомісячний термін, I кварталі 2011 року. Якщо в межах періоду є дати, виділяємо їх як DATE.
  • JOB — посада конкретної людини. Наприклад: продавчиня, лікар-гінеколог, народний депутат, юрист, в.о. прем'єр-міністра, заступник міністра освіти, екс-податківець, дорожники, співзасновник, голова, начальник. Якщо після посади йде організація, вона зазвичай не є частиною посади. Наприклад, у фразі "директор інвестиційного фонду" виділяємо тільки директор, а у фразі "народний депутат восьмого скликання" виділяємо тільки народний депутат. Такі ролі як засновник чи співзасновник виділяємо, але "власник" — ні. До JOB не належать родинні зв'язки та описові слова типу "конкурент", "партнер", "співробітник", "мешканець", "замовник", "виконавець" чи "свідок".
  • DOC — унікальні документи: договори, накази, законопроєкти, закупівлі. Наприклад: кримінальному провадженні №422016101110000067, договором підряду № 6 від 02.04.2007, законопроєкт №4668, ЄДРЮО (Єдиний державний реєстр юридичних осіб), листом від 12.01.2011 №85-04/4, листом Мінпаливенерго від 13.01.2011 № 03 / -0097. Якщо в назві документа є дата, додатково виділяємо її як DATE.
  • QUANT — число з одиницею вимірювання, як от вага, відстань, розмір. Наприклад: 3 кілограми, сто тисяч миль, 120 км/год, 60 кв м, 60 кВт, 16 соток. Звичайні числівники виділяти не треба: "3 яблука" чи "1,5 тисячі вулиць" не виділяємо, бо яблуками і вулицями нічого не вимірюють.
  • ART (ARTIFACT) — продукти, які створила людина. Сюди входять назви книжок, газетів, журналів, пісень, продуктів харчування, побутової техніки, машин, літаків тощо. Наприклад, Пересопницьке Євангеліє, Мона Ліза, Let it Be, iPhone, Tesla Model S Plaid, Мівіна, Містер Мускул, Вісник державних закупівель. У фразі "казка «Вовк і семеро козенят" сутність — це Вовк і семеро козенят без слова "казка" і без лапок.
  • MISC (все інше) — інші сутності, які не входять до перелічених вище: назви свят, торгівельних марок (але не брендів, див. ORG) і подібні їм (сорт рослини Chameleon), веб-сайтів (rada.gov.ua), а також назви битв, війн, спортивних подій, ураганів, періодів (Велика депресія, Чорний понеділок), тощо. Якщо не зрозуміло, якого типу сутність, то треба відносити її до цієї категорії.

Приклади анотування з різними типами сутностей:

3

4

Приклади анотацій з роз'ясненнями


Хоча Кіяновська відома не лише цим : вона одна з найавторитетніших в Україні перекладачів з польської ( особливо – поезія , особливо – Тувім ) , є засновницею премії в царині дитячої літератури « Великий Їжак » , а в 2008-му видала книгу оповідань « Стежка вздовж ріки » , що про неї потім ще довго говорили – міцна , вкрай цікава річ .

  • перекладачів та засновницеюJOB як робота Кіяновської.
  • ТувімPERS. З контексту може бути незрозуміло, що це, але якщо загуглити, то стає зрозуміло, що це Юліан Тувім, польський поет.
  • Великий ІжакORG, бо премія — це певна установа.
  • Стежка вздовж рікиART, бо це літературний твір.

У той час я витворила собі своєрідну « внутрішню міфологію » умовної « Магдалини » , оскільки після школи хотіла , але не наважилася піти в монастир .

  • МагдалиниPERS, хоч тут і не конкретна людина.

Колись навіть назва « Товариство Усамітнених Графоманів » виникла значною мірою через мене , бо я всім постійно казала , що - графоман . Це - перше , що з часів ТУГи та « Інкарнації » змінилося принципово .

  • ТУГиORG, бо в цьому контексті зрозуміло, що це скорочення від Товариство Усамітнених Графоманів.
  • ІнкарнаціїART, бо це літературний твір Кіяновської.

Як сказано у прес-релізі , наша смуга дозволяє приймати Боїнги , Аербаси , різні « ТУшки » , Ани , Яки та всі типи вертольотів .

  • Боїнги, Аербаси, ТУшки, Ани, ЯкиART, бо це моделі літаків.

Після розвалу СРСР нашому аеропорту не щастило .

  • СРСРLOC, бо це назва країни.

Її чоловік Микола стартував на перегонах із 100-го округу ( центр — Бобринець ) . Тут офіційного кандидата від пропрезидентської політсили немає взагалі .

  • 100-го округуORG, бо це юридична сутність / установа.

Не секрет , що Онули протягом кількох останніх років були головними спонсорами УДАРу на Кіровоградщині .

  • УДАРуORG, бо це політична партія.
  • КіровоградщиніLOC.

Цього разу сісти в омріяні парламентські крісла пробують і відомі кіровоградські бізнесмени ( з 90-х відомі ) , орендарі дендропарку й щасливі власники атракціонів , які час від часу падають , Микола та Лариса Онули .

  • 90-хPERIOD.
  • Микола та Лариса ОнулиPERS, виділено разом, щоб не втратити інформацію, що Микола теж Онул.

Дитинство Кобзаря минуло у селі Кирилівка ( з 1929 року – село Шевченкове Звенигородського району ) .

  • КобзаряPERS, бо це прізвисько людини.
  • Шевченкове і Звенигородського району — дві окремі сутності типу LOC.

Наразі в місцевих музейних залах представлені унікальні експонати , пов'язані з дитячими роками і творчими здобутками Шевченка-художника .

  • Шевченка-художникаPERS, виділено все слово разом.

На травневій сесії депутати Сумської міської ради ухвалили рішення про створення на базі поліклінік , що діють у міських клінічних лікарнях № 1 , № 5 та № 4 трьох Центрів первинної медико-санітарної допомоги . Очікувалося , що на останній сесії міської ради , що відбулася 31 липня , буде створено ще один центр – на базі поліклініки № 3 , однак за внесення відповідних доповнень проголосували лише 20 депутатів .

  • депутатиJOB.
  • Сумської міської радиORG, але окремо "міської ради" не виділяємо.
  • міських клінічних лікарнях № 1 , № 5 та № 4 та поліклініки № 3ORG, бо це конкретні установи, про що свідчить номер.
  • міських клінічних лікарнях № 1 , № 5 та № 4 виділено як одну сутність, щоб зберегти інформацію про те, що номер стосується "міської клінічної лікарні".
  • Центрів первинної медико-санітарної допомогиORG.

Так, суд встановив, що договір оренди було укладено без відповідного рішення Дніпропетровської РДА, а суд не мав достатніх правових підстав зобов'язати РДА передати ділянку в оренду.

  • Дніпропетровської РДАORG, але окремо "РДА" не виділяємо.

Але , як правило , Ньюкаслом хворіють птахи , для людей же , говорить спеціаліст , вірус не становить загрози .

  • НьюкасломMISC, бо це тут назва хвороби, яка походить із власної назви (тобто сутності). Слово тут втратило своє первинне значення як LOC.

Тріо UpSide3 у чомусь феноменальне для України . Дмитро « Бобін » Александров ( бас-кларнет і сопрано-сакс ) , Денис Дудко ( контрабас ) і барабанщик Олег Марков ( тоді він ще був навіть неповнолітнім ) зібралися мало не спонтанно з приводу лише одного виступу , кожен із них приніс власні композиції .

  • UpSide3ORG, бо музичний гурт — це певна організація.
  • Дмитро « Бобін » Александров виділяємо як одну сутність PERS.

Крім того , невдовзі на сцені фестивалю Jazz in Kiev 2009 виступив квінтет Дудка , котрий вперше презентував програму , що потім стане альбомом « Sofia » .

  • Jazz in Kiev 2009ORG, бо фестиваль — це певна організація.
  • ДудкаPERS, бо мова йде про Дениса Дудка.
  • SofiaART, бо це продукт.

З моменту появи назви тріо до стадії готової платівки час можна вимірювати не місяцями , а тижнями . « Octopus » 2008 року читачі порталу UAjazz.com з великим відривом від решти назвали альбомом року . А композиція Дудка « Gospel » – це справжнісінький хіт .

  • Octopus та GospelART, бо це продукти.
  • UAjazz.comORG, бо тут портал є організацією.

Д . Дудко : « Коли ми їздили в тур з « ОЕ » , тривалий час майже не бували вдома , і я дуже сумував за джазом . Зараз у мене є на нього час , і я вже починаю сумувати за концертами « Океанів » .

  • ОЕ, ОкеанівORG, бо це різні варіації назви музичного гурту.

Того ж вечора , точніше , вже глупої ночі , після двогодинної розмови в запису між Віктором Медведчуком , який намагався спокусити наївного глядача « Шустер live » ( « Інтер » ) принадами Митного союзу , та його соратника з російського боку , Сергія Глазьєва , з Олександром Пасхавером і Вадимом Карасьовим , а також - беззастережного торжества європейського вектора України , тема конфлікту на ТВі удостоїлася кількох хвилин безцінного прямого ефіру в Савіка Шустера .

  • Інтер та ТВіORG, бо телеканали є організаціями.
  • Шустер liveORG, бо телепрограма є самостійним проєктом.
  • Митного союзуLOC, бо це геополітичне утворення.

Міністерство охорони здоров'я України впроваджує Всеукраїнський електронний реєстр пацієнтів ( ЕРП ) , після чого паперові медичні картки стануть історією , заявив заступник міністра охорони здоров'я Роман БОГАЧОВ .

  • Всеукраїнський електронний реєстр пацієнтів та ЕРП виділяються як дві окремі сутності типу ORG.
  • заступник міністра охорони здоров'яJOB.

Таке рішення було ухвалено на основі аналізу роботи ЕРП в тестовому режимі в пілотних регіонах : Вінницькій , Дніпропетровській , Донецькій областях та місті Києві .

  • Вінницькій , Дніпропетровській , Донецькій областях виділяємо як одну сутність LOC, щоб зберегти зв'язок зі словом "область".

Методичні вказівки до засобу « Біопагдез КС » підготував брат Надії МележикОлександр Мележик, він же директор Інституту оцінки відповідності ДП «УкрНДНЦ» Міністерства економічного розвитку і торгівлі України.

  • Інституту оцінки відповідності ДП «УкрНДНЦ» та Міністерства економічного розвитку і торгівлі України — дві окремі сутності типу ORG.

НБУ нагадує, що протягом 2010 року уряд розмістив єврооблігації на 2,5 млрд. доларів, залучив 2 млрд. доларів від МВФ і 2 млрд. доларів короткострокового кредиту від російського ВТБ. За даними Нацбанку, в 2010 році зафіксовано скорочення боргу банківського сектора.

Рік може бути як датою, так і періодом:

  • 2010 року виділяємо як сутність PERIOD.
  • 2010 році виділяємо як сутність DATE.

Якщо вивозити відходи по Львівській області, ціна за тонну сміття виходить по 500 грн за тонну або 700 грн.

  • тонну виділяємо як QUANT, бо мається на увазі 1 тонна.

Орендна плата становила 4,5 тис грн. на рік без ПДВ (нормативна грошова оцінка ділянки – 160 тис грн.).

  • рік виділяємо як PERIOD, бо мається на увазі 1 рік.

У 2021 році "Міжнародний аеропорт "Бориспіль" обслужив 9,4 млн пасажирів.

  • Міжнародний аеропорт "Бориспіль" виділяємо без першої лапки, але з останньою лапкою, щоб назва аеропорту була повністю в лапках.

Департамент розвитку житлово-комунальної інфраструктури Маріупольської міської ради торік уклав з ТОВ «Укрстрой» договори на поточний ремонт на загальну суму 7,5 млн грн без проведення тендерних процедур.

  • Департамент розвитку житлово-комунальної інфраструктури Маріупольської міської ради виділяємо повністю як одну сутність ORG, бо це повна назва юридичної особи.
  • торік виділяємо як DATE.

ФОП Ірина Заремба припинила діяльність у березні 2018 року.

  • ФОП Ірина ЗарембаORG. Додатково виділяємо Ірина Заремба як PERS.

Що треба зробити?

Ваше завдання — це переконатися, що в тексті правильно проанотовано усі наявні сутності. Для полегшення роботи тексти були попередньо автоматично проанотовані сутностями типу ORG, PERS, LOC і MISC. Будьте уважними — автоматичне анотування містить помилки, зокрема велику частину сутностей типу MISC потрібно буде змінити на ART.

Як працювати з інструментом для анотування:

  1. Щоб додати нову сутність, треба виділити мишкою фрагмент тексту і вибрати тип сутності.

    Додавання сутності

  2. Щоб видалити помилкову анотацію, треба подвійно клікнути на неї і натиснути кнопку "Видалити".

    Зміна сутності

  3. Щоб змінити тип сутності, треба подвійно клікнути на анотацію і обрати правильний тип.

  4. Щоб змінити кордони сутності, треба подвійно клікнути на неї, натиснути кнопку "Перемістити", а тоді виділити мишкою правильний фрагмент.

Після закінчення роботи з фрагментом тексту потрібно повторно перевірити, чи нічого не пропущено і чи правильно проставлені всі анотації, після чого натиснути кнопку "Submit". Текст буде відправлено на сервер.