Opis
NELexicon to gazetteer nazw własnych, który zawiera ponad 1.4 miliona unikalnych nazw własnych przypisanych do kategorii (par kategoria; nazwa), w tym ponad 1,37 miliona unikalnych napisów (z pominięciem powtórzeń nazw własnych przypisanych do kilku kategorii).
NELexicon2 to rozszerzona wersją gazetteera nazw własnych, która zawiera ponad 2,3 miliona unikalnych napisów. NELexicon został wzmogacony o następujące zasoby:
- zdrobnienia imion,
- obcojęzyczne formy polskich imion,
- nazwy wyciągnięte z infoboxów polskiej Wikipedii,
- formy odmiany nazw z infoboxów polskiej Wikipedii wyciągnięte z linków wewnętrznych Wikipedii,
- lista nazw rozpoznanych przez Liner2 z modelem 56 nam o liczbie wystąpień równej lub większej niż 5. Jako, że nazwy zostały rozpoznane automatycznie, to lista może zawierać błędnie rozpoznane nazwy.
- formy odmiany nazw wyciągnięte z polskiego Wikisłownika.
Pliki
- wiki-infobox-mapping-v1.7z — mapowanie atrybutów infoboxów z Wikipedii na kategorie jednostek identyfikacyjnych z KPWr.
- plwiki-20150116-pages-articles.xml.bz2-wiki-infobox-mapping-v1.csv.7z — nazwy własne wyciągnięte z infoboxów z polskiej wersji Wikipedii.
- NELexicon-v2.7z — wersja z dnia 30 maja 2014.
- NELexicon-v1.7z — wersja z dnia 20 kwietnia 2012.