Używamy cookies i podobnych technologii m.in. w celu świadczenia usług i w celach statystycznych. Możesz określić warunki przechowywania lub dostępu do plików cookies w Twojej przeglądarce, w jej ustawieniach. Jeżeli wyrażasz zgodę na zapisywanie informacji zawartej w cookies, kliknij „Zamknij”. Jeżeli nie wyrażasz zgody – zmień ustawienia swojej przeglądarki.Więcej informacji znajdziesz w naszej Polityce cookies.

Zamknij informację o cookies
.

Ośrodek  Przetwarzania  Informacji  –  Państwowy  Instytut  Badawczy

Analizy tekstu języka naturalnego

Zbudowaliśmy model języka polskiego na podstawie stron internetowych

W 2016 roku przyjrzeliśmy się  bliżej danym o polskich stronach internetowych zgromadzonym w archiwum CommonCrawl (http://commoncrawl.org).

Naszym celem było opracowanie automatycznych narzędzi do rozproszonego przetwarzania olbrzymiego terabajtowego zbioru stron internetowych - wydobyliśmy  z nich polskie teksty, a następnie na ich podstawie zbudowaliśmy model języka: n-gramowego i  dystrybucji semantycznej. Zbudowane narzędzia posłużyły do wielomiesięcznego  przetwarzania archiwum danych o polskich stronach,  a w konsekwencji do opracowania modelu języka polskiego na treści internetowej. Jest to największy model tego rodzaju dla języka polskiego.

powrót