Używamy cookies i podobnych technologii m.in. w celu świadczenia usług i w celach statystycznych. Możesz określić warunki przechowywania lub dostępu do plików cookies w Twojej przeglądarce, w jej ustawieniach. Jeżeli wyrażasz zgodę na zapisywanie informacji zawartej w cookies, kliknij „Zamknij”. Jeżeli nie wyrażasz zgody – zmień ustawienia swojej przeglądarki.Więcej informacji znajdziesz w naszej Polityce cookies.

Zamknij informację o cookies
.

Ośrodek  Przetwarzania  Informacji  –  Państwowy  Instytut  Badawczy

Systemy informatyczne

Wydobywanie słów kluczowych

Stworzyliśmy metodę wyodrębniania słów kluczowych dla tekstów polskojęzycznych.

Opracowanie właściwego algorytmu nie było prostym zadaniem, choćby ze względu na to, że w języku polskim dość często pojawiają się długie ciągi rzeczowników, przymiotników i symboli.

Autorskie rozwiązanie nosi nazwę Polish KeyWord Extractor. Wydostanie z artykułu najistotniejszych fraz rozpoczyna się od wstępnego przetworzenia tekstu. Na tym etapie tekst dokumentu powinien zostać podzielony na zdania i słowa. Dla każdego ze słów określone zostają charakterystyki słowa: liczba, część mowy, rodzaj etc. Potem odbywa się identyfikacja potencjalnych kandydatów na słowa kluczowe, a następnie – ich ocena i prezentacja zadanej liczby finalnych słów kluczowych.

 

Więcej informacji o tym zagadnieniu znaleźć można w tomie drugim publikacji pod redakcją dr. Jarosława Protasiewicza Procedury recenzowania i doboru recenzentów.

 

Tytuł projektu: Polish KeyWord Extractor

Wykonawca: Laboratorium Inteligentnych Systemów Informatycznych

powrót