PostgreSQL stemming za hrvatski
PostgreSQL stemming za hrvatski
20.8.2010 | Linux | HULK
Kao što ste već mogli čuti u nultom audio podcastu, Ivan Voras napravio je PostgreSQL stemming za hrvatski. To je nešto za sve one koji žele koristiti full text search u PostgreSQL-u sa modulom tsearch2 ali su primjetili da to nema puno smisla sa Hrvatskim jezikom bez modula za stemming koji će smanjiti broj varijacija riječi na nešto prihvatljivo. Arhiva sadrži dva dijela - ispell rječnik Denisa Lackovića prilagođen za tsearch2 i popratne SQL skripte te modul dict_regex za tsearch2 koji implementira regex transformacije na riječima, sa skupinom regex pravila za više-manje heuristički stemming jezika. Ovi dijelovi se mogu koristiti zasebno (češće) ili zajedno (uz malo dodatnog rada) a rade sa UTF-8. Modul je raspoloživ sa http://ftp.linux.hr/lokalizacija/postgresql/.
1 komentar | 1479 čitanja | Više »


Podijeli s drugima:   Digg     StumbleUpon     Facebook     Del.icio.us     Croportal



Ime:
Komentar:
Anti SPAM:pet + pet =


24.10.2010 15:02
mackdaniel
this was a really nice post, thanks

ITnovosti


Oglasi


Linkovi