poniedziałek, 17 października 2011

Lexterm, xbench, csved - warsztat do tworzenia glosariuszy.

Na stronie http://www.linguoc.cat/index_en.html dostępne jest narzędzie lexterm, które bada tekst i wykorzystując metody statystyczne tworzy listę terminologii.
Badam przydatność tego programu do tłumaczeń.

Pierwszy wniosek...działa!!!  Lexterm może wyszukiwać propozycje terminów zarówno na podstawie tekstu źródłowego jak i korpusu dwujęzycznego. W tym drugim przypadku zaproponuje termin wraz z jego najbardziej prawdopodobnym tłumaczeniem. Program korzysta z list tzw. stopwords, tworzonych dla konkretnych języków, pozwalających wyeliminować słowa popularne. Program wymaga korpusów dwujęzycznych w formacie txt, w których segment źródłowy jest oddzielony od docelowego tabulatorem. Wszelkie moje korpusy są w formacie tmx, więc potrzebuję jeszcze jednego narzędzia, które pozwoliłoby mi konwertować tmx na txt "tab delimited". Takie narzędzie umożliwiające konwersję tmx->txt to np. xbench http://www.apsic.com/en/products_xbench.html

Dodatkowo przydatny może okazać się edytor plików tekstowych csved http://csved.sjfrancke.nl/ Program ten ładuje do pamięci tylko tę część pliku, która jest akurat przeglądana, więc może otwierać i umożliwia edycję bardzo dużych korpusów dwujęzycznych, z którymi nie poradziłby sobie excel.

Brak komentarzy:

Prześlij komentarz