Na stronie http://www.linguoc.cat/index_en.html dostępne jest narzędzie lexterm, które bada tekst i wykorzystując metody statystyczne tworzy listę terminologii.
Badam przydatność tego programu do tłumaczeń.
Pierwszy wniosek...działa!!! Lexterm może wyszukiwać propozycje terminów zarówno na podstawie tekstu źródłowego jak i korpusu dwujęzycznego. W tym drugim przypadku zaproponuje termin wraz z jego najbardziej prawdopodobnym tłumaczeniem. Program korzysta z list tzw. stopwords, tworzonych dla konkretnych języków, pozwalających wyeliminować słowa popularne. Program wymaga korpusów dwujęzycznych w formacie txt, w których segment źródłowy jest oddzielony od docelowego tabulatorem. Wszelkie moje korpusy są w formacie tmx, więc potrzebuję jeszcze jednego narzędzia, które pozwoliłoby mi konwertować tmx na txt "tab delimited". Takie narzędzie umożliwiające konwersję tmx->txt to np. xbench http://www.apsic.com/en/products_xbench.html
Dodatkowo przydatny może okazać się edytor plików tekstowych csved http://csved.sjfrancke.nl/ Program ten ładuje do pamięci tylko tę część pliku, która jest akurat przeglądana, więc może otwierać i umożliwia edycję bardzo dużych korpusów dwujęzycznych, z którymi nie poradziłby sobie excel.
Brak komentarzy:
Prześlij komentarz