wtorek, 27 listopada 2012

DocFetcher - do przeszukiwania dokumentów.

Potrzebowałem aplikacji, która pozwalałaby wyszukiwać wyrażenia w licznych dokumentach w danym katalogu i podejrzeć w jakim otoczeniu te wyrażenia występują. Przetestowałem kilka aplikacji polecanych na forach internetowych, lecz nie sprawdziły się, np. nie obsługiwały znaków języka polskiego. Z wyjątkiem jednej.


Bardzo dobrze sprawdza się w tym zastosowaniu DocFetcher. Wyszukuje w dokumentach MSOffice, OpenOffice, Abiword, html, pdf.  Pozwala podejrzeć dokumenty i podświetla w nich wyszukiwane słowa. Polecam. Dodaję do listy programów przydatnych w pracy tłumacza (link po prawej).

http://docfetcher.sourceforge.net/en/index.html

poniedziałek, 26 listopada 2012

TES - Technology Extraction Suite przetestowane.

Po OmedzeT, LF Alignerze, kolej na kolejne narzędzie niezmiernie przydatne w pracy tłumacza.

TES pomoże stworzyć listę terminologii z istniejących korpusów tłumaczeniowych.
Wersję pod windows można załadować tutaj: http://lpg.uoc.edu/TES/
Po rozpakowaniu archiwum znajdziemy w nim dwa pliki wykonywalne: TES Wizard i TES Edytor,

1. Za pomocą LF Alignera z istniejących dokumentów i ich tłumaczeń stworzyłem dwujęzyczny korpus w postaci pliku tekstowego, w którym dwie kolumny oddzielone są tabulatorem (tab delimited).

2. Za pomocą TES Wizarda:
  • wgrałem dokument (przycisk Bilingual Corpus Extraction), 
  • drugim przyciskiem zdefiniowałem plik wyjściowy kandydatów na moje hasła słownikowe (przycisk Select Output File), 
  • trzeci przycisk umożliwił mi ustawienie maks. liczby słów w haśle oraz wybór pliku ze słowami Stop Words (w programie załączone są pliki dla j. angielskiego i hiszpańskiego) 
  • a następnie wcisnąłem czwarty przycisk by wygenerować listę kandydatów.
3. Za pomocą TES Edytora:
  • wgrałem plik tekstowy, mój dwujęzyczny korpus (File/Open Par.CorpusFile),
  • wgrałem listę kandydatów. Uwaga. Należy wgrać nie całą listę*.txt a jej część z rozszerzeniem kolejno: part0 a po opracowaniu kolejną part1 etc. ze względu na ograniczoną pamięć komputera,
  • ujrzałem listę kandydatów na hasła mojego słownika. Zaznaczając kolejne słowa (trzeba zaznaczyć myszką) można opracowywać kolejne hasła. Program będzie w tym pomagać. Należy:
    (a) wybrać z menu Translate i zobaczyć w sąsiadującym polu listę rozwijaną proponowanych przez program tłumaczeń ,
    (b) wybrać z menu Search i zobaczyć, w jakim otoczeniu słowo i proponowane tłumaczenie występują w tekstach źródłowych (wszystkie wystąpienia w korpusie!).
Współautor programu, Antonio Olivier Gonzales przysłał mi linki do filmów instruktażowych w języku hiszpańskim. Warto obejrzeć jak program działa, nawet jeśli się nie zna hiszpańskiego.
TES Wizard:
http://www.screencast.com/t/DCzIgg4TAb
TES Editor:
http://www.screencast.com/t/WOdPmqvG

Polecam jego blog: http://traduccio.blogs.uoc.edu/

sobota, 24 listopada 2012

Rozpropagujmy darmową edukację Khanacademy.

Darmowe lekcje na poziomie szkoły podstawowej i średniej Khanacademy są już po po polsku.
Uprzejmie proszę o rozpropagowanie tej formy edukacji by docenić licznych i zacnych wolontariuszy, którzy tworzą materiały edukacyjne i tłumaczą je na język polski. Na stronie www.khanacademy.pl jest dostępny w formacie pdf plakat A4 do wydruku. Rozmieśćmy go, by podzielić się informacją możłiwie jak najszerzej.

Plakat: http://www.khanacademy.pl/images/plakat_khan_academy_polska.pdf


LF aligner - bardzo przydatne narzędzie tłumacza.

Otrzymujemy dokument do przetłumaczenia i jako pliki pomocnicze pliki źródłowe i tłumaczenia jego starszych wersji? A może po prostu dokumenty i ich tłumaczenia z tej samej dziedziny? Tak, abyśmy mogli trzymać się terminologii i żargonu stosowanego przez zleceniodawcę.

Przyda nam się LF Aligner, który stworzy z nich automatycznie bi-teksty (format txt i xls) oraz pamięci tłumaczeniowe tmx, które możemy wykorzystać w programie CAT takim jak OmegaT. Program czyta bezproblemowo dokumenty worda w formacie docx. Radzi sobie nawet w sytuacjach, gdy ilość segmentów źródła różni się od ilości segmentów tłumaczenia. Przetestowałem i polecam: http://sourceforge.net/projects/aligner/


Forvo - jak wymawiać słowa. Korpus wymowy.

http://www.forvo.com/ Genialny pomysł. Native Speakerzy nagrywają wymowę słów. Inni oddają na nie głosy.

Z serwisu mogą korzystać aplikacje, np. takie jak przeglądarka słowników Goldendict. http://goldendict.org/
W opcjach programu w zakładce forvo należy uaktywnić korzystanie tego serwisu. Korzystając z goldendict w trybie włączynych wyskakujących dymków (pop-up) można w dowolnej aplikacji podczas nauki wskazywać słówka. Pokaże się dymek z propozycjami wymowy jednego albo kilku speakerów oznaczonych flagami krajów, z których pochodzą.

Serwis Forvo wskazuje lokalizację speakera na mapie.   Można sobie  wyobrazić w przyszłości badania lingwistyczne wykorzystujące dane zebrane przez serwis, dotyczące dialektów i zmian zachodzących w wymowie poszczególnych głosek pod względem położenia geograficznego.

Prezentacja forwo na youtube autorstwa benmcmurry:

poniedziałek, 19 listopada 2012

Poniedziałek - przedszkolak mówi, że na końcu nie ma spółgłoski!!!

Poniedziałek.... poniedziałe... poniedziałe... poniedziałek... kurcze nie wiem. 
Jak i co mówię, gdy mówię wyraźnie ale swobodnie.  Nie myśląc o tym co jest na końcu poniedziałku.

Ocena cząstkowa przedszkolaka w ostatnim roku przedszkola, rozróżnianie głosek: 2 z minusem (tzn. jest prawie dobrze) "dziecko rozróżnia sylaby, nie zauważa zaś zakończeń wyrazów, nie rozróznia ich..."  Czyżby?

A może nie ma k? Np. jest to spółgłoska "wybuchowa nieuwolniona" (ang. unreleased plosive).
Jest jakaś "jakość" w zakończeniu samogłoski, "artykulatory" układają się do wypowiedzenia spółgłoski, do eksplozji... ale ona nie następuje. A my chcemy ją tam usłyszeć i twierdzimy, że jest. Szukam w internecie, google ocenia najwyżej artykuły badające głoski egzotycznych języków (np. spółgłoski ang "unreleased" oraz "implosive") , z rzadka pojawia się jakiś artykuł udowadniający, że jest to zjawisko uniwersalne...


Gdy (kiedyś, dawno temu) studiowałem filologię angielską, zwracano nam uwagę "badajcie oddzielnie to co ludzie mówią ,że mówią (wywiad, badania jakościowe) od tego co naprawdę mówią (np. widmo obrazujące wypowiadane głoski)" . Dziecko ma pięć lat, więc jeszcze nie pisze ani nie czyta, więc, być może, jest jeszcze bezstronnym badaczem, więc mówi to co słyszy. Gdy już będzie miało 7 lat i więcej, będzie mówić to, co wydaje mu się, że słyszy, bo jest napisane. A gdy już będzie dorosłe, będzie twierdzić zdecydowanie, że w danym otoczeniu jest głoska, której w rzeczywistości nie ma. I będzie utwierdzać się w tym stwierdzeniu, ponieważ wszyscy ją słuchający będą twierdzić, "tak, tam jest głoska"!  Ciekawy temat, dla psychologów społecznych. Przykłady? Muszę się zastanowić, czy jestem w stanie wskazać, bo jestem już dorosły i nie potrafię rozróżniać tego co naprawdę słyszę od tego co chcę usłyszeć. Ani nikt w moim otoczeniu, no chyba że jest przedszkolakiem. 




piątek, 16 listopada 2012

Linux Puppy Precise 1.4

Nowa odsłona systemu Puppy: Precise 1.4 !!! Mały szybki system operacyjny, alternatywa dla MSWindows. Można nosić w pamięci USB ze sobą.albo zainstalować na starym laptopie.
Jest też wersja Puppy Precise Retro dla starszych komputerów, np. dla Pentium'ów M "not PAE compatible" z ok 2001 roku...

Info:http://bkhome.org/blog2/?viewDetailed=00023
Dystrybucja do ściągnięcia: http://distro.ibiblio.org/quirky/precise-5.4.1-retro/

Wcześniej pozbierałem info z różnych źródeł, jak instalować:
Na komputerze z windowsem jako drugi system:
http://jakprzetlumaczyc.blogspot.com/2012/07/puppy-linux-installer-creator-101.html
Na pamięci USB:
http://jakprzetlumaczyc.blogspot.com/2012/05/nie-wyrzucaj-starego-komputera-puppy.html

wtorek, 13 listopada 2012

O Khanacademy i studiowaniu dziś w RadioWnet

Polecam poranek dzisiejszy RadiaWnet, rozmowę z prof. Lechem Mankiewiczem (Centrum Fizyki Teoretycznej PAN), który dubbinguje angielskie odcinki Khanacademy.

(część 6 i 7) http://www.radiownet.pl/#/publikacje/poranek-13-11-2012

Pan Lech Mankiewicz wspomina:
Youtube: Khanacademy Polska
http://www.khanacademy.pl/
https://www.coursera.org/
https://www.edx.org/

Przepis na studia za grosze/darmo: "Harward, MIT, Caltech oferuje kursy na które każdy moze się zapisać, kosztują jedynie egzaminy... a jeżeli odpadasz to Khanacademy, a jeżeli twój angielski odpada to zacznij od Khanakademy Polska".

środa, 7 listopada 2012

GW: 80 lat temu polscy kryptolodzy złamali enigmę.

Zajrzałem na strony GW dziś rano, "Uratowali miliony, skrócili wojnę"... Czytałem o nich kilka pozycji, widziałem filmy dokumentalne. W trakcie wojny odsunięci od Bletchley, potraktowani z pogardą po wojnie, przyćmieni i zapomnieni. Kto pamięta ich nazwiska? Co się z nimi działo po wojnie? Promować ich nazwiskami Polskę, jej uczelnie, stawiać pomniki jak Kopernikowi. Powinno się ich przedstawiać jako ideały dzieciom. Bo ucząc się matematyki mogą zrobić wiele dla siebie i dla ojczyzny. Dziś odrobina braw dla GW.