czwartek, 14 lipca 2011

Concondancer - do sporządzania list słówek

W tym poście opisuję możliwość tworzenia list słownictwa za pomocą darmowego oprogramowania. Studiując na anglistyce w Poznaniu i pełniąc dyżur w salce komputerowej miałem okazję poznać kolegów i koleżanki zajmujące się leksykografią... pamiętam, że korzystali oni z korpusów(zbiorów tekstów charakteryzujących się określonymi cechami wspólnymi: czasem i miejscem powstania i stylem) z concordancerów (oprogramowania do analizy leksykograficznej m.in. częstości występowania słów i ich otoczenia w korpusach) oraz ze standardowych relacyjnych baz danych (Paradox, dBase) do ostatecznej obróbki list i tworzenia z nich słowników. Przypominając sobie ich pracę wpadłem na taki pomysł:

  1. Znaleźć darmowy program concordancer... jest! Znalazłem: http://www.antlab.sci.waseda.ac.jp/ program napisał pan profesor Laurence Anthony z Uniwersytetu Waseda w Japonii. Opis programu w Wikipedii: http://en.wikipedia.org/wiki/AntConc
  2. Zebrać korpusy... po prostu teksty z danej dziedziny i w danym języku (np. angielski, budownictwo albo rosyjski, wiadomości), przekopiować je z plików html, bezpośrednio ze stron, z pdf_ow, ocr'owanego podręcznika budownictwa etc. - do plików tekstowych.
    Uwaga: Jeżeli pliki te mają zawierać znaki nie-łacińskie (cyrylicę, znaki arabskie, chiński etc.) należy plik zapamiętać jako txt z kodowaniem znaków Unicode (np. UTF-8), nie ANSI. Jest to bardzo ważne. Również w concordancerze w opcjach należy zaznaczyć, że pracujemy z korupsami w których znaki kodowane są w UTF-8 a nie ANSI. Jeżeli tego nie zrobimy to takie pliki korpusu mogą się okazać bezużyteczne, np. w jęz. rosyjskim pojawią się nam jakieś bezsensowne znaki zapytania i krzaczki.
  3. Wygenerować listy wyrazów posortowane według częstości występowania w korpusach. Najczęściej występujące (być, mieć, modalne, przedimki) możemy wykasować, uwzględnimy tylko słowa poniżej określonego progu częstości występowania.
  4. Kopiujemy liste do bazy np. do excela/Open Office calc'a albo nawet do tabeli worda (dodajemy pustą kolumnę na polskie odpowiedniki).
  5. Korzystając ze słownika i (concordancera, bo ułatwia on nam analizę poszczególnych słów - w jakim otoczeniu występują one w naszych korpusach) opracowujemy już ręcznie tłumaczenia polskie i przykłady.
  6. Exportujemy tak opracowane listy do supermemo, paukera lub innego programu do wkuwania słówek albo drukujemy papierowe fiszki.

W efekcie mamy zbiory słówek dotyczące wybranej przez nas dziedziny, uporządkowane wg. trudności (częstości występowania), w rzeczywistym otoczeniu i kontekscie (jeżeli przyłożyliśmy się w pkt. 5) no i przede wszystkim, za darmo. Szczególnie mogłoby się to spodobać ludziom, którzy pragnęliby zgłębić współczesne słownictwo w wąskich dziedzinach (np. mikrobiologii, neurologii etc.). Coraz częściej korzystają one z literatury w wersji elektronicznej (jeśli nie, to wersje papierowe współcześnie łatwo skanować i OCR'ować do plików txt.
Jeszcze jedną zaletą tego rozwiązania, np. w przypadku rosyjskiego jest to, że nie muszę rosyjskich słówek i ich ew. otoczenia wpisywać ręcznie. Byłaby to dla mnie mordęga, bo nie potrafię pisać bezwzrokowo na klawiaturze rosyjskiej.
---
Inne podobne concordancer'y:
TextSTAT http://www.niederlandistik.fu-berlin.de/textstat/software-en.htm
AConcorde http://www.andy-roberts.net/software/aConCorde/index.html

Brak komentarzy:

Prześlij komentarz