Dodatek B. Glosariusze

1. Korzystanie z glosariusza
2. Format pliku
3. Jak tworzymy glosariusze?
4. Nadrzędność glosariusza
5. Typowe problemy z glosariuszem

Glosariusze to pliki tworzone i aktualizowane na użytek programu OmegaT.

Jeżeli projekt OmegaT zawiera jeden lub więcej glosariuszy, wszystkie terminy dostępne w glosariuszu znalezione również, w bieżącym segmencie zostaną automatycznie wyświetlone w przeglądarce glosariuszy.

Jego lokalizacja i nazwa są definiowane w oknie właściwości projektu. Rozszerzenie pliku musi być typu .txt lub .utf8 (jeżeli nie, zostanie dodane). Plik musi znajdować się w katalogu /glossary, ale może też znajdować się w dodatkowym podkatalogu (np. glossary/sub/glossary.txt). Nie jest wymagane, aby plik istniał, zostanie utworzony (jeżeli to konieczne) podczas dodawania hasła do glosariusza. Jeżeli plik już istnieje, nie będzie sprawdzany format ani zestaw znaków pliku: nowe wpisy będą zawsze dodawane w formacie rozdzielanym tabulatorami oraz w standardzie UTF-8. Istniejąca zawartość nie zostanie zmieniona, więc uszkodzenie istniejącego pliku będzie bardzo ograniczone.

1. Korzystanie z glosariusza

Aby użyć istniejącego glosariusza, po prostu kopiujemy go do katalogu /glossary po utworzeniu projektu. Program OmegaT podczas otwierania projektu automatycznie wykrywa pliki glosariusza obecne w tym katalogu. Terminy z bieżącego segmentu znalezione przez OmegaT w pliku (plikach) glosariusza są wyświetlane w panelu „Glosariusz” w głównym oknie programu:

Rysunek B.1. Okno glosariusza

Okno glosariusza

Słowo przed znakiem = jest terminem oryginalnym, podczas gdy słowo (lub słowa) po znaku = reprezentuje (reprezentują) jego tłumaczenie. Do hasła w glosariuszu można dodać komentarz. Funkcja glosariusza może wykryć tylko dokładne dopasowania hasła zawartego w glosariuszu (tj. nie wykrywa form fleksyjnych itp.). Podczas procesu tłumaczenia nowe terminy można wprowadzać ręcznie do pliku (plików) glosariusza, na przykład za pomocą edytora tekstu. Ostatnio dodane terminy nie zostaną rozpoznane po zapisaniu zmian w pliku tekstowym.

Termin oryginalny niekoniecznie musi być jednym słowem, jak pokazuje następny przykład:

Rysunek B.2. hasła wielowyrazowe w glosariuszach - przykład

hasła wielowyrazowe w glosariuszach - przykład

Podkreślone „menu podręczne” można znaleźć jako „menu pojavni” w panelu słownika. Aby wstawić element w segmencie docelowym i w pozycji kursora, podświetlamy go w oknie Glosariusza klikając prawym przyciskiem myszy[1].

2. Format pliku

Pliki glosariusza są prostymi plikami tekstowymi, składającymi się z list umieszczonych w trzech kolumnach, oddzielonych tabulatorami, z terminem oryginalnym i docelowym - wstawionym odpowiednio w pierwszej i drugiej kolumnie. Trzecia kolumna służy do wprowadzania dodatkowych informacji. Możliwe jest posiadanie wpisów bez terminu docelowego, na przykład tylko z terminem oryginalnym i odpowiednim komentarzem.

Strona kodowa glosariuszy jest określana automatycznie. Oczywiście strona kodowa musi być kompatybilna z obydwoma językami źródłowym i docelowym, dlatego zaleca się korzystanie z Unicode.

Obsługiwany jest również format CSV. Ten format jest taki sam, jak format rozdzielany tabulatorami: termin źródłowy, termin docelowy. Pola komentarzy oddzielone są przecinkiem Pola komentarzy oddzielone są przecinkiem „,”. Ciągi znaków można ująć w cudzysłów ", co pozwala na umieszczenie przecinka w ciągu:

"This is a source term, which contains a comma","c'est un terme, qui contient une virgule"

Oprócz formatu tekstowego, obsługiwany jest również format TBX jako format glosariusza tylko do odczytu. Plik .tbx musi się znajdować w katalogu /glossary, ale może też znajdować się w dodatkowym podkatalogu (np. glossary/sub/MyGlossary.tbx).

TBX - Term Base eXchange - to oparty na XML-u otwarty standard wymiany ustrukturyzowanych danych terminologicznych; został uznany za międzynarodowy standard przez organizacje LISA i ISO. Jeżeli posiadamy już system zarządzania terminologią, jest bardzo prawdopodobne, że wyeksportuje on dane terminologiczne w formacie TBX. Kolekcję terminologi Microsoftu można pobrać w prawie stu językach i może służyć jako punkt wyjściowy do tworzenia słownika komputerowego.

Zauważmy, że: format wyjściowy .tbx nie jest zbyt godnym zaufania (listopad, 2013 r.) lepszym rozwiązaniem wieloterminowego formatu wyjściowego jest .tab.

3. Jak tworzymy glosariusze?

Konfiguracja projektu umożliwia dodanie hasła do zapisywalnego pliku glosariusza (zajrzyjmy na początek tego rozdziału). Klikając prawym przyciskiem myszy w oknie glosariusza lub naciskając kombinację klawiszy Ctrl+Shift+G możemy dodać nowe hasło. Otworzy się okno, w którym możemy wprowadzić ostateczne hasło oryginalne i docelowe oraz wszelkie uwagi jego dotyczące:

Zawartość plików glosariusza przechowywana jest w pamięci i ładowana do niej kiedy projekt jest otwierany lub restartowany. Aktualizacja pliku glosariusza jest więc dość prosta: naciskając kombinację klawiszy Ctrl+Shift+G dodajemy nowy termin, jego tłumaczenie i wszelkie komentarze (zwracając uwagę, aby nacisnąć klawisz tabulatora między jednym a drugim polem), i zapisujemy zmiany pliku. Zawartość wyświetlana w oknie glosariusza zostanie odpowiednio zaktualizowana.

Lokalizacja do zapisu pliku glosariusza może zostać wybrana w oknie Projekt → Właściwości... Akceptowane rozszerzenia to TXT i UTF8.

Uwaga: oczywiście istnieją inne sposoby tworzenia pojedynczego pliku z wpisami rozdzielanymi tabulatorami. Przykładowo nic nie stoi na przeszkodzie, aby w tym celu używać edytora Vim, GEdit w Linuksie czy edytora Notepad++, Vim w systemie Windows lub elektronicznego arkusza kalkulacyjnego: możemy użyć wszystkich aplikacji obsługujących kodowanie UTF-8 (lub UTF-16 LE) i wyświetlających białe znaki (aby nie stracić z oczu wymaganych znaków TAB).

4. Nadrzędność glosariusza

Wyniki uzyskane z nadrzędnego glosariusza (domyślnie glosariusz /glosariusz.txt) pojawiają się na najwyższych pozycjach w oknie Glosariusza oraz w Poradach.

Ponieważ propozycje tłumaczeń mogą łączyć słowa z glosariuszy nadrzędnych i podrzędnych, słowa z glosariusza nadrzędnego są pogrubione.

5. Typowe problemy z glosariuszem

Problem: nie wyświetla się termin z glosariusza - możliwe przyczyny:

  • Nie ma pliku glosariusza w katalogu /glossary.

  • Plik glosariusza jest pusty.

  • Elementy nie są oddzielone znakiem TAB.

  • Plik glosariusza ma nieprawidłowe rozszerzenie (.tab, .utf8 lub .txt).

  • Nie ma DOKŁADNEJ zgodności między hasłem w glosariuszu a tekstem źródłowym w dokumencie - na przykład liczba mnoga.

  • Plik glosariusza ma niewłaściwą stronę kodową.

  • W aktywnym segmencie nie ma terminów pasujących do tych z glosariusza.

  • Jeden lub więcej problemów wymienionych powyżej zostało rozwiązanych, ale projekt nie został zrestartowany.

Problem: w panelu słownika niektóre znaki nie są poprawnie wyświetlane

  • ...ale te same znaki są wyświetlane poprawnie w panelu edycji: rozszerzenie i strona kodowa pliku nie pasują do siebie.



[1]Należy zauważyć, że w powyższym przypadku stanowi to połowę pracy (lub może mniej), ponieważ język docelowy (słoweński) używa deklinacji (jest językiem fleksyjnym podobnie jak polski). Wstawiony element „pojavni meni” w mianowniku należy zmienić na „pojavnem meniju”, przykładowo w miejscowniku. W takich przypadkach prawdopodobnie szybszym sposobem jest bezpośrednie wpisanie prawidłowego terminu, zamiast tracić czas na glosariusz i skojarzone z nim kombinacje klawiszy.