Low Resource Machine Translation
Published on 18 May 2018
The Google Malayalam translator is still not upto the mark. Here are a few examples of sentences copy pasted from news articles which are not very well translated by google. 1. My cat is not afraid of dogs : എന്റെ പൂച്ചയ്ക്ക് നായ്ക്കൾ ഭയപ്പെടുന്നില്ല 2. പ്രളയ ദുരിതാശ്വാസ ഫണ്ട്​ സമാഹരണത്തിന്​ മന്ത്രിമാരുടെ വിദേശ യാത്രാനുമതി നിക്ഷേധിച്ച സംഭവത്തിൽ പ്രധാനമന്ത്രി നരേന്ദ്ര മോദിക്കെതിരെ രൂക്ഷ വിമർശനവുമായി മുഖ്യമന്ത്രി പിണറായി വിജയൻ. : In the event of the Prime Minister's Foreign Travel for the regrettable miserable funding, the Chief Minister's victorious counterpart against Prime Minister Narendra Modi. 3. 8 Killed In Shooting At High School In Texas, Gunman Arrested : ടെക്സസിലെ ഹൈ സ്കൂളിൽ വെടിയേറ്റ് കൊല്ലപ്പെട്ട 8 കാരൻ ഗുണ്ടൻ അറസ്റ്റിൽ 4. He persuaded her to stay away : അവൻ അവളെ വിട്ടുപോകാൻ പ്രേരിപ്പിച്ചു Google translate works very well for smaller sentences. But translating anything serious like sentences from news gives poor results. There is room for much more improvement in low resource translation domain. ### Interesting Reads - [Has AI surpassed humans at translation? Not even close!](https://www.skynettoday.com/editorials/state_of_nmt) #### Evaluation Metrics 1. BLEU 2. NIST 3. METEOR 4. CHRF3 5. AM-FM (*AM-FM: A Semantic Framework for Translation Quality Assessment *) Ref: https://medium.com/@rtatman/evaluating-text-output-in-nlp-bleu-at-your-own-risk-e8609665a213 #### Test Sets http://matrix.statmt.org/test_sets/list #### Papers - Meta-Learning for Low-Resource Neural Machine Translation: Use high resource language pairs to learn an initialization for low resource language translation using meta learning