<div dir="ltr"><div>Hello Deepa,<br><br></div><div>I am Karan, working in LTRC,IIIT-Hyderabad and have also worked in a project co-funded by AT&T in making an ASR for Hindi and have tried adaptive acoustic modelling for Kannada and Malyalam( results were not great )<br>
<br> <br></div><div>As suggested by you, we can begin with taking a small speech corpus available freely available for Malyalam <br><br><a href="http://festvox.org/databases/iiit_voices/">http://festvox.org/databases/iiit_voices/</a><br>
<br></div><div>Although, this is not sufficient, but just to begin with. We need to record more data in the future.<br><br></div><div>For Acoustic Modelling:<br><br></div><div>There is a freely available phonetic dictionary for Hindi, in which Hindi graphemes have been mapped to English American Phone set as Sphinx is build up for English phone set and we don't have enough speech data for creating a new model. So adaptation is only possible at first.<br>
<br></div><div>As Malayalam is a Dravidian language, I guess there is a phonetic dictionary available for Telugu in speech lab at my university but I need to check if they can share. So then adapting from Telugu will be a better option as it can be called "close" to Malayalam than Hindi. <br>
<br></div><div>So after making a model with this dictionary, one need to generate phonetic mapping for all the words in the transcription files of speech corpus.<br></div><div><br>For Language Modelling :<br></div><div>Transcriptions will be  included for sure. I am not aware of a raw text available in Malayalam. Is there a raw data avialble ??<br>
<br></div><div>Am I thinking right ??<br><br></div><div>Hoping a reply soon,<br></div><div>Karan Singla<br></div><div>LTRC, IIIT-Hyderabad<br></div></div>