<div dir="ltr"><div><div>Hello Karan,<br><br></div>I have heard the iiit-speech data base. 1000 selected sentences are there, spoken as separate sentences. It is good for a TTS system. But for ASR it might not be very good I think for 2 reasons- <br>
1) since it is isolated sentences, it may be able to recognize speech in isolated sentences. or in other words, the input speech should have enough pause in between sentences. 2) the articulation is very slow and pronunciation very clear and good. In that way it is slightly different from normal malayalam reading style.  For ASR system we need a speech data base that resembles a typical malayalam speech.<br>
<br></div><div>For ASR, the training database is very important. The results depend on this.   <br><br></div><div>As you said, Malayalam have similarity with Telugu. So phonetic dictionary available for telugu, can be adapted for malayalam.  <br>
<br></div><div>A standard text corpus is not readily available for Malayalam, so far as I know.<br><br></div><div>regards                                             </div></div><div class="gmail_extra"><br><br><div class="gmail_quote">
On Mon, Mar 10, 2014 at 4:30 AM, karan singla <span dir="ltr"><<a href="mailto:ksingla025@gmail.com" target="_blank">ksingla025@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr"><div>Hello Deepa,<br><br></div><div>I am Karan, working in LTRC,IIIT-Hyderabad and have also worked in a project co-funded by AT&T in making an ASR for Hindi and have tried adaptive acoustic modelling for Kannada and Malyalam( results were not great )<br>

<br> <br></div><div>As suggested by you, we can begin with taking a small speech corpus available freely available for Malyalam <br><br><a href="http://festvox.org/databases/iiit_voices/" target="_blank">http://festvox.org/databases/iiit_voices/</a><br>

<br></div><div>Although, this is not sufficient, but just to begin with. We need to record more data in the future.<br><br></div><div>For Acoustic Modelling:<br><br></div><div>There is a freely available phonetic dictionary for Hindi, in which Hindi graphemes have been mapped to English American Phone set as Sphinx is build up for English phone set and we don't have enough speech data for creating a new model. So adaptation is only possible at first.<br>

<br></div><div>As Malayalam is a Dravidian language, I guess there is a phonetic dictionary available for Telugu in speech lab at my university but I need to check if they can share. So then adapting from Telugu will be a better option as it can be called "close" to Malayalam than Hindi. <br>

<br></div><div>So after making a model with this dictionary, one need to generate phonetic mapping for all the words in the transcription files of speech corpus.<br></div><div><br>For Language Modelling :<br></div><div>Transcriptions will be  included for sure. I am not aware of a raw text available in Malayalam. Is there a raw data avialble ??<br>

<br></div><div>Am I thinking right ??<br><br></div><div>Hoping a reply soon,<br></div><div>Karan Singla<br></div><div>LTRC, IIIT-Hyderabad<br></div></div>
<br>_______________________________________________<br>
Student-projects mailing list<br>
<a href="mailto:Student-projects@lists.smc.org.in">Student-projects@lists.smc.org.in</a><br>
<a href="http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in" target="_blank">http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br><div dir="ltr">Dr. Deepa P.Gopinath<br>Lecturer in Electronics and Communication<br>Department of  Electronics Engg.<br>College of Engineering Thiruvananthapuram<br>Kerala, India<br>
Mobile- +919446583466</div>
</div>