<div dir="ltr"><div><div><div><div><div><div>Hi sir,<br></div>Thank you for suggestions. I really appreciate the point b) regarding mapping phoneme set to graphemes as much annotated audio data is not available.<br></div><br>
</div>As per the remaining:<br></div>a)  There is a limited audio database available. To start with, we can use the sample set by LDC-IL (Linguistic Data Consortium for Indian Languages)(<a href="http://www.ldcil.org/resourcesSampleSpeechCorp.aspx">http://www.ldcil.org/resourcesSampleSpeechCorp.aspx</a>) and the annotated speech data available from Speech and Vision Lab of IIIT-H (<a href="http://speech.iiit.ac.in/index.php/research-svl/69.html">http://speech.iiit.ac.in/index.php/research-svl/69.html</a>). But I think some amount of speech recordings and manual transcription also gives strength to the project.<br>
<br></div>c) Another challenge that is to be faced is the lack of availability of vast text corpora in Malayalam that could be used for language modeling. My idea for compilation of data is to use data from wikipedia pages and reliable e news papers like Manorama (<a href="http://www.manoramaonline.com/cgi-bin/MMOnline.dll/portal/ep/home.do?tabId=0">http://www.manoramaonline.com/cgi-bin/MMOnline.dll/portal/ep/home.do?tabId=0</a>) and deshabhimani (<a href="http://www.deshabhimani.com/home.php">http://www.deshabhimani.com/home.php</a>) and also LDCIL dataset (<a href="http://www.ldcil.org/Corpora/text/Malayalam/MAL1.pdf">http://www.ldcil.org/Corpora/text/Malayalam/MAL1.pdf</a>).<br>
<br><br></div><div>Link for the updated proposal is :<br><br><a href="http://wiki.smc.org.in/User:Ragha">http://wiki.smc.org.in/User:Ragha</a><br><br></div><div>Feedback and suggestions are highly valued and appreciated.<br>
<br></div><div>Thank you<br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Mar 21, 2014 at 4:09 AM, Kartik A <span dir="ltr"><<a href="mailto:kartik.a9111@gmail.com" target="_blank">kartik.a9111@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Hi Khyati, <br><br>A few queries about your plan of action. Please correct me if I am wrong.<br> <br>a) Data Compilation :- For an acoustic model audio data is a very significant requirement. Do you have any plan in mind about which databases you can focus on? You mentioned about transcribing from the audio data. So if you plan to take audio data that is 4 hours long so will it be manually transcribed? I think there needs to be setting up of resources before one can even think of training the Sphinx model.<br>

<br>b) I guess huge amount of annotated audio data can not be gathered for Malayalam so one has to look into adaptive acoustic modelling for that you have to make a Grapheme to phoneme mapping, which should look like this:<br>

    മ ല യാ ളം   :  ma la ya La aM<br>and then map to the phone set Sphinx supports<br><br>c) Language Model : There are various straight forward approaches, and yeah I agree N-gram is still the best amongst them. But what about compiling data for Language Modelling like a large raw dataset for Malayalam. Is there any such available dataset except the transciptions of audio data? <br>

<br><div class="gmail_extra"><div><div class="h5"><br><br><div class="gmail_quote">On Fri, Mar 21, 2014 at 12:06 AM, Deepa P.Gopinath <span dir="ltr"><<a href="mailto:deepapgopinath@gmail.com" target="_blank">deepapgopinath@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div>Hello,<br><br></div>Time line is better now. End deliverable can be 'Language and acoustic model', itself I feel. A speech recognition system can be developed within the constraints of time.<br>


<br></div>regards<br></div><div><div><div class="gmail_extra"><br><br><div class="gmail_quote">On Thu, Mar 20, 2014 at 8:04 PM, Khyathi Chandu <span dir="ltr"><<a href="mailto:khyathiraghavi@gmail.com" target="_blank">khyathiraghavi@gmail.com</a>></span> wrote:<br>


<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div>Mam,<br><br></div>I have updated the project proposal based on your suggestions. I have mentioned the details of data compilation and modified the time frame. Here is the link:<br>


<br><a href="http://wiki.smc.org.in/User:Ragha" target="_blank">http://wiki.smc.org.in/User:Ragha</a><br>
<br></div>I am ready to dedicate any amount of time and include the intricacies to the best I can. Kindly expecting your feedback.<br><br></div>Thank you<br><div><div><br></div></div></div><div class="gmail_extra"><br><br>



<div class="gmail_quote"><div>On Thu, Mar 20, 2014 at 1:16 PM, Deepa P.Gopinath <span dir="ltr"><<a href="mailto:deepapgopinath@gmail.com" target="_blank">deepapgopinath@gmail.com</a>></span> wrote:<br></div>
<div><div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr"><div><div><div>Hello,<br><br></div>To develop language and acoustic model, we need to compile a sufficient data base. This you haven't considered in your proposal.<b> I feel you have to reframe your time line</b>. It seems to be a bit ambitious. After the project we should be able to contribute a good database and a language and acoustic model. <br>




<br></div>do contact after modifying your proposal<br><br></div>regards<br></div><div class="gmail_extra"><br><br><div class="gmail_quote"><div><div>On Wed, Mar 19, 2014 at 1:09 PM, Khyathi Chandu <span dir="ltr"><<a href="mailto:khyathiraghavi@gmail.com" target="_blank">khyathiraghavi@gmail.com</a>></span> wrote:<br>




</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div><div dir="ltr"><div><div><div>Hello,<br><br></div>This is the link of how I would like to proceed with the project.<br>




</div><div>I want to work on the project "Language model and Acoustic model for Malayalam language for speech recognition system in CMU Sphinx".<br>
</div><div><br><a href="http://wiki.smc.org.in/User:Ragha" target="_blank">http://wiki.smc.org.in/User:Ragha</a><br><br></div>It would be very helpful if someone could give feedback and give some suggestions.<br><br></div>




Thank you<br></div>
<br></div></div>_______________________________________________<br>
Student-projects mailing list<br>
<a href="mailto:Student-projects@lists.smc.org.in" target="_blank">Student-projects@lists.smc.org.in</a><br>
<a href="http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in" target="_blank">http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in</a><br>
<br></blockquote></div><span><font color="#888888"><br><br clear="all"><br>-- <br><div dir="ltr">Dr. Deepa P.Gopinath<br>Lecturer in Electronics and Communication<br>Department of  Electronics Engg.<br>College of Engineering Thiruvananthapuram<br>



Kerala, India<br>
Mobile- +919446583466</div>
</font></span></div>
<br>_______________________________________________<br>
Student-projects mailing list<br>
<a href="mailto:Student-projects@lists.smc.org.in" target="_blank">Student-projects@lists.smc.org.in</a><br>
<a href="http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in" target="_blank">http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in</a><br>
<br></blockquote></div></div></div><br></div>
<br>_______________________________________________<br>
Student-projects mailing list<br>
<a href="mailto:Student-projects@lists.smc.org.in" target="_blank">Student-projects@lists.smc.org.in</a><br>
<a href="http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in" target="_blank">http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br><div dir="ltr">Dr. Deepa P.Gopinath<br>Lecturer in Electronics and Communication<br>Department of  Electronics Engg.<br>College of Engineering Thiruvananthapuram<br>Kerala, India<br>


Mobile- +919446583466</div>
</div>
</div></div><br>_______________________________________________<br>
Student-projects mailing list<br>
<a href="mailto:Student-projects@lists.smc.org.in" target="_blank">Student-projects@lists.smc.org.in</a><br>
<a href="http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in" target="_blank">http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in</a><br>
<br></blockquote></div><br><br clear="all"><br>-- <br></div></div><div dir="ltr"><div><div><font face="georgia,serif">Thanks & Regards,<br>Kartik A.<br></font></div><font face="georgia,serif"></font></div></div>
</div></div>
<br>_______________________________________________<br>
Student-projects mailing list<br>
<a href="mailto:Student-projects@lists.smc.org.in">Student-projects@lists.smc.org.in</a><br>
<a href="http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in" target="_blank">http://lists.smc.org.in/listinfo.cgi/student-projects-smc.org.in</a><br>
<br></blockquote></div><br></div>