<div dir="ltr"><br><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, May 22, 2013 at 7:43 AM, Manilal K M <span dir="ltr"><<a href="mailto:libregeek@gmail.com" target="_blank">libregeek@gmail.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr"><div class="gmail_quote"><div><table cellpadding="0" cellspacing="0">
<tbody><tr><td></td></tr></tbody></table></div><br>---------- Forwarded message ----------<br>From: Kailash Nadh <<a href="mailto:kailash.nadh@gmail.com" target="_blank">kailash.nadh@gmail.com</a>><br>
To: <a href="mailto:smc-discuss@googlegroups.com" target="_blank">smc-discuss@googlegroups.com</a><br>Cc: <br>Date: Wed, 22 May 2013 10:18:16 +0530<br>Subject: Free and open Malayalam dictionary dataset<br>
  
    
  
  <div text="#000000" bgcolor="#FFFFFF">
    Hello all,<br>
    I've just been able publish the semanticised version of Datuk's
    original ASCII Malayalam-Malayalam dictionary digitisation work.<br>
    => <a href="http://olam.in/open/datuk" target="_blank">http://olam.in/open/datuk</a><br>
    <br></div></div></div></blockquote><div><br></div><div style>Great work!</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<div dir="ltr"><div class="gmail_quote"><div text="#000000" bgcolor="#FFFFFF">
    "The Datuk Corpus" is a human readable, parse-ready, Unicode
    dictionary dataset with over 83,000 Malayalam words and over 106,000
    definitions. It's been in development for over two years. The
    dataset is an evolution of Datuk's original work, and has undergone
    extensive refinement, corrections, and structuring, amounting to
    tens of thousands of changes. The Github repository for the project
    contains the full text corpus, an SQL dump, and a couple Python
    scripts for parsing and conversion.<br>
    <br>
    This is the same dataset that powers Olam's Malayalam-Malayalam
    dictionary that went live two days ago. Also, Datuk's original work
    constitutes a substantial portion of the Malayalam Wiktionary.<br>
    <br>
    <br>
    Sample entries from the dataset:<br>
    <pre>ച      ചക്രാംഗി        സം. -അംഗീ   _   36953
        നാ. അരയന്നപ്പിട
        നാ. ചക്രവാകപ്പിട
        നാ. മഞ്ചട്ടി
        നാ. കക്കടകശൃംഗി</pre>
    <pre>പ      പരോക്ഷം        _       _       57697
        നാ. മറവ്
        നാ. പരോക്ഷജ്ഞാനം
        നാ. പ്രത്യക്ഷമല്ലാത്തത്</pre>
    <br></div></div></div></blockquote><div><br></div><div style>The dataset looks very convenient to convert to RFC2229 format used by dictd. If anyone is interested to create an offline version of it, see <a href="http://wiki.smc.org.in/Dictionary">http://wiki.smc.org.in/Dictionary</a> and contact me for help.</div>
<div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div dir="ltr"><div class="gmail_quote"><div text="#000000" bgcolor="#FFFFFF">

    The dataset is licensed under the <a href="http://opendatacommons.org/licenses/odbl/" target="_blank">ODbL</a>,
    inspired by the Open Street Map project.<br>
    <br>
    Hope this is all useful.<br>
    <br>
    Thanks<br>
    <br>
    Kailash<span class=""><font color="#888888"><br>
  </font></span></div><span class=""><font color="#888888">

<br></font></span></div><span class=""><font color="#888888"><br><br></font></span></div></blockquote></div><br><br clear="all"><div><br></div>-- <br>Cheers,<br>Rajeesh<br><a href="http://rajeeshknambiar.wordpress.com">http://rajeeshknambiar.wordpress.com</a><br>
<br>
</div></div>