<div dir="ltr">Thanks Kailash.. That is a great news,<br></div><div class="gmail_extra"><br clear="all"><div><div dir="ltr">Regards,<br>Balasankar C<br><br></div></div>
<br><br><div class="gmail_quote">2013/5/22 Kailash Nadh <span dir="ltr"><<a href="mailto:kailash.nadh@gmail.com" target="_blank">kailash.nadh@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


  

    
  
  <div text="#000000" bgcolor="#FFFFFF">
    <div lang="x-western"> Hello all,<br>
      I've just been able publish the semanticised version of Datuk's
      original ASCII Malayalam-Malayalam dictionary digitisation work.<br>
      => <a href="http://olam.in/open/datuk" target="_blank">http://olam.in/open/datuk</a><br>
      <br>
      "The Datuk Corpus" is a human readable, parse-ready, Unicode
      dictionary dataset with over 83,000 Malayalam words and over
      106,000 definitions. It's been in development for over two years.
      The dataset is an evolution of Datuk's original work, and has
      undergone extensive refinement, corrections, and structuring,
      amounting to tens of thousands of changes. The Github repository
      for the project contains the full text corpus, an SQL dump, and a
      couple Python scripts for parsing and conversion.<br>
      <br>
      This is the same dataset that powers Olam's Malayalam-Malayalam
      dictionary that went live two days ago. Also, Datuk's original
      work constitutes a substantial portion of the Malayalam
      Wiktionary.<br>
      <br>
      <br>
      Sample entries from the dataset:<br>
      <pre>ച    ചക്രാംഗി        സം. -അംഗീ   _   36953
        നാ. അരയന്നപ്പിട
        നാ. ചക്രവാകപ്പിട
        നാ. മഞ്ചട്ടി
        നാ. കക്കടകശൃംഗി</pre>
      <pre>പ    പരോക്ഷം        _       _       57697
        നാ. മറവ്
        നാ. പരോക്ഷജ്ഞാനം
        നാ. പ്രത്യക്ഷമല്ലാത്തത്</pre>
      <br>
      The dataset is licensed under the <a href="http://opendatacommons.org/licenses/odbl/" target="_blank">ODbL</a>,
      inspired by the Open Street Map project.<br>
      <br>
      Hope this is all useful.<br>
      <br>
      Thanks<span class="HOEnZb"><font color="#888888"><br>
      <br>
      Kailash<br>
    </font></span></div>
  </div>

<br>_______________________________________________<br>
Swathanthra Malayalam Computing discuss Mailing List<br>
Project: <a href="https://savannah.nongnu.org/projects/smc" target="_blank">https://savannah.nongnu.org/projects/smc</a><br>
Web: <a href="http://smc.org.in" target="_blank">http://smc.org.in</a> | IRC : #smc-project @ freenode<br>
<a href="mailto:discuss@lists.smc.org.in">discuss@lists.smc.org.in</a><br>
<a href="http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in" target="_blank">http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in</a><br>
<br>
<br></blockquote></div><br></div>