<div dir="ltr"><br><div class="gmail_extra"><br><br><div class="gmail_quote">On Wed, May 22, 2013 at 11:29 AM, Kailash Nadh <span dir="ltr"><<a href="mailto:kailash.nadh@gmail.com" target="_blank">kailash.nadh@gmail.com</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
  

    
  
  <div text="#000000" bgcolor="#FFFFFF">
    <div lang="x-western"> Hello all,<br>
      I've just been able publish the semanticised version of Datuk's
      original ASCII Malayalam-Malayalam dictionary digitisation work.<br>
      => <a href="http://olam.in/open/datuk" target="_blank">http://olam.in/open/datuk</a><br>
      <br>
      "The Datuk Corpus" is a human readable, parse-ready, Unicode
      dictionary dataset with over 83,000 Malayalam words and over
      106,000 definitions. It's been in development for over two years.
      The dataset is an evolution of Datuk's original work, and has
      undergone extensive refinement, corrections, and structuring,
      amounting to tens of thousands of changes. The Github repository
      for the project contains the full text corpus, an SQL dump, and a
      couple Python scripts for parsing and conversion.<br>
      <br>
      This is the same dataset that powers Olam's Malayalam-Malayalam
      dictionary that went live two days ago. Also, Datuk's original
      work constitutes a substantial portion of the Malayalam
      Wiktionary.<br>
      <br>
      <br>
      Sample entries from the dataset:<br>
      <pre>ച    ചക്രാംഗി        സം. -അംഗീ   _   36953
        നാ. അരയന്നപ്പിട
        നാ. ചക്രവാകപ്പിട
        നാ. മഞ്ചട്ടി
        നാ. കക്കടകശൃംഗി</pre>
      <pre>പ    പരോക്ഷം        _       _       57697
        നാ. മറവ്
        നാ. പരോക്ഷജ്ഞാനം
        നാ. പ്രത്യക്ഷമല്ലാത്തത്</pre>
      <br>
      The dataset is licensed under the <a href="http://opendatacommons.org/licenses/odbl/" target="_blank">ODbL</a>,
      inspired by the Open Street Map project.<br>
      <br>
      Hope this is all useful.<br>
      <br>
      Thanks<span class=""><font color="#888888"></font></span></div></div></blockquote><div><br></div><div>Great Work Kailash:-) . This is indeed a great release . When Public funded projects are wasting money in creating unreleased datasets (like this <a href="http://tools.malayalam.kerala.gov.in/">http://tools.malayalam.kerala.gov.in/</a>) , It is very heartening to see this structured dataset release.  Hope you will periodically update the release with new contributions. <br>

<br></div><div>Now we need people for dictd packaging and integrating this with Silpa's Jabberbot <br></div><div><br></div><div>BTW Just thinking about another project . Can anybody extend Artha(<a href="http://artha.sourceforge.net/wiki/index.php/Artha:About">http://artha.sourceforge.net/wiki/index.php/Artha:About</a>), the best gTK thesaurus application to support dictd format ? As of now it only supports wordnet and there is no wordnet for malayalam<br>

<br></div><div><br></div><div> ~ Regards<br></div><div>Anivar<br></div></div></div></div>