<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <div class="moz-text-html" lang="x-western"> Hello all,<br>
      I've just been able publish the semanticised version of Datuk's
      original ASCII Malayalam-Malayalam dictionary digitisation work.<br>
      => <a href="http://olam.in/open/datuk">http://olam.in/open/datuk</a><br>
      <br>
      "The Datuk Corpus" is a human readable, parse-ready, Unicode
      dictionary dataset with over 83,000 Malayalam words and over
      106,000 definitions. It's been in development for over two years.
      The dataset is an evolution of Datuk's original work, and has
      undergone extensive refinement, corrections, and structuring,
      amounting to tens of thousands of changes. The Github repository
      for the project contains the full text corpus, an SQL dump, and a
      couple Python scripts for parsing and conversion.<br>
      <br>
      This is the same dataset that powers Olam's Malayalam-Malayalam
      dictionary that went live two days ago. Also, Datuk's original
      work constitutes a substantial portion of the Malayalam
      Wiktionary.<br>
      <br>
      <br>
      Sample entries from the dataset:<br>
      <pre>ച        ചക്രാംഗി        സം. -അംഗീ   _   36953
        നാ. അരയന്നപ്പിട
        നാ. ചക്രവാകപ്പിട
        നാ. മഞ്ചട്ടി
        നാ. കക്കടകശൃംഗി</pre>
      <pre>പ        പരോക്ഷം        _       _       57697
        നാ. മറവ്
        നാ. പരോക്ഷജ്ഞാനം
        നാ. പ്രത്യക്ഷമല്ലാത്തത്</pre>
      <br>
      The dataset is licensed under the <a
        href="http://opendatacommons.org/licenses/odbl/">ODbL</a>,
      inspired by the Open Street Map project.<br>
      <br>
      Hope this is all useful.<br>
      <br>
      Thanks<br>
      <br>
      Kailash<br>
    </div>
  </body>
</html>