<div dir="ltr">മലയാളം വികിപീഡിയ ഡാറ്റ ഡമ്പ് ഉപയോഗിച്ച് നോക്കിയിരുന്നോ ?<br></div><div class="gmail_extra"><br><div class="gmail_quote">2016-06-14 12:29 GMT+05:30 ഫെന്നെക് എന്ന കുറുക്കൻ. <span dir="ltr"><<a href="mailto:fennecfox@openmailbox.org" target="_blank">fennecfox@openmailbox.org</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">ഹായ്, ഞാന്‍ ഒരു പ്രൊജക്റ്റില്‍ വര്‍ക്ക് ചെയ്യുകയാണ്. എനിക്ക് നല്ലൊരു മലയാളം ടെക്സ്റ്റ് കോര്‍പ്പസ് വേണമായിരുന്നു. വിക്കി മലയാളം ബുക്കുകള്‍ ഞാന്‍ നോക്കി, അതില്‍ ടെക്സ്റ്റ് ഫയല്‍ ഡൗണ്‍ലോഡ് ഉണ്ടെങ്കിലും അതിലെ മലയാളം മിക്കവയും പഴയ വാക്കുകള്‍ ആണ്. ഇപ്പോഴുള്ള വാക്കുകളും അവയുടെ പ്രയോഗങ്ങളും ( ലാങ്വേജ് മോഡല്‍ ) അതില്‍നിന്നു മനസിലാക്കാന്‍ കഴിയുന്നില്ല. എനിക്ക് തോന്നുന്നു, അങ്ങനെ ഒരു കോര്‍പ്പസ് മലയാളത്തിന് ആവശ്യമാണെന്ന്. പത്രവാര്‍ത്തകളും, ബ്ളോഗ് ഇന്‍ഡക്സിങ്ങും വഴി നല്ലൊരു ടെക്സ്റ്റ് കോര്‍പ്പസ് പബ്ലിക്ക് ആക്കിയാല്‍ അത് മലയാളം മെഷീന്‍ ലേണിങ് പ്രൊജക്റ്റുകള്‍ക്ക് വളരെ ഉപകാരപ്പെടും, എന്റെ ക്ലാസില്‍ തന്നെ ഇപ്പോള്‍ കുട്ടികള്‍ മലയാളം മെഷീന്‍ ലേണിങ് പ്രൊജക്ടുകള്‍ ചെയ്യുന്നുണ്ട്. എല്ലാവരുടേയും പരാതി ഡാറ്റ ഇല്ലെന്നുള്ളതാണ്. ഇപ്പോള്‍ എന്റെ സ്തിതിയും അതു തന്നെ. എല്ലാവരും ഒന്നു മനസുവച്ചാല്‍ ചിലപ്പോള്‍ അങ്ങനൊരു കോര്‍പ്പസ് ഉണ്ടാക്കാന്‍ പറ്റിയേക്കും, നാം ടൈപ്പുചെയ്യുന്ന ടെക്സ്റ്റുകള് ഒരു ടെക്ശ്റ്റ് ഫയല്‍ ആക്കി ഒരിടത്ത് ഷെയര്‍ ചെയ്താല്‍ പോരേ? ( വിവിധ കാറ്റഗറി ആക്കിയല്‍ അതും നല്ലതു തന്നെ ) കൂടാതെ, നിലവിലുള്ള ബ്ളോഗുകളെ ഇന്റക്സ് ചെയ്താല്‍ ( ഒരു ബ്യൂട്ടിഫുള്‍ സൂപ്പ് പ്രയോഗം മതിയാകുമെന്നു തോന്നുന്നു,  പൈത്തണ്‍ വളരെ നന്നായി അറിയാവുന്ന ആളുകള്‍ നമുക്കുണ്ട്. ) കുറേ ടെക്സ്റ്റ് കിട്ടില്ലേ. പത്രക്കാര്‍ അവരുടെ ഡാറ്റ ഷെയര്‍ ചെയ്യുമോ എന്നറിയില്ല, പക്ഷേ അവരാണ്, എനിക്ക് തോന്നുന്നത് ഏറ്റവും കൂടുതല്‍ ടെക്സ്റ്റ് കൈകാര്യം ചെയ്യുന്നതെന്ന്. ആദ്യം ടെക്സ്റ്റില്‍ തുടങ്ങി പിന്നീട് അത് സ്പീച്ചിലേക്കും കൂടി വ്യാപിപ്പിക്കാവുന്നതും കൂടിയേ ഉള്ളൂ.. ( ഇനി ഇത് എഴുതനുള്ള പ്രധാന കാര്യം ഇതാണ്, ലഭ്യമായിട്ടുള്ള കുറഞ്ഞ ഡാറ്റയില്‍ ട്രയിന്‍ ചെയ്ത് കിട്ടുന്ന റിസള്ട്ട് വളരെ മോശമാണ്, അത് ടൂള്‍സ് ഇവാലുവേറ്റ് ചെയ്യുന്നവരോട് പറഞ്ഞിട്ട് കാര്യമില്ല, ആ ഭയം ഒത്തിരി കഴിവുള്ള കുട്ടികളെ മലയാളത്തില്‍ ഇതുപോലുള്ള പ്രൊജക്റ്റുകള്‍ ചെയ്യുന്നതില്‍ നിന്നും പിന്‍തിരിപ്പിക്കുന്നുണ്ട്, മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍ ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ.. )<span class="HOEnZb"><font color="#888888"><br>
<br>
-- <br>
എന്ന്, ഫെന്നെക് എന്ന കുറുക്കൻ.<br>
_______________________________________________<br>
Swathanthra Malayalam Computing discuss Mailing List<br>
Project: <a href="https://savannah.nongnu.org/projects/smc" rel="noreferrer" target="_blank">https://savannah.nongnu.org/projects/smc</a><br>
Web: <a href="http://smc.org.in" rel="noreferrer" target="_blank">http://smc.org.in</a> | IRC : #smc-project @ freenode<br>
<a href="mailto:discuss@lists.smc.org.in" target="_blank">discuss@lists.smc.org.in</a><br>
<a href="http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in" rel="noreferrer" target="_blank">http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in</a><br>
<br>
</font></span></blockquote></div><br><br clear="all"><br>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div style="text-align:left"><div style="color:rgb(0,0,0);font-family:Helvetica,Arial,sans-serif;font-size:medium;max-width:470px"><table border="0" cellspacing="0" cellpadding="0" width="470" style="width:470px"><tbody><tr valign="top"><td style="font-family:Arial;font-size:14px;color:rgb(100,100,100);padding-left:10px"><div style="text-transform:capitalize"><b>Aboobacker MK</b><br>Software Engineer, Foradian</div><div style="color:rgb(141,141,141);font-size:13px;padding:5px 0px"><span style="white-space:nowrap;display:inline-block"><span style="color:rgb(69,102,142)">w:</span><a href="http://www.aboobacker.in/" style="color:rgb(141,141,141);outline:none;text-decoration:none" target="_blank">www.aboobacker.in</a></span></div></td></tr></tbody></table></div><div style="color:rgb(0,0,0);font-family:Helvetica,Arial,sans-serif;font-size:medium;margin-top:8px"></div></div></div></div></div></div>
</div>