<div dir="ltr"><div class="gmail_extra"><br><div class="gmail_quote">2016, ജൂൺ 14 12:29 PM ന്, ഫെന്നെക് എന്ന കുറുക്കൻ. <span dir="ltr"><<a href="mailto:fennecfox@openmailbox.org" target="_blank">fennecfox@openmailbox.org</a>></span> എഴുതി:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">ഹായ്, ഞാന്‍ ഒരു പ്രൊജക്റ്റില്‍ വര്‍ക്ക് ചെയ്യുകയാണ്. എനിക്ക് നല്ലൊരു മലയാളം ടെക്സ്റ്റ് കോര്‍പ്പസ് വേണമായിരുന്നു. വിക്കി മലയാളം ബുക്കുകള്‍ ഞാന്‍ നോക്കി, അതില്‍ ടെക്സ്റ്റ് ഫയല്‍ ഡൗണ്‍ലോഡ് ഉണ്ടെങ്കിലും അതിലെ മലയാളം മിക്കവയും പഴയ വാക്കുകള്‍ ആണ്. ഇപ്പോഴുള്ള വാക്കുകളും അവയുടെ പ്രയോഗങ്ങളും ( ലാങ്വേജ് മോഡല്‍ ) അതില്‍നിന്നു മനസിലാക്കാന്‍ കഴിയുന്നില്ല. എനിക്ക് തോന്നുന്നു, അങ്ങനെ ഒരു കോര്‍പ്പസ് മലയാളത്തിന് ആവശ്യമാണെന്ന്. പത്രവാര്‍ത്തകളും, ബ്ളോഗ് ഇന്‍ഡക്സിങ്ങും വഴി നല്ലൊരു ടെക്സ്റ്റ് കോര്‍പ്പസ് പബ്ലിക്ക് ആക്കിയാല്‍ അത് മലയാളം മെഷീന്‍ ലേണിങ് പ്രൊജക്റ്റുകള്‍ക്ക് വളരെ ഉപകാരപ്പെടും, എന്റെ ക്ലാസില്‍ തന്നെ ഇപ്പോള്‍ കുട്ടികള്‍ മലയാളം മെഷീന്‍ ലേണിങ് പ്രൊജക്ടുകള്‍ ചെയ്യുന്നുണ്ട്. എല്ലാവരുടേയും പരാതി ഡാറ്റ ഇല്ലെന്നുള്ളതാണ്. ഇപ്പോള്‍ എന്റെ സ്തിതിയും അതു തന്നെ. എല്ലാവരും ഒന്നു മനസുവച്ചാല്‍ ചിലപ്പോള്‍ അങ്ങനൊരു കോര്‍പ്പസ് ഉണ്ടാക്കാന്‍ പറ്റിയേക്കും, നാം ടൈപ്പുചെയ്യുന്ന ടെക്സ്റ്റുകള് ഒരു ടെക്ശ്റ്റ് ഫയല്‍ ആക്കി ഒരിടത്ത് ഷെയര്‍ ചെയ്താല്‍ പോരേ? ( വിവിധ കാറ്റഗറി ആക്കിയല്‍ അതും നല്ലതു തന്നെ ) കൂടാതെ, നിലവിലുള്ള ബ്ളോഗുകളെ ഇന്റക്സ് ചെയ്താല്‍ ( ഒരു ബ്യൂട്ടിഫുള്‍ സൂപ്പ് പ്രയോഗം മതിയാകുമെന്നു തോന്നുന്നു,  പൈത്തണ്‍ വളരെ നന്നായി അറിയാവുന്ന ആളുകള്‍ നമുക്കുണ്ട്. ) കുറേ ടെക്സ്റ്റ് കിട്ടില്ലേ. പത്രക്കാര്‍ അവരുടെ ഡാറ്റ ഷെയര്‍ ചെയ്യുമോ എന്നറിയില്ല, പക്ഷേ അവരാണ്, എനിക്ക് തോന്നുന്നത് ഏറ്റവും കൂടുതല്‍ ടെക്സ്റ്റ് കൈകാര്യം ചെയ്യുന്നതെന്ന്. ആദ്യം ടെക്സ്റ്റില്‍ തുടങ്ങി പിന്നീട് അത് സ്പീച്ചിലേക്കും കൂടി വ്യാപിപ്പിക്കാവുന്നതും കൂടിയേ ഉള്ളൂ.. ( ഇനി ഇത് എഴുതനുള്ള പ്രധാന കാര്യം ഇതാണ്, ലഭ്യമായിട്ടുള്ള കുറഞ്ഞ ഡാറ്റയില്‍ ട്രയിന്‍ ചെയ്ത് കിട്ടുന്ന റിസള്ട്ട് വളരെ മോശമാണ്, അത് ടൂള്‍സ് ഇവാലുവേറ്റ് ചെയ്യുന്നവരോട് പറഞ്ഞിട്ട് കാര്യമില്ല, ആ ഭയം ഒത്തിരി കഴിവുള്ള കുട്ടികളെ മലയാളത്തില്‍ ഇതുപോലുള്ള പ്രൊജക്റ്റുകള്‍ ചെയ്യുന്നതില്‍ നിന്നും പിന്‍തിരിപ്പിക്കുന്നുണ്ട്, മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍ ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ.. )</blockquote></div><br></div><div class="gmail_extra"><br>ടെക്സ്റ്റ് എക്സ്ട്രാക്ഷൻ അത്ര പണിയില്ല. വിക്കി ഡമ്പ്, ഓൺലൈൻ ന്യൂസ് പോർട്ടലുകൾ, ബ്ലോഗുകൾ ഇങ്ങനെ സോഴ്സ് കുറച്ചധികം ഉണ്ട്. അതിനെ തരം തിരിക്കലാണു് പണി. There is a necessity of different category of corpora - Root words, inflected forms, agglutinated forms, categorization based on PoS etc.<br><br></div><div class="gmail_extra">We have to formulate a model for the processing of the extracted data. That is where the work lies.<br></div></div>