[smc-discuss] മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍ ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ

ഫെന്നെക് എന്ന കുറുക്കൻ. fennecfox at openmailbox.org
Mon Jun 13 23:59:27 PDT 2016


ഹായ്, ഞാന്‍ ഒരു പ്രൊജക്റ്റില്‍ വര്‍ക്ക് ചെയ്യുകയാണ്. എനിക്ക് നല്ലൊരു 
മലയാളം ടെക്സ്റ്റ് കോര്‍പ്പസ് വേണമായിരുന്നു. വിക്കി മലയാളം ബുക്കുകള്‍ 
ഞാന്‍ നോക്കി, അതില്‍ ടെക്സ്റ്റ് ഫയല്‍ ഡൗണ്‍ലോഡ് ഉണ്ടെങ്കിലും അതിലെ 
മലയാളം മിക്കവയും പഴയ വാക്കുകള്‍ ആണ്. ഇപ്പോഴുള്ള വാക്കുകളും അവയുടെ 
പ്രയോഗങ്ങളും ( ലാങ്വേജ് മോഡല്‍ ) അതില്‍നിന്നു മനസിലാക്കാന്‍ 
കഴിയുന്നില്ല. എനിക്ക് തോന്നുന്നു, അങ്ങനെ ഒരു കോര്‍പ്പസ് മലയാളത്തിന് 
ആവശ്യമാണെന്ന്. പത്രവാര്‍ത്തകളും, ബ്ളോഗ് ഇന്‍ഡക്സിങ്ങും വഴി നല്ലൊരു 
ടെക്സ്റ്റ് കോര്‍പ്പസ് പബ്ലിക്ക് ആക്കിയാല്‍ അത് മലയാളം മെഷീന്‍ ലേണിങ് 
പ്രൊജക്റ്റുകള്‍ക്ക് വളരെ ഉപകാരപ്പെടും, എന്റെ ക്ലാസില്‍ തന്നെ ഇപ്പോള്‍ 
കുട്ടികള്‍ മലയാളം മെഷീന്‍ ലേണിങ് പ്രൊജക്ടുകള്‍ ചെയ്യുന്നുണ്ട്. 
എല്ലാവരുടേയും പരാതി ഡാറ്റ ഇല്ലെന്നുള്ളതാണ്. ഇപ്പോള്‍ എന്റെ സ്തിതിയും അതു 
തന്നെ. എല്ലാവരും ഒന്നു മനസുവച്ചാല്‍ ചിലപ്പോള്‍ അങ്ങനൊരു കോര്‍പ്പസ് 
ഉണ്ടാക്കാന്‍ പറ്റിയേക്കും, നാം ടൈപ്പുചെയ്യുന്ന ടെക്സ്റ്റുകള് ഒരു 
ടെക്ശ്റ്റ് ഫയല്‍ ആക്കി ഒരിടത്ത് ഷെയര്‍ ചെയ്താല്‍ പോരേ? ( വിവിധ കാറ്റഗറി 
ആക്കിയല്‍ അതും നല്ലതു തന്നെ ) കൂടാതെ, നിലവിലുള്ള ബ്ളോഗുകളെ ഇന്റക്സ് 
ചെയ്താല്‍ ( ഒരു ബ്യൂട്ടിഫുള്‍ സൂപ്പ് പ്രയോഗം മതിയാകുമെന്നു തോന്നുന്നു,  
പൈത്തണ്‍ വളരെ നന്നായി അറിയാവുന്ന ആളുകള്‍ നമുക്കുണ്ട്. ) കുറേ ടെക്സ്റ്റ് 
കിട്ടില്ലേ. പത്രക്കാര്‍ അവരുടെ ഡാറ്റ ഷെയര്‍ ചെയ്യുമോ എന്നറിയില്ല, പക്ഷേ 
അവരാണ്, എനിക്ക് തോന്നുന്നത് ഏറ്റവും കൂടുതല്‍ ടെക്സ്റ്റ് കൈകാര്യം 
ചെയ്യുന്നതെന്ന്. ആദ്യം ടെക്സ്റ്റില്‍ തുടങ്ങി പിന്നീട് അത് 
സ്പീച്ചിലേക്കും കൂടി വ്യാപിപ്പിക്കാവുന്നതും കൂടിയേ ഉള്ളൂ.. ( ഇനി ഇത് 
എഴുതനുള്ള പ്രധാന കാര്യം ഇതാണ്, ലഭ്യമായിട്ടുള്ള കുറഞ്ഞ ഡാറ്റയില്‍ 
ട്രയിന്‍ ചെയ്ത് കിട്ടുന്ന റിസള്ട്ട് വളരെ മോശമാണ്, അത് ടൂള്‍സ് 
ഇവാലുവേറ്റ് ചെയ്യുന്നവരോട് പറഞ്ഞിട്ട് കാര്യമില്ല, ആ ഭയം ഒത്തിരി കഴിവുള്ള 
കുട്ടികളെ മലയാളത്തില്‍ ഇതുപോലുള്ള പ്രൊജക്റ്റുകള്‍ ചെയ്യുന്നതില്‍ നിന്നും 
പിന്‍തിരിപ്പിക്കുന്നുണ്ട്, മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍ 
ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും 
എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ.. )

-- 
എന്ന്, ഫെന്നെക് എന്ന കുറുക്കൻ.



More information about the discuss mailing list