[smc-discuss] മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍ ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ

Balasankar C balasankarc at autistici.org
Tue Jun 14 01:07:36 PDT 2016


2016, ജൂൺ 14 12:29 PM ന്, ഫെന്നെക് എന്ന കുറുക്കൻ. <fennecfox at openmailbox.org
> എഴുതി:

> ഹായ്, ഞാന്‍ ഒരു പ്രൊജക്റ്റില്‍ വര്‍ക്ക് ചെയ്യുകയാണ്. എനിക്ക് നല്ലൊരു
> മലയാളം ടെക്സ്റ്റ് കോര്‍പ്പസ് വേണമായിരുന്നു. വിക്കി മലയാളം ബുക്കുകള്‍ ഞാന്‍
> നോക്കി, അതില്‍ ടെക്സ്റ്റ് ഫയല്‍ ഡൗണ്‍ലോഡ് ഉണ്ടെങ്കിലും അതിലെ മലയാളം
> മിക്കവയും പഴയ വാക്കുകള്‍ ആണ്. ഇപ്പോഴുള്ള വാക്കുകളും അവയുടെ പ്രയോഗങ്ങളും (
> ലാങ്വേജ് മോഡല്‍ ) അതില്‍നിന്നു മനസിലാക്കാന്‍ കഴിയുന്നില്ല. എനിക്ക്
> തോന്നുന്നു, അങ്ങനെ ഒരു കോര്‍പ്പസ് മലയാളത്തിന് ആവശ്യമാണെന്ന്.
> പത്രവാര്‍ത്തകളും, ബ്ളോഗ് ഇന്‍ഡക്സിങ്ങും വഴി നല്ലൊരു ടെക്സ്റ്റ് കോര്‍പ്പസ്
> പബ്ലിക്ക് ആക്കിയാല്‍ അത് മലയാളം മെഷീന്‍ ലേണിങ് പ്രൊജക്റ്റുകള്‍ക്ക് വളരെ
> ഉപകാരപ്പെടും, എന്റെ ക്ലാസില്‍ തന്നെ ഇപ്പോള്‍ കുട്ടികള്‍ മലയാളം മെഷീന്‍
> ലേണിങ് പ്രൊജക്ടുകള്‍ ചെയ്യുന്നുണ്ട്. എല്ലാവരുടേയും പരാതി ഡാറ്റ
> ഇല്ലെന്നുള്ളതാണ്. ഇപ്പോള്‍ എന്റെ സ്തിതിയും അതു തന്നെ. എല്ലാവരും ഒന്നു
> മനസുവച്ചാല്‍ ചിലപ്പോള്‍ അങ്ങനൊരു കോര്‍പ്പസ് ഉണ്ടാക്കാന്‍ പറ്റിയേക്കും, നാം
> ടൈപ്പുചെയ്യുന്ന ടെക്സ്റ്റുകള് ഒരു ടെക്ശ്റ്റ് ഫയല്‍ ആക്കി ഒരിടത്ത് ഷെയര്‍
> ചെയ്താല്‍ പോരേ? ( വിവിധ കാറ്റഗറി ആക്കിയല്‍ അതും നല്ലതു തന്നെ ) കൂടാതെ,
> നിലവിലുള്ള ബ്ളോഗുകളെ ഇന്റക്സ് ചെയ്താല്‍ ( ഒരു ബ്യൂട്ടിഫുള്‍ സൂപ്പ് പ്രയോഗം
> മതിയാകുമെന്നു തോന്നുന്നു,  പൈത്തണ്‍ വളരെ നന്നായി അറിയാവുന്ന ആളുകള്‍
> നമുക്കുണ്ട്. ) കുറേ ടെക്സ്റ്റ് കിട്ടില്ലേ. പത്രക്കാര്‍ അവരുടെ ഡാറ്റ ഷെയര്‍
> ചെയ്യുമോ എന്നറിയില്ല, പക്ഷേ അവരാണ്, എനിക്ക് തോന്നുന്നത് ഏറ്റവും കൂടുതല്‍
> ടെക്സ്റ്റ് കൈകാര്യം ചെയ്യുന്നതെന്ന്. ആദ്യം ടെക്സ്റ്റില്‍ തുടങ്ങി പിന്നീട്
> അത് സ്പീച്ചിലേക്കും കൂടി വ്യാപിപ്പിക്കാവുന്നതും കൂടിയേ ഉള്ളൂ.. ( ഇനി ഇത്
> എഴുതനുള്ള പ്രധാന കാര്യം ഇതാണ്, ലഭ്യമായിട്ടുള്ള കുറഞ്ഞ ഡാറ്റയില്‍ ട്രയിന്‍
> ചെയ്ത് കിട്ടുന്ന റിസള്ട്ട് വളരെ മോശമാണ്, അത് ടൂള്‍സ് ഇവാലുവേറ്റ്
> ചെയ്യുന്നവരോട് പറഞ്ഞിട്ട് കാര്യമില്ല, ആ ഭയം ഒത്തിരി കഴിവുള്ള കുട്ടികളെ
> മലയാളത്തില്‍ ഇതുപോലുള്ള പ്രൊജക്റ്റുകള്‍ ചെയ്യുന്നതില്‍ നിന്നും
> പിന്‍തിരിപ്പിക്കുന്നുണ്ട്, മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍
> ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും
> എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ.. )



ടെക്സ്റ്റ് എക്സ്ട്രാക്ഷൻ അത്ര പണിയില്ല. വിക്കി ഡമ്പ്, ഓൺലൈൻ ന്യൂസ്
പോർട്ടലുകൾ, ബ്ലോഗുകൾ ഇങ്ങനെ സോഴ്സ് കുറച്ചധികം ഉണ്ട്. അതിനെ തരം തിരിക്കലാണു്
പണി. There is a necessity of different category of corpora - Root words,
inflected forms, agglutinated forms, categorization based on PoS etc.

We have to formulate a model for the processing of the extracted data. That
is where the work lies.
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.smc.org.in/pipermail/discuss-smc.org.in/attachments/20160614/001f115a/attachment-0001.html>


More information about the discuss mailing list