[smc-discuss] മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍ ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ

Aboobacker MK aboobackervyd at gmail.com
Tue Jun 14 00:23:32 PDT 2016


മലയാളം വികിപീഡിയ ഡാറ്റ ഡമ്പ് ഉപയോഗിച്ച് നോക്കിയിരുന്നോ ?

2016-06-14 12:29 GMT+05:30 ഫെന്നെക് എന്ന കുറുക്കൻ. <
fennecfox at openmailbox.org>:

> ഹായ്, ഞാന്‍ ഒരു പ്രൊജക്റ്റില്‍ വര്‍ക്ക് ചെയ്യുകയാണ്. എനിക്ക് നല്ലൊരു
> മലയാളം ടെക്സ്റ്റ് കോര്‍പ്പസ് വേണമായിരുന്നു. വിക്കി മലയാളം ബുക്കുകള്‍ ഞാന്‍
> നോക്കി, അതില്‍ ടെക്സ്റ്റ് ഫയല്‍ ഡൗണ്‍ലോഡ് ഉണ്ടെങ്കിലും അതിലെ മലയാളം
> മിക്കവയും പഴയ വാക്കുകള്‍ ആണ്. ഇപ്പോഴുള്ള വാക്കുകളും അവയുടെ പ്രയോഗങ്ങളും (
> ലാങ്വേജ് മോഡല്‍ ) അതില്‍നിന്നു മനസിലാക്കാന്‍ കഴിയുന്നില്ല. എനിക്ക്
> തോന്നുന്നു, അങ്ങനെ ഒരു കോര്‍പ്പസ് മലയാളത്തിന് ആവശ്യമാണെന്ന്.
> പത്രവാര്‍ത്തകളും, ബ്ളോഗ് ഇന്‍ഡക്സിങ്ങും വഴി നല്ലൊരു ടെക്സ്റ്റ് കോര്‍പ്പസ്
> പബ്ലിക്ക് ആക്കിയാല്‍ അത് മലയാളം മെഷീന്‍ ലേണിങ് പ്രൊജക്റ്റുകള്‍ക്ക് വളരെ
> ഉപകാരപ്പെടും, എന്റെ ക്ലാസില്‍ തന്നെ ഇപ്പോള്‍ കുട്ടികള്‍ മലയാളം മെഷീന്‍
> ലേണിങ് പ്രൊജക്ടുകള്‍ ചെയ്യുന്നുണ്ട്. എല്ലാവരുടേയും പരാതി ഡാറ്റ
> ഇല്ലെന്നുള്ളതാണ്. ഇപ്പോള്‍ എന്റെ സ്തിതിയും അതു തന്നെ. എല്ലാവരും ഒന്നു
> മനസുവച്ചാല്‍ ചിലപ്പോള്‍ അങ്ങനൊരു കോര്‍പ്പസ് ഉണ്ടാക്കാന്‍ പറ്റിയേക്കും, നാം
> ടൈപ്പുചെയ്യുന്ന ടെക്സ്റ്റുകള് ഒരു ടെക്ശ്റ്റ് ഫയല്‍ ആക്കി ഒരിടത്ത് ഷെയര്‍
> ചെയ്താല്‍ പോരേ? ( വിവിധ കാറ്റഗറി ആക്കിയല്‍ അതും നല്ലതു തന്നെ ) കൂടാതെ,
> നിലവിലുള്ള ബ്ളോഗുകളെ ഇന്റക്സ് ചെയ്താല്‍ ( ഒരു ബ്യൂട്ടിഫുള്‍ സൂപ്പ് പ്രയോഗം
> മതിയാകുമെന്നു തോന്നുന്നു,  പൈത്തണ്‍ വളരെ നന്നായി അറിയാവുന്ന ആളുകള്‍
> നമുക്കുണ്ട്. ) കുറേ ടെക്സ്റ്റ് കിട്ടില്ലേ. പത്രക്കാര്‍ അവരുടെ ഡാറ്റ ഷെയര്‍
> ചെയ്യുമോ എന്നറിയില്ല, പക്ഷേ അവരാണ്, എനിക്ക് തോന്നുന്നത് ഏറ്റവും കൂടുതല്‍
> ടെക്സ്റ്റ് കൈകാര്യം ചെയ്യുന്നതെന്ന്. ആദ്യം ടെക്സ്റ്റില്‍ തുടങ്ങി പിന്നീട്
> അത് സ്പീച്ചിലേക്കും കൂടി വ്യാപിപ്പിക്കാവുന്നതും കൂടിയേ ഉള്ളൂ.. ( ഇനി ഇത്
> എഴുതനുള്ള പ്രധാന കാര്യം ഇതാണ്, ലഭ്യമായിട്ടുള്ള കുറഞ്ഞ ഡാറ്റയില്‍ ട്രയിന്‍
> ചെയ്ത് കിട്ടുന്ന റിസള്ട്ട് വളരെ മോശമാണ്, അത് ടൂള്‍സ് ഇവാലുവേറ്റ്
> ചെയ്യുന്നവരോട് പറഞ്ഞിട്ട് കാര്യമില്ല, ആ ഭയം ഒത്തിരി കഴിവുള്ള കുട്ടികളെ
> മലയാളത്തില്‍ ഇതുപോലുള്ള പ്രൊജക്റ്റുകള്‍ ചെയ്യുന്നതില്‍ നിന്നും
> പിന്‍തിരിപ്പിക്കുന്നുണ്ട്, മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍
> ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും
> എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ.. )
>
> --
> എന്ന്, ഫെന്നെക് എന്ന കുറുക്കൻ.
> _______________________________________________
> Swathanthra Malayalam Computing discuss Mailing List
> Project: https://savannah.nongnu.org/projects/smc
> Web: http://smc.org.in | IRC : #smc-project @ freenode
> discuss at lists.smc.org.in
> http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in
>
>


-- 
*Aboobacker MK*
Software Engineer, Foradian
w:www.aboobacker.in
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.smc.org.in/pipermail/discuss-smc.org.in/attachments/20160614/23439b24/attachment.htm>


More information about the discuss mailing list