[smc-discuss] മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍ ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ

ഫെന്നെക് എന്ന കുറുക്കൻ. fennecfox at openmailbox.org
Tue Jun 14 00:54:53 PDT 2016


On 2016-06-14 12:53, Aboobacker MK wrote:
> മലയാളം വികിപീഡിയ ഡാറ്റ
> ഡമ്പ് ഉപയോഗിച്ച്
> നോക്കിയിരുന്നോ ?
> 
> 2016-06-14 12:29 GMT+05:30 ഫെന്നെക് എന്ന
> കുറുക്കൻ. <fennecfox at openmailbox.org>:
> 
>> ഹായ്, ഞാന്‍ ഒരു
>> പ്രൊജക്റ്റില്‍ വര്‍ക്ക്
>> ചെയ്യുകയാണ്. എനിക്ക്
>> നല്ലൊരു മലയാളം
>> ടെക്സ്റ്റ് കോര്‍പ്പസ്
>> വേണമായിരുന്നു. വിക്കി
>> മലയാളം ബുക്കുകള്‍ ഞാന്‍
>> നോക്കി, അതില്‍
>> ടെക്സ്റ്റ് ഫയല്‍
>> ഡൗണ്‍ലോഡ് ഉണ്ടെങ്കിലും
>> അതിലെ മലയാളം മിക്കവയും
>> പഴയ വാക്കുകള്‍ ആണ്.
>> ഇപ്പോഴുള്ള വാക്കുകളും
>> അവയുടെ പ്രയോഗങ്ങളും (
>> ലാങ്വേജ് മോഡല്‍ )
>> അതില്‍നിന്നു
>> മനസിലാക്കാന്‍
>> കഴിയുന്നില്ല. എനിക്ക്
>> തോന്നുന്നു, അങ്ങനെ ഒരു
>> കോര്‍പ്പസ് മലയാളത്തിന്
>> ആവശ്യമാണെന്ന്.
>> പത്രവാര്‍ത്തകളും, ബ്ളോഗ്
>> ഇന്‍ഡക്സിങ്ങും വഴി
>> നല്ലൊരു ടെക്സ്റ്റ്
>> കോര്‍പ്പസ് പബ്ലിക്ക്
>> ആക്കിയാല്‍ അത് മലയാളം
>> മെഷീന്‍ ലേണിങ്
>> പ്രൊജക്റ്റുകള്‍ക്ക്
>> വളരെ ഉപകാരപ്പെടും, എന്റെ
>> ക്ലാസില്‍ തന്നെ ഇപ്പോള്‍
>> കുട്ടികള്‍ മലയാളം
>> മെഷീന്‍ ലേണിങ്
>> പ്രൊജക്ടുകള്‍
>> ചെയ്യുന്നുണ്ട്.
>> എല്ലാവരുടേയും പരാതി
>> ഡാറ്റ ഇല്ലെന്നുള്ളതാണ്.
>> ഇപ്പോള്‍ എന്റെ സ്തിതിയും
>> അതു തന്നെ. എല്ലാവരും
>> ഒന്നു മനസുവച്ചാല്‍
>> ചിലപ്പോള്‍ അങ്ങനൊരു
>> കോര്‍പ്പസ് ഉണ്ടാക്കാന്‍
>> പറ്റിയേക്കും, നാം
>> ടൈപ്പുചെയ്യുന്ന
>> ടെക്സ്റ്റുകള് ഒരു
>> ടെക്ശ്റ്റ് ഫയല്‍ ആക്കി
>> ഒരിടത്ത് ഷെയര്‍
>> ചെയ്താല്‍ പോരേ? ( വിവിധ
>> കാറ്റഗറി ആക്കിയല്‍ അതും
>> നല്ലതു തന്നെ ) കൂടാതെ,
>> നിലവിലുള്ള ബ്ളോഗുകളെ
>> ഇന്റക്സ് ചെയ്താല്‍ ( ഒരു
>> ബ്യൂട്ടിഫുള്‍ സൂപ്പ്
>> പ്രയോഗം മതിയാകുമെന്നു
>> തോന്നുന്നു, പൈത്തണ്‍
>> വളരെ നന്നായി അറിയാവുന്ന
>> ആളുകള്‍ നമുക്കുണ്ട്. )
>> കുറേ ടെക്സ്റ്റ്
>> കിട്ടില്ലേ. പത്രക്കാര്‍
>> അവരുടെ ഡാറ്റ ഷെയര്‍
>> ചെയ്യുമോ എന്നറിയില്ല,
>> പക്ഷേ അവരാണ്, എനിക്ക്
>> തോന്നുന്നത് ഏറ്റവും
>> കൂടുതല്‍ ടെക്സ്റ്റ്
>> കൈകാര്യം
>> ചെയ്യുന്നതെന്ന്. ആദ്യം
>> ടെക്സ്റ്റില്‍ തുടങ്ങി
>> പിന്നീട് അത്
>> സ്പീച്ചിലേക്കും കൂടി
>> വ്യാപിപ്പിക്കാവുന്നതും
>> കൂടിയേ ഉള്ളൂ.. ( ഇനി ഇത്
>> എഴുതനുള്ള പ്രധാന കാര്യം
>> ഇതാണ്, ലഭ്യമായിട്ടുള്ള
>> കുറഞ്ഞ ഡാറ്റയില്‍
>> ട്രയിന്‍ ചെയ്ത്
>> കിട്ടുന്ന റിസള്ട്ട് വളരെ
>> മോശമാണ്, അത് ടൂള്‍സ്
>> ഇവാലുവേറ്റ്
>> ചെയ്യുന്നവരോട്
>> പറഞ്ഞിട്ട് കാര്യമില്ല, ആ
>> ഭയം ഒത്തിരി കഴിവുള്ള
>> കുട്ടികളെ മലയാളത്തില്‍
>> ഇതുപോലുള്ള
>> പ്രൊജക്റ്റുകള്‍
>> ചെയ്യുന്നതില്‍ നിന്നും
>> 
> പിന്‍തിരിപ്പിക്കുന്നുണ്ട്,
>> മലയാളത്തില്‍ വളരെ അധികം
>> ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍
>> ഡാറ്റ ഉണ്ടാവട്ടെ,
>> നിലവില്‍ ഉണ്ടെങ്കില്‍
>> ഒരു ഒറ്റയിടത്ത്
>> എല്ലാവര്‍ക്കും എളുപ്പം
>> ആക്സസിബിള്‍ ആകട്ടെ.. )
>> 
>> --
>> എന്ന്, ഫെന്നെക് എന്ന
>> കുറുക്കൻ.
>> _______________________________________________
>> Swathanthra Malayalam Computing discuss Mailing List
>> Project: https://savannah.nongnu.org/projects/smc [1]
>> Web: http://smc.org.in [2] | IRC : #smc-project @ freenode
>> discuss at lists.smc.org.in
>> http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in [3]
> 
> --
> 
> ABOOBACKER MK
> Software Engineer, Foradian
> w:www.aboobacker.in [4]
> 
> 
> 
> Links:
> ------
> [1] https://savannah.nongnu.org/projects/smc
> [2] http://smc.org.in
> [3] http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in
> [4] http://www.aboobacker.in/
> 
> _______________________________________________
> Swathanthra Malayalam Computing discuss Mailing List
> Project: https://savannah.nongnu.org/projects/smc
> Web: http://smc.org.in | IRC : #smc-project @ freenode
> discuss at lists.smc.org.in
> http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in

how to do that?

-- 
എന്ന്, ഫെന്നെക് എന്ന കുറുക്കൻ.



More information about the discuss mailing list