[smc-discuss] മലയാളത്തില് വളരെ അധികം ഫോര്മാറ്റഡ് ഓപ്പണ് ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില് ഉണ്ടെങ്കില് ഒരു ഒറ്റയിടത്ത് എല്ലാവര്ക്കും എളുപ്പം ആക്സസിബിള് ആകട്ടെ
ഫെന്നെക് എന്ന കുറുക്കൻ.
fennecfox at openmailbox.org
Tue Jun 14 00:54:53 PDT 2016
On 2016-06-14 12:53, Aboobacker MK wrote:
> മലയാളം വികിപീഡിയ ഡാറ്റ
> ഡമ്പ് ഉപയോഗിച്ച്
> നോക്കിയിരുന്നോ ?
>
> 2016-06-14 12:29 GMT+05:30 ഫെന്നെക് എന്ന
> കുറുക്കൻ. <fennecfox at openmailbox.org>:
>
>> ഹായ്, ഞാന് ഒരു
>> പ്രൊജക്റ്റില് വര്ക്ക്
>> ചെയ്യുകയാണ്. എനിക്ക്
>> നല്ലൊരു മലയാളം
>> ടെക്സ്റ്റ് കോര്പ്പസ്
>> വേണമായിരുന്നു. വിക്കി
>> മലയാളം ബുക്കുകള് ഞാന്
>> നോക്കി, അതില്
>> ടെക്സ്റ്റ് ഫയല്
>> ഡൗണ്ലോഡ് ഉണ്ടെങ്കിലും
>> അതിലെ മലയാളം മിക്കവയും
>> പഴയ വാക്കുകള് ആണ്.
>> ഇപ്പോഴുള്ള വാക്കുകളും
>> അവയുടെ പ്രയോഗങ്ങളും (
>> ലാങ്വേജ് മോഡല് )
>> അതില്നിന്നു
>> മനസിലാക്കാന്
>> കഴിയുന്നില്ല. എനിക്ക്
>> തോന്നുന്നു, അങ്ങനെ ഒരു
>> കോര്പ്പസ് മലയാളത്തിന്
>> ആവശ്യമാണെന്ന്.
>> പത്രവാര്ത്തകളും, ബ്ളോഗ്
>> ഇന്ഡക്സിങ്ങും വഴി
>> നല്ലൊരു ടെക്സ്റ്റ്
>> കോര്പ്പസ് പബ്ലിക്ക്
>> ആക്കിയാല് അത് മലയാളം
>> മെഷീന് ലേണിങ്
>> പ്രൊജക്റ്റുകള്ക്ക്
>> വളരെ ഉപകാരപ്പെടും, എന്റെ
>> ക്ലാസില് തന്നെ ഇപ്പോള്
>> കുട്ടികള് മലയാളം
>> മെഷീന് ലേണിങ്
>> പ്രൊജക്ടുകള്
>> ചെയ്യുന്നുണ്ട്.
>> എല്ലാവരുടേയും പരാതി
>> ഡാറ്റ ഇല്ലെന്നുള്ളതാണ്.
>> ഇപ്പോള് എന്റെ സ്തിതിയും
>> അതു തന്നെ. എല്ലാവരും
>> ഒന്നു മനസുവച്ചാല്
>> ചിലപ്പോള് അങ്ങനൊരു
>> കോര്പ്പസ് ഉണ്ടാക്കാന്
>> പറ്റിയേക്കും, നാം
>> ടൈപ്പുചെയ്യുന്ന
>> ടെക്സ്റ്റുകള് ഒരു
>> ടെക്ശ്റ്റ് ഫയല് ആക്കി
>> ഒരിടത്ത് ഷെയര്
>> ചെയ്താല് പോരേ? ( വിവിധ
>> കാറ്റഗറി ആക്കിയല് അതും
>> നല്ലതു തന്നെ ) കൂടാതെ,
>> നിലവിലുള്ള ബ്ളോഗുകളെ
>> ഇന്റക്സ് ചെയ്താല് ( ഒരു
>> ബ്യൂട്ടിഫുള് സൂപ്പ്
>> പ്രയോഗം മതിയാകുമെന്നു
>> തോന്നുന്നു, പൈത്തണ്
>> വളരെ നന്നായി അറിയാവുന്ന
>> ആളുകള് നമുക്കുണ്ട്. )
>> കുറേ ടെക്സ്റ്റ്
>> കിട്ടില്ലേ. പത്രക്കാര്
>> അവരുടെ ഡാറ്റ ഷെയര്
>> ചെയ്യുമോ എന്നറിയില്ല,
>> പക്ഷേ അവരാണ്, എനിക്ക്
>> തോന്നുന്നത് ഏറ്റവും
>> കൂടുതല് ടെക്സ്റ്റ്
>> കൈകാര്യം
>> ചെയ്യുന്നതെന്ന്. ആദ്യം
>> ടെക്സ്റ്റില് തുടങ്ങി
>> പിന്നീട് അത്
>> സ്പീച്ചിലേക്കും കൂടി
>> വ്യാപിപ്പിക്കാവുന്നതും
>> കൂടിയേ ഉള്ളൂ.. ( ഇനി ഇത്
>> എഴുതനുള്ള പ്രധാന കാര്യം
>> ഇതാണ്, ലഭ്യമായിട്ടുള്ള
>> കുറഞ്ഞ ഡാറ്റയില്
>> ട്രയിന് ചെയ്ത്
>> കിട്ടുന്ന റിസള്ട്ട് വളരെ
>> മോശമാണ്, അത് ടൂള്സ്
>> ഇവാലുവേറ്റ്
>> ചെയ്യുന്നവരോട്
>> പറഞ്ഞിട്ട് കാര്യമില്ല, ആ
>> ഭയം ഒത്തിരി കഴിവുള്ള
>> കുട്ടികളെ മലയാളത്തില്
>> ഇതുപോലുള്ള
>> പ്രൊജക്റ്റുകള്
>> ചെയ്യുന്നതില് നിന്നും
>>
> പിന്തിരിപ്പിക്കുന്നുണ്ട്,
>> മലയാളത്തില് വളരെ അധികം
>> ഫോര്മാറ്റഡ് ഓപ്പണ്
>> ഡാറ്റ ഉണ്ടാവട്ടെ,
>> നിലവില് ഉണ്ടെങ്കില്
>> ഒരു ഒറ്റയിടത്ത്
>> എല്ലാവര്ക്കും എളുപ്പം
>> ആക്സസിബിള് ആകട്ടെ.. )
>>
>> --
>> എന്ന്, ഫെന്നെക് എന്ന
>> കുറുക്കൻ.
>> _______________________________________________
>> Swathanthra Malayalam Computing discuss Mailing List
>> Project: https://savannah.nongnu.org/projects/smc [1]
>> Web: http://smc.org.in [2] | IRC : #smc-project @ freenode
>> discuss at lists.smc.org.in
>> http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in [3]
>
> --
>
> ABOOBACKER MK
> Software Engineer, Foradian
> w:www.aboobacker.in [4]
>
>
>
> Links:
> ------
> [1] https://savannah.nongnu.org/projects/smc
> [2] http://smc.org.in
> [3] http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in
> [4] http://www.aboobacker.in/
>
> _______________________________________________
> Swathanthra Malayalam Computing discuss Mailing List
> Project: https://savannah.nongnu.org/projects/smc
> Web: http://smc.org.in | IRC : #smc-project @ freenode
> discuss at lists.smc.org.in
> http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in
how to do that?
--
എന്ന്, ഫെന്നെക് എന്ന കുറുക്കൻ.
More information about the discuss
mailing list