[smc-discuss] മലയാളത്തില് വളരെ അധികം ഫോര്മാറ്റഡ് ഓപ്പണ് ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില് ഉണ്ടെങ്കില് ഒരു ഒറ്റയിടത്ത് എല്ലാവര്ക്കും എളുപ്പം ആക്സസിബിള് ആകട്ടെ
ഫെന്നെക് എന്ന കുറുക്കൻ.
fennecfox at openmailbox.org
Tue Jun 14 01:12:55 PDT 2016
ടെക്സ്റ്റ് എക്സ്ട്രാക്ഷനെപ്പറ്റി കൂടുതലായി എനിക്കറിയില്ല, എന്തായാലും,
ഇനി അതേപ്പറ്റിയൊക്കെ ചിന്തിക്കേണ്ടത് ആവശ്യമാണെന്ന് എനിക്ക് തോന്നുന്നു.
>
> ടെക്സ്റ്റ് എക്സ്ട്രാക്ഷൻ
> അത്ര പണിയില്ല. വിക്കി
> ഡമ്പ്, ഓൺലൈൻ ന്യൂസ്
> പോർട്ടലുകൾ, ബ്ലോഗുകൾ
> ഇങ്ങനെ സോഴ്സ് കുറച്ചധികം
> ഉണ്ട്. അതിനെ തരം
> തിരിക്കലാണു് പണി. There is a necessity
> of different category of corpora - Root words, inflected forms,
> agglutinated forms, categorization based on PoS etc.
>
> We have to formulate a model for the processing of the extracted data.
> That is where the work lies.
>
> _______________________________________________
> Swathanthra Malayalam Computing discuss Mailing List
> Project: https://savannah.nongnu.org/projects/smc
> Web: http://smc.org.in | IRC : #smc-project @ freenode
> discuss at lists.smc.org.in
> http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in
--
എന്ന്, ഫെന്നെക് എന്ന കുറുക്കൻ.
More information about the discuss
mailing list