[smc-discuss] മലയാളത്തില്‍ വളരെ അധികം ഫോര്‍മാറ്റഡ് ഓപ്പണ്‍ ഡാറ്റ ഉണ്ടാവട്ടെ, നിലവില്‍ ഉണ്ടെങ്കില്‍ ഒരു ഒറ്റയിടത്ത് എല്ലാവര്‍ക്കും എളുപ്പം ആക്സസിബിള്‍ ആകട്ടെ

ഫെന്നെക് എന്ന കുറുക്കൻ. fennecfox at openmailbox.org
Tue Jun 14 01:12:55 PDT 2016


ടെക്സ്റ്റ് എക്സ്ട്രാക്ഷനെപ്പറ്റി കൂടുതലായി എനിക്കറിയില്ല, എന്തായാലും, 
ഇനി അതേപ്പറ്റിയൊക്കെ ചിന്തിക്കേണ്ടത് ആവശ്യമാണെന്ന് എനിക്ക് തോന്നുന്നു.



> 
> ടെക്സ്റ്റ് എക്സ്ട്രാക്ഷൻ
> അത്ര പണിയില്ല. വിക്കി
> ഡമ്പ്, ഓൺലൈൻ ന്യൂസ്
> പോർട്ടലുകൾ, ബ്ലോഗുകൾ
> ഇങ്ങനെ സോഴ്സ് കുറച്ചധികം
> ഉണ്ട്. അതിനെ തരം
> തിരിക്കലാണു് പണി. There is a necessity
> of different category of corpora - Root words, inflected forms,
> agglutinated forms, categorization based on PoS etc.
> 
> We have to formulate a model for the processing of the extracted data.
> That is where the work lies.
> 
> _______________________________________________
> Swathanthra Malayalam Computing discuss Mailing List
> Project: https://savannah.nongnu.org/projects/smc
> Web: http://smc.org.in | IRC : #smc-project @ freenode
> discuss at lists.smc.org.in
> http://lists.smc.org.in/listinfo.cgi/discuss-smc.org.in

-- 
എന്ന്, ഫെന്നെക് എന്ന കുറുക്കൻ.


More information about the discuss mailing list