[smc-discuss] Re: മലയാളം അകാരാദിക്രമം (Malayalam Sorting)

Tue Oct 7 10:28:59 PDT 2008

2008/10/7 Santhosh Thottingal <santhosh.thottingal at gmail.com>:
> മലയാളം കമ്പ്യുട്ടിങ്ങിനെ സംബന്ധിച്ചിടത്തോളം  സുപ്രധാനമായൊരു ആവശ്യകതയായ
> അകാരാദിക്രമം(Sorting) ഇത്രയും കാലമായും നമുക്കു് ശരിയായ രീതിയില്‍ ഇല്ല.
> ഇപ്പോള്‍ നിങ്ങള്‍ മലയാളത്തില്‍ കുറേവാക്കുകള്‍
> അകാരാദിക്രമത്തിലാക്കിയാല്‍ കിട്ടുന്ന ക്രമം  യൂണിക്കോഡ്  കോഡ്
> പോയിന്റുകളുടെ ആരോഹണക്രമത്തിലായിരിക്കും. ഇതു പരിശോധിയ്ക്കാന്‍
> മലയാളത്തിലുള്ള ഗ്നോമിലോ KDE യിലോ മലയാളം പേരുകളുള്ള കുറേ ഫയലുകള്‍
> സോര്‍ട്ട് ചെയ്തു നോക്കിയാല്‍ മതി.
> മലയാളം അകാരാദിക്രമം ഇല്ലാതിരുന്നതു് ഒരിക്കലും സാങ്കേതിക കാരണങ്ങള്‍
> കൊണ്ടല്ല. ഏതു് ക്രമമാണു് ശരി എന്നതിനു് ആധികാരികമെന്നു പറയാവുന്ന ഒരു
> നിര്‍വചനവും കണ്ടെത്താനാവാത്തതാണു്. ശബ്ദതാരാവലി തുടങ്ങിയ പല
> ഗ്രന്ഥങ്ങളിലും പല തരത്തിലാണു് അകാരാദിക്രമം ഉള്ളതെന്നാണു് ഇതിനെപ്പറ്റി
> അന്വേഷിച്ചപ്പോള്‍ അറിയാന്‍ കഴിഞ്ഞതു്. അക്ഷരമാലയിലെ ക്രമം അനുസരിച്ചാല്‍
> പോരേ എന്നു ചോദിച്ചേക്കാം. പക്ഷേ അതുകൊണ്ടുമാത്രം പോര. എന്തുകൊണ്ടാണെന്നു
> വഴിയേ പറയാം.
> ഇത്തരമൊരു അവസ്ഥയില്‍ ഞാന്‍ ഒരു അകാരാദിക്രമം ചര്‍ച്ചയ്ക്കായി
> അവതരിപ്പിയ്ക്കുകയാണു്. അതിനുമുമ്പു് അകാരാദിക്രമത്തിന്റെ
> പ്രാധാന്യത്തെപ്പറ്റി കുറച്ചു പറയട്ടെ.
> പേരുകളോ സ്ഥലപ്പേരുകളോ അകാരാദിക്രമത്തിലാക്കുന്നതു് നമുക്കു് സ്കൂള്‍
> വിദ്യാഭ്യാസകാലം മുതലേ പരിചയമാണു്. ക്ലാസിലെ റോള്‍ നമ്പര്‍
> അതിനനുസരിച്ചായിരിക്കും. പരീക്ഷയില്‍ അടുത്തു് ആരിരിയ്ക്കും,
> ഇന്റര്‍വ്യൂവിനു പോകുമ്പോള്‍ പേരു വിളിയ്ക്കുന്നതു് ആദ്യമോ അവസാനമോ,
> തുടങ്ങി എത്രയോ സന്ദര്‍ഭങ്ങളില്‍ ഈ ക്രമത്തെ കുറിച്ചു് നമ്മള്‍
> ചിന്തിച്ചിട്ടുമുണ്ടു്. 'ഒരു പരീക്ഷയില്‍ ജയിച്ച 100 പേരില്‍ ആദ്യത്തെ 10
> പേര്‍ക്കു ജോലി കൊടുക്കാമെന്നു തീരുമാനിച്ചപ്പോള്‍ സ എന്ന അക്ഷരത്തില്‍
> പേരുള്ളതുകൊണ്ടു് അവസാനമായിപ്പോയി ജോലി പോയി' എന്ന
> സന്ദര്‍ഭത്തെക്കുറിച്ചാലോചിച്ചു നോക്കൂ.. വ്യക്തിപരമായി,  s എന്ന
> അക്ഷരത്തില്‍ പേരു് തുടങ്ങിയതുകൊണ്ടു്  ചില്ലറ വിഷമങ്ങള്‍
> ഉണ്ടായിട്ടുണ്ടു്. പക്ഷേ അതേ s പലപ്പോഴും നല്ലതായി ഭവിച്ചിട്ടുമുണ്ടു് :)
> അതുകൊണ്ടു് അകാരാദിക്രമം ജീവിതപ്രശ്നമാണെന്നു് ഞാന്‍ പറയുന്നു...!
>
>
> ചോദ്യം: പക്ഷേ മലയാളത്തിന്റെ അകാരാദിക്രമം യൂണിക്കോഡ് തീരുമാനിക്കില്ലേ?
> ഉത്തരം: തീര്‍ച്ചയായും!. അവര്‍ അതു നേരത്തേ തന്നെ തീരുമാനിച്ചുവെന്നു
> തോന്നുന്നു. മലയാളത്തിന്റെ കോളേഷന്‍ ചാര്‍ട്ട് ഇവിടെയുണ്ടു്:
> http://unicode.org/charts/collation/chart_Malayalam.html . വായിച്ചു
> നോക്കൂ. യരലവശഷസഹളഴറ എന്നതിനു പകരം യരറലള എന്ന ക്രമം കാണാം. കൂടാതെ ആ
> ചാര്‍ട്ടില്‍ രണ്ടു്  മലയാളം അക്ഷരങ്ങളെ കാണ്‍മാനില്ല! അനുസ്വാരം,
> വിസര്‍ഗ്ഗം (ം‌, ഃ) എന്നിവ അതിലില്ല. ആരാണു് ഈ പട്ടിക
> ഉണ്ടാക്കിയതെന്നറിയില്ല. ആരായാലും  മലയാളിയാവാന്‍ വഴിയില്ല. മലയാളം
> മാത്രമല്ല ഗുജറാത്തി, മറാത്തി എന്നിവയും തെറ്റാണു്. ബാക്കി ഭാഷകളുടെ
> കാര്യം ഇങ്ങനെയൊക്കെ തന്നെയാണെന്നാണു് അറിയാന്‍ കഴിഞ്ഞതു്.
>
> ഇനി നമ്മുടെ അകാരാദിക്രമത്തിലേയ്ക്കു വരാം.
> അക്ഷരമാലാക്രമം തന്നെയാണു് അടിസ്ഥാനമാക്കിയിട്ടുള്ളതു്. പക്ഷേ
> പൂര്‍ണ്ണമായും ആ ക്രമം അല്ല താനും. താഴെപ്പറയുന്നവയാണു്
> പ്രധാനമാറ്റങ്ങള്‍ അല്ലെങ്കില്‍ ശ്രദ്ധിയ്ക്കേണ്ട മാറ്റങ്ങള്‍ :
>
> 1. അനുസ്വാരത്തെ മകാരത്തിന്റെ ചില്ലായി
> പരിഗണിച്ചിരിക്കുന്നു.കേരളപാണിനീയത്തില്‍ അനുസ്വാരം മകാരത്തിന്റെ
> ചില്ലായി കണക്കാക്കാവുന്നതാണെന്നു പറഞ്ഞിട്ടുണ്ടു്. ഇതു പ്രകാരം
> കംപ്യൂട്ടര്‍-കമ്പ്യൂട്ടര്‍, പംപരം(ഇങ്ങനെ എഴുതാറില്ലെങ്കില്‍ കൂടി)-
> പമ്പരം എന്നിവ അടുത്തടുത്തു വരും. മ് = ം എന്ന ഒരു
> നിയമമാണിതിനുപയോഗിച്ചതു്.
> കംപ്യൂട്ടര്‍
> കമ്പ്യൂട്ടര്‍
> എന്ന ക്രമമായിരിക്കും വരുന്നതു്. (ഈ മാറ്റം ഉമേഷേട്ടനാണു് നിര്‍ദ്ദേശിച്ചതു്)
>
> 2. മലയാള സ്വരചിഹ്നങ്ങള്‍ക്കു് യൂണിക്കോഡ് നിര്‍ദ്ദേശിച്ചിരിക്കുന്ന
> canonical equivalence പാലിച്ചിരിക്കുന്നു.
> താഴെ പറയുന്നവയാണവ:
> U+0D4A MALAYALAM VOWEL SIGN O = U+0D46 MALAYALAM VOWEL SIGN E + U+0D3E
> MALAYALAM VOWEL SIGN AA
> U+0D4B MALAYALAM VOWEL SIGN OO = U+0D47 MALAYALAM VOWEL SIGN EE +
> U+0D3E MALAYALAM VOWEL SIGN AA
> U+0D4C MALAYALAM VOWEL SIGN AU = U+0D46 MALAYALAM VOWEL SIGN E +
> U+0D57 MALAYALAM AU LENGTH MARK
> അതായതു്
> ൊ  = െ  + ാ
> ോ  = േ  + ാ
> ൌ  = െ +ൗ
> ഇതിന്‍ പ്രകാരം
>  മേ + ാ + ഷണം  == മോ + ഷണം == മോഷണം  എന്നാവും
> അതായതു് മോ എന്നെങ്ങനെ എഴുതിയാലും അടുത്തടുത്തു വരും.
> കുറിപ്പു്: സാധാരണഗതിയില്‍ ഇത്തരത്തില്‍ സ്വരചിഹ്നങ്ങളെ
> പിരിച്ചെഴുതാറില്ല. ഇങ്ങനെ ഒരു നിയമം ഉണ്ടു് എന്നതുകൊണ്ടു മാത്രം
> ഇവിടെയും അതുചേര്‍ത്തു എന്നുമാത്രം (ഇതിനെപ്പറ്റിയുള്ള കൂടുതല്‍
> വിവരങ്ങള്‍ക്കു് എന്റെ ഈ ബ്ലോഗ് പോസ്റ്റ് കാണുക:
> http://santhoshtr.livejournal.com/11701.html)
>
> 3. ചില്ലക്ഷരങ്ങള്‍:
> യൂണിക്കോഡ് സ്റ്റാന്‍ഡേഡ് അനുശാസിയ്ക്കുന്ന പൂജ്യം കോളേഷന്‍ വെയ്റ്റ് zwj
> യ്ക്കു് കൊടുത്തിരിക്കുന്നു(ഞാനൊന്നും പ്രത്യേകിച്ചു് ചെയ്തില്ല. ഇതു്
> glibc യുടെ  collation tables ല്‍ നേരത്തെ തന്നെ ഉണ്ടു്).
> അതുകൊണ്ടു് :
> ന്‍ = ന+ ് + zwj = ന + ് = ന്
> ഇതുപ്രകാരം ന് എവിടെ വരുന്നുവോ അവിടെ തന്നെ ന്‍ വരും. ഉദാഹരണത്തിനു് താഴെ
> ഒരു അകാരാദിക്രമത്തിലാക്കിയ ചില വാക്കുകള്‍ കൊടുത്തിരിയ്ക്കുന്നു.
> നനഞ്ഞ
> നന്‍മ
> നന്മ
> വില്‍പന
> വില്പന
>
> 4.zwnj : zwj യെ പോലെ തന്നെ ഇതിനും പൂജ്യം കൊളേഷന്‍ വെയിറ്റാണുള്ളതു്.
> അതുകൊണ്ടു്  അവയെ അകാരാദിക്രമത്തില്‍ കണക്കിലെടുക്കില്ല.
> ഉദാഹരണത്തിനു് താഴെ  അകാരാദിക്രമത്തിലാക്കിയ ചില വാക്കുകള്‍ കൊടുത്തിരിയ്ക്കുന്നു.
> തമിഴ്‌നാട്
> തമിഴ്നാട്
> നനഞ്ഞ
> നന്‌‌മ
> നന്‍മ
> നന്മ
> വില്‌പന
> വില്‍പന
> വില്പന
>
> 5. ചന്ദ്രക്കല :
> ഇതിന്റെ കാര്യത്തില്‍ എനിക്കു സംശയം ഉണ്ടു്
> ക്
> ക
> കാ
> എന്ന ക്രമമാണോ, അതോ
> ക്
> ക
> കാ
> എന്ന ക്രമമാണോ വേണ്ടതെന്നു്.
> ആദ്യത്തെ ക്രമമാണെങ്കില്‍, കാക്ക, കാകന്‍ എന്ന രീതി വരും.
> രണ്ടാമത്തെതില്‍ കാകന്‍, കാക്ക എന്നതും. ഇരട്ടിപ്പുകളും ,
> കൂട്ടക്ഷരങ്ങളുമൊക്കെ അവയുടെ ആദ്യ അക്ഷരം കഴിഞ്ഞല്ലേ വരൂ എന്നു
> തോന്നിയതിനാല്‍, തത്കാലം എടുത്തിരിയ്ക്കുന്നതു് രണ്ടാമത്തേതാണു്. മദ്രാസ്
> തമിഴ് ലെക്സിക്കണ്‍  അനുസരിച്ചു്, തമിഴിലെ അകാരാദിക്രമം രണ്ടാമത്തെ
> പ്രകാരമാണു്.(Ref: see /usr/share/i18n/locales/ta_IN in your gnu/linux
> OS)
>
> 6. മലയാള അക്കങ്ങള്‍ അക്ഷരങ്ങള്‍ക്കു മുന്‍പേ വരും. അതായതു്
> ൨
> ൫
> ൫൯
> ൬
> അത്
> അതു
> എന്നതാണു് ക്രമം.
>
> 7. സംവൃതോകാരം ഉകാരത്തിന്റെ സ്വരചിഹ്നത്തിനുശേഷം വരും
> അത്
> അതു
> അതു്
> എന്ന ക്രമത്തില്‍
>
> 8. യൂണിക്കോഡ് 5.1:
> പുതുതായി വന്ന ൠ, ൡ , ഇവയുടെ ചിഹ്നങ്ങള്‍, അവഗ്രാഹ എന്നിവ
> ചേര്‍ത്തിട്ടുണ്ടു്. മലയാളം ഭിന്നങ്ങളുടെ ചിഹങ്ങള്‍ അവയുടെ കോഡ് പോയിന്റ്
> ക്രമത്തില്‍ തന്നെ വരും.
>
>
> ചോദ്യം: ഇതാണോ മലയാളം അകാരാദിക്രമത്തിന്റെ തീരുമാനിച്ചുറപ്പിച്ച ക്രമം?
> ഉത്തരം: ആവണമെന്നില്ല. ഇതു് എന്റെ അറിവുപ്രകാരമുള്ള ഒരു ക്രമമാണു്. ഈ
> വിഷയത്തില്‍ അറിവും താത്പര്യവുമുള്ള മലയാളികളുടെ അഭിപ്രായമറിയുന്നതിനായി
> പുറത്തിറക്കുന്നതാണു്. ആരെങ്കിലും മാറ്റങ്ങള്‍ നിര്‍ദ്ദേശിയ്ക്കുന്ന
> പക്ഷം തിരുത്താന്‍ തയ്യാറാണു്.
>
> ചോദ്യം: ഇതെങ്ങനെ എന്റെ കമ്പ്യൂട്ടറില്‍ സജ്ജമാക്കാം?
> ഉത്തരം: മലയാളം അകാരാദിക്രമത്തിനുവേണ്ടി മാറ്റം വരുത്തിയ മലയാളത്തിന്റെ
> ഫയല്‍  ഇതിനോടൊപ്പം അയയ്ക്കുന്നു.
>
> For All distros[ Tested in Ubuntu 8.04 and Fedora 9]:
> ഡൌണ്‍ലോഡ് ചെയ്ത ഫയല്‍ നിങ്ങളുടെ home folder ല്‍  work എന്ന ഒരു
> അറയുണ്ടാക്കി അതില്‍ വെയ്ക്കുക.
> എന്നിട്ട് താഴെപറയുന്ന കമാന്റുകള്‍ ടെര്‍മിനലില്‍ ഓടിയ്ക്കുക
> cd ~/work
> sudo localedef -i ml_IN-new -f UTF-8 ./ml_IN
> sudo localedef --add-to-archive --replace ./ml_IN
> ഇത്രയും കഴിയുമ്പോള്‍
> Adding ./ml_IN
> എന്ന ഔട്ട്പുട്ട് കിട്ടും. അതിനര്‍ത്ഥം സംഗതി വിജയകരമായി എന്നാണു്.
> [ഇതില്‍ work എന്ന അറയുണ്ടാക്കുന്നതും മറ്റൂം കാര്യം ലളിതമാക്കാന്‍
> പറഞ്ഞതാണു്. നിങ്ങള്‍ എന്താണു ചെയ്യുന്നതെന്നു നിശ്ചയമുണ്ടെങ്കില്‍
> എവിടെവെച്ചും ഈ കമാന്റുകളോടിയ്ക്കാം. ലൊക്കേല്‍ ഫയല്‍ മാറ്റാന്‍ വേറെയും
> വഴികളുണ്ടു്]
>
> ചോദ്യം: എങ്ങനെ പരിശോധിയ്ക്കും?
> ഉത്തരം:
>
> മലയാളം പണിയിടമാണു് ഉപയോഗിയ്ക്കുന്നതെങ്കില്‍
> gedit എടുക്കുക.
> Edit->Preferences->Plugins->Sorting(ചിട്ട->മുന്‍ഗണനകള്‍->സംയോജകങ്ങള്‍)
> ചേര്‍ക്കുക.
> gedit ല്‍ കുറേ വാക്കുകളെഴുതുക. ഒരു വരിയില്‍ ഒന്നു വീതം. എന്നിട്ട്
> edit->sort ചെയ്യുക.
>
> ഇംഗ്ലീഷ് പണിയിടമാണെങ്കില്‍:
> gedit ല്‍ കുറേ വാക്കുകളെഴുതുക. ഒരു വരിയില്‍ ഒന്നു വീതം. എന്നിട്ട്
> ഫയല്‍ സംരക്ഷിക്കുക(save).
> Open terminal. If the file name is testfile.txt, run:
> LANG=ml_IN sort testfile.txt > testfile-sorted.txt
>
> ചോദ്യം: എന്റെ കമ്പ്യൂട്ടറില്‍ വിന്‍ഡോസ് മാത്രമേ ഉള്ളൂ. അതില്‍ മലയാളം
> അകാരാദിക്രമം ശരിയാക്കാന്‍ പറ്റുമോ?
> ഉത്തരം:  :(
>
> ചോദ്യം: ഇതെങ്ങനെ ഗ്നു/ലിനക്സ് പ്രവര്‍ത്തകസംവിധാനത്തില്‍ സ്ഥിരമായി കൊണ്ടുവരും?
> ഉത്തരം: ഗ്നുവിന്റെ സി ലൈബ്രറിയാണു് (glibc) അകാരാദിക്രമം കൈകാര്യം
> ചെയ്യുന്നതു്. ഗ്നു/ലിനക്സിലെ ഒട്ടുമിക്ക പ്രയോഗങ്ങളും ഈ ലൈബ്രറി
> ഉപയോഗിച്ചാണു് സോര്‍ട്ട് ചെയ്യുന്നതു് . ഓപ്പണ്‍ഓഫീസും, Postgresql
> database ഉം എല്ലാം...ഇതിലേയ്ക്കാണു് പാച്ച് സമര്‍പ്പിയ്ക്കേണ്ടതു്.
> അതിനുശേഷം എല്ലാ ഗ്നു/ലിനക്സ് വിതരണങ്ങളിലും ഇതു് ലഭ്യമാകും
>
> എത്രയും പെട്ടെന്നു് കാര്യങ്ങള്‍ തീരുമാനമായാല്‍ നമുക്കു് ഇതിനെ
> അപ്സ്ട്രീമിലേയ്ക്കു വിടാം. ഗ്നു/ലിനക്സ് വിതരണങ്ങളുടെ അടുത്ത
> പതിപ്പുകളില്‍ ലഭ്യമാക്കാന്‍ ശ്രമിയ്ക്കാം.
>
> സ്നേഹപൂര്‍വ്വം
> സന്തോഷ് തോട്ടിങ്ങല്‍
>

സന്തോഷ്,
 5 ാമത്തെ മാറ്റം ഒന്നു നോക്കാമോ ? അതു രണ്ടും ഒന്നല്ലേ ?൧൦

-- 
Manilal K M : മണിലാല്‍ കെ എം.
http://libregeek.blogspot.com

--~--~---------~--~----~------------~-------~--~----~
സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് - എന്റെ കമ്പ്യൂട്ടറിനു് എന്റെ ഭാഷ 
സംരംഭം: https://savannah.nongnu.org/projects/smc
വെബ്‌സൈറ്റ് : http://smc.org.in  IRC ചാനല്‍ : #smc-project @ freenode
പിരിഞ്ഞു പോകാന്‍: smc-discuss-unsubscribe at googlegroups.com
-~----------~----~----~----~------~----~------~--~---