``` To: Director, Kerala Infrastructure and Technology for Education Office of IT@School Project Poojapura, Thiruvananthapuram -695012 Kerala,India ``` --- > **വിഷയം**: പേരുകളുടെയും സ്ഥലനാമങ്ങളുടെയും പട്ടികകൾ ഗവേഷണം, മലയാളം കമ്പ്യൂട്ടിങ്ങ് ആവശ്യങ്ങൾക്കായി പ്രസിദ്ധീകരിക്കൽ ബഹുമാനപ്പെട്ട ഡയരക്ടർ, ഭാഷാസാങ്കേതികവിദ്യാ മേഖലയിൽ സ്വതന്ത്ര സോഫ്റ്റ്‌വെയർ അധിഷ്ഠിതമായി ധാരാളം പ്രവർത്തനങ്ങൾ സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് ചെയ്തുവരുന്നു. ഈ മേഖലയിലെ മുന്നേറ്റം ലക്ഷ്യമാക്കി, സങ്കീർണമായ ഗവേഷണപ്രവർത്തനങ്ങൾക്കുതകും വിധം ഒരു സ്വതന്ത്ര കോർപസ്(പദസഞ്ചയം) ഞങ്ങൾ പ്രസിദ്ധീകരിച്ചിട്ടുണ്ട്[1]. പതിന്നാലു ലക്ഷം മലയാളം വാക്കുകളും, അനവധി വാചകങ്ങൾ, സ്ഥലനാമങ്ങൾ, ക്രിയാനാമങ്ങൾ, പേരുകൾ എല്ലാം വെവ്വേറെ തരംതിരിച്ചുള്ള ഈ കോർപസ് വിവിധ തരത്തിലുള്ള പ്രോജക്ടുകൾ പ്രധാനഘടകമായി ഉപയോഗിച്ചുവരുന്നു. ഉദാഹരണത്തിന്, മലയാളം മോർഫോളജി അനലൈസർ ഈ കോർപ്പസ് അടിസ്ഥാനമാക്കിയുള്ള ഒരു ലെക്സിക്കൺ അടിസ്ഥാനമാക്കിയാണ് പ്രവർത്തിക്കുന്നത്[2]. മലയാളത്തിലെ വ്യക്തികളുടെ പേരുകൾ, സ്ഥലനാമങ്ങൾ എന്നിവയുടെ ഒരു ബൃഹത്‌സഞ്ചയം പക്ഷേ ഇന്നു കിട്ടാനില്ല. യുണിക്കോഡിൽ, ഡിജിറ്റൽ രൂപത്തിലുള്ള ഈ ഡാറ്റ മേൽപ്പറഞ്ഞ കോർപ്പസിനും പൊതുവിൽ മലയാളത്തിലുള്ള ഭാഷാഗവേഷണസംരംഭങ്ങൾക്കും അത്യന്താപേക്ഷികമാണ്. ഇങ്ങനെയൊരു ഡാറ്റാശേഖരം തയ്യാറാക്കുന്നതിനു സംസ്ഥാനത്തെ വിദ്യാർത്ഥികളുടെ വിവരങ്ങൾ അടങ്ങിയ KITE ന്റെ ഉടമസ്ഥതയിലുള്ള സിസ്റ്റങ്ങൾക്കു(സമ്പൂർണ്ണ) സാധിക്കും എന്നു ഞങ്ങൾ മനസ്സിലാക്കുന്നു. വിദ്യാർത്ഥികളുടെ പൂർണ്ണവിവരങ്ങൾ പ്രസിദ്ധികരിക്കുന്നത് സ്വകാര്യതാനയങ്ങൾക്കെതിരാണെന്നും ഞങ്ങൾക്കറിയാം. അതിനാൽ വളരെ ശ്രദ്ധാപൂർവം വിദ്യാർത്ഥികളുടെ പേര്, വിലാസത്തിലടങ്ങിയ സ്ഥലപ്പേരുകൾ എന്നിവ വേർപെടുത്തി വെവ്വേറെ വെറും പട്ടികയായി പ്രസിദ്ധീകരിച്ചാൽ സ്വകാര്യതാനയങ്ങൾ ലംഘിക്കാതെത്തന്നെ മലയാള ഭാഷാ സാങ്കേതികവിദ്യയ്ക്ക് വൻ മുതൽക്കൂട്ടാകുന്ന സംരംഭമാകും. ഇതിനുള്ള സഹായം ഞങ്ങൾ അഭ്യർത്ഥിക്കുന്നു. സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങും കൈറ്റും തമ്മിലുള്ള ഒരു സഹകരണ ഉടമ്പടിയിലൂടെ ഇത് സാധിക്കാമെന്നാണ് കരുതുന്നത്. ഭാഷാ ഗവേഷണരംഗത്തെ മുന്നേറ്റങ്ങൾക്ക് പരസ്പരസഹകരണം വഴി സ്വതന്ത്ര സോഫ്റ്റ്‌വെയർ രംഗത്തെ നല്ലൊരു മാതൃകകൂടിയാവും. തുടക്കമെന്ന നിലയിൽ താഴെക്കൊടുത്തിരിക്കുന്ന ഡാറ്റ സ്വതന്ത്ര മലയാളം കമ്പ്യൂടിങ്ങിനു ലഭ്യമാക്കുകയും, സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങ് അത് സ്വതന്ത്ര ലൈസൻസിൽ ഗവേഷണങ്ങൾക്കുപയുക്തമായ രീതിയിൽ ഡാറ്റാ സെറ്റുകളായി പ്രസിദ്ധീകരിക്കുകയും മെയിന്റെയിൻ ചെയ്യുകയുമാകാം. ### അനോണിമൈസ് ചെയ്ത് പങ്കിടേണ്ട ഡാറ്റ: 1. മലയാളം യൂണിക്കോഡിലുള്ള പേരുകൾ. ഇത് എങ്ങനെയാണോ കൈറ്റിന്റെ സിസ്റ്റത്തിലുള്ളത്, അതേപടി, ഇനിഷ്യലുകൾ ഉണ്ടെങ്കിൽ അതടക്കം. പേരുകൾ ആവർത്തിക്കുന്നുണ്ടെങ്കിൽ അങ്ങിനെത്തന്നെ. വിദ്യാർത്ഥികളുടെ പേരും, രക്ഷിതാവിന്റെ പേരുകൾ ഉണ്ടെങ്കിൽ അതും. പക്ഷേ വിദ്യാർത്ഥി-രക്ഷിതാവ് ബന്ധം ഈ പട്ടികയിൽ ഒരിക്കലും ഉണ്ടാവരുത്. 2. മലയാളം യൂണിക്കോഡിലുള്ള സ്ഥലനാമങ്ങൾ - വീട്ടുപേരുകൾ ആവശ്യമില്ല. ഇത് പേരുകളുടെ പട്ടികയിൽ നിന്നും വേർപെട്ടതാവണം. അതായത് ഇന്ന വിദ്യാർത്ഥിയുടെയാണ് ഈ സ്ഥലപ്പേര് എന്ന ബന്ധം ഒരിക്കലും പ്രസിദ്ധീകരിക്കുന്നില്ല. ഇതും സിസ്റ്റത്തിലുള്ള അതേപടി, പട്ടികയായി പ്രസിദ്ധീകരിക്കാവുന്നതാണ്. സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിന്റെ പദസഞ്ചയത്തിൽ മേൽപ്പറഞ്ഞ ഡാറ്റ ഉൾപ്പെടുത്തുകയും ഉറവിടം കൈറ്റ് ആണെന്നു പ്രത്യേകം സൂചിപ്പിക്കുകയും ചെയ്യാം. Creative Commons Attribution-ShareAlike ലൈസൻസ്[3] പ്രകാരം ഏത് ആവശ്യത്തിനും ലഭ്യമാക്കാം. ### അവലംബം [1] https://blog.smc.org.in/malayalam-corpus/ The corpus, available at https://gitlab.com/smc/corpus/ is licensed under Creative Commons Attribution-ShareAlike. [2] https://morph.smc.org. [3] https://creativecommons.org/licenses/by-sa/4.0/ --- സ്വതന്ത്ര മലയാളം കമ്പ്യൂട്ടിങ്ങിനുവേണ്ടി, ``` Secretory, Name & Sign, date ```