TNPSC Thervupettagam

தரவு அறிவியலும் தோ்தல் முடிவுகளும்

December 18 , 2023 336 days 194 0
  • தரவு அறிவியல் அடிப்படையில் தோ்தலை எதிா்கொள்ள பல அரசியல் கட்சிகள் காத்திருக்கின்றன. முந்தைய தோ்தல்களில் பெற்ற வாக்குகள், அதில், தொகுதி வாரியாக, மாவட்டம் வாரியாக கிடைத்த வாக்குகள் எனத் தனித்தனியாகப் பிரித்து, அவற்றை அலசி ஆராய்ந்தும், தற்போது உள்ள சூழலில் மக்களின் மனநிலையை அறிந்துகொண்டும் 2026 -இல் தமது கட்சியின் செயல்பாடு எவ்வாறு இருக்கும் என்பதை தரவு அறிவியல் மூலம் பகுப்பாய்வு செய்து வரும் தோ்தல் தொடா்பாக ஒரு முடிவுக்கு வர முடியும் என்பது நிதா்சனமான உண்மை.
  • எந்தவொரு தோ்தலிலும் வாக்குப் பதிவு முக்கியப் பங்கு வகிக்கிறது. பொதுவாக, அதிக வாக்குப் பதிவு என்பது தற்போது ஆட்சியில் உள்ள கட்சிக்கு எதிரானது மற்றும் ஆட்சி மாற்றத்துக்கான வாக்காளா்களின் விருப்பத்துடன் தொடா்புடையது என்று கருதலாம். குறைந்த வாக்குப் பதிவு பொதுவாக பதவிக்கு சாா்பானது மற்றும் தற்போது பதவியில் உள்ளவா்கள் அதிகாரத்தைத் தக்கவைக்கும் திறனுடன் தொடா்புடையது.
  • கா்நாடக சட்டப்பேரவைத் தோ்தலை எடுத்துக்கொண்டோமானால் கடந்த 2008, 2013 மற்றும் 2018 ஆகிய மூன்று தோ்தல்களிலும், ஒவ்வொரு முறையும் புதிய அரசு அமைய வழிவகுத்தது வாக்கு சதவீதம் என்பதையும் தரவுகளின் மூலம் அறிய முடியும். கா்நாடக பேரவைத் தோ்தல், தற்போது நடைபெற்று முடிந்த ஐந்து மாநிலத் தோ்தல் முடிவுகளை வைத்தும், அதன்மூலம் பெறப்பட்ட தரவுகளை வைத்தும், தரவு அறிவியல் மாதிரிகள் மூலம் ஒப்பீடு செய்து, வரும் மக்களவைத் தோ்தலில் எந்தக் கட்சி ஆட்சியைப் பிடிக்கும் என்று கணிக்க இயலுமா என்றால், அது சாத்தியம்தான்.
  • சட்டப்பேரவைத் தோ்தலில் மக்கள் எண்ணம் வேறு, மக்களவைத் தோ்தலில் மக்கள் எண்ணம் வேறு என்று பலா் கூறுவாா்கள். ஆனால், சட்டப்பேரவைத் தோ்தலில் வெற்றிக் காரணிகள்?, தோல்விக்கான காரணிகள், மற்ற மாநிலங்களில் உள்ள மக்களின் மனநிலைத் தரவுகள் ஆகியவற்றுடன் தரவு அறிவியல் மாதிரி ஒன்றை உருவாக்கி பகுப்பாய்வு செய்வதன் மூலம், மக்களவைத் தோ்தலில் எந்தக் கட்சி வெற்றி பெறும் என்பதற்கு விடை காண முடியும். அதுவே தரவு அறிவியல் தொழில்நுட்பத்தின் வளா்ச்சி.
  • இன்றைய தொலைக்காட்சி நோ்காணலில் பல்வேறு கட்சியினா் மற்றும் அரசியல் ஆா்வலா்கள் எதை வைத்து கணித்துப் பேசுகின்றனா் என்றால் தரவுகளை வைத்துதான். அந்தத் தரவுகளை மனித மூளையில் உள்ள நரம்புகள் எப்படி பகுப்பாய்வு செய்து முடிவுகளைக் கூறுகிறதோ, அதே செயல்பாட்டை தரவு அறிவியல் தொழில்நுட்பத்தில் மேற்கொள்ளலாம்.
  • அறிவியல், சமூக அறிவியல் என நாம் படித்திருப்போம். ஆனால், தரவு அறிவியல்? இன்றைய தொழில்நுட்ப வளா்ச்சியில், அனைவரும் தெரிந்துகொள்ள நினைப்பதும், இந்தத் தொழில்நுட்பத்தைப் படித்தால் நல்ல வேலைவாய்ப்பு கிடைக்குமா என அனைவரும் அறிய விரும்பும் தொழில்நுட்பம்தான் தரவு அறிவியல்.
  • தரவு என்பது என்ன என்று பாா்ப்போம். தரவு என்பது பயனுடையதாகக் கருதப்படும் குறிப்புகளாகும். அதாவது, ஆங்கிலத்தில் ‘ரா இன்ஃபா்மேஷன்’ என்று சொல்வாா்கள். தரவுகளில் இருந்து பெறப்படும் பயனுள்ள தொகுப்புகளே தகவல் (இன்ஃபா்மேஷன்). தரவு என்பது தகவல்களைச் சேகரிப்பது, தகவல்களைப் பகிா்வது என இன்னும் எளிமையாகக் கூறலாம். இதுபோன்ற தரவுத் தொகுப்புகளில் உள்ள தகவல்களை ஆய்வு செய்வதுதான் ‘டேட்டா அனாலிசிஸ்’ என்பதாகும்.
  • இந்த ஆய்வுத் தகவல்களை வைத்துக்கொண்டு எதிா்வரும் தரவின் தகவல்களைக் கூறுவது, அதாவது அடுத்து என்ன நடக்கலாம் அல்லது என்ன நடக்கப்போகிறது என்பதைக் கணித்துக் கூறுவது தரவுப் பகுப்பாய்வு (டேட்டா அனலிடிக்ஸ்) என்பதாகும். உதாரணமாக, 2012-இல் இருந்து 2022 வரை பல மாவட்டங்களில் கோடை காலத்தில் உள்ள வெப்பநிலை, மழைக் காலத்தில் மழை பெய்த அளவுக்கான தரவு உள்ளது என வைத்துக் கொள்வோம். இந்தத் தரவுகளில் உள்ள தகவல்களை ஆய்வு செய்து, 2023-இல் எந்த அளவுக்கு வெயில் அடிக்கும், மழைக் காலத்தில் எந்த அளவுக்கு எந்தந்த மாவட்டங்களில் மழை பெய்ய வாய்ப்பு உள்ளது என்று கணிப்பதுதான் தரவுப் பகுப்பாய்வு.
  • தரவு அறிவியல் (டேட்டா சயின்ஸ்) என்பது என்ன என்று பாா்ப்போம். தரவுகளை அடிப்படையாகக் கொண்டு தரவுத் தொகுப்புகளில் உள்ள தகவல்களை ஆய்வு செய்து, அடுத்து என்ன நடக்கலாம் அல்லது 10 ஆண்டுகளுக்குப் பிறகு என்ன நடக்கப்போகிறது என்பதை நுண்ணறிவின் அடிப்படையில், புள்ளியியல் தரவுகளை மையமாக வைத்து இயந்திரக் கற்றல் (மெஷின் லோ்னிங்) நுட்பத்தைப் பயன்படுத்தி எளிமையாகக் கணித்துக் கூறுவதே தரவு அறிவியல் என்பதாகும்.
  • முதலில் தரவுகளை ஒழுங்கமைக்கப்பட்ட தரவு (ஸ்ட்ரக்சா்ட் டேட்டா) மற்றும் ஒழுங்கு அமைக்கப்படாத தரவு (அன்ஸ்ட்ரக்சா்ட் டேட்டா) என இரு வகையாகப் பிரிக்கலாம். ஒழுங்கமைக்கப்பட்ட தரவு என்பது ஒரு வகுப்பில் படிக்கும் மாணவா்களுக்கு ஒரு செமஸ்டரில் ஆறு பாடங்கள் உள்ளன என்றால் அனைத்து மாணவா்களுக்கும் ஆறு பாடங்கள் என்று இருக்க வேண்டும். இப்படி இருப்பது ஒழுங்கான தரவுகள்; ஒருவருக்கு ஆறு, மற்றவருக்கு ஏழு, இன்னொருவருக்கு எட்டு என்று இருந்தால் அது ஒழுங்கான தரவு அல்ல.
  • மேலும், பள்ளி, கல்லூரியில் பயிலும் மாணவா்களின் பெயா், வயது, ஊா், பிறந்த தேதி, மின்னஞ்சல் முகவரி, தொலைபேசி எண் என வரிசைப்படுத்தி சேமித்து வைத்துள்ள தரவுகளைத்தான் ஒழுங்கான வடிவத்தில் உள்ள தரவுகள் என்று அழைக்கிறோம். ஆனால், முகநூல் போன்ற வலைதளத்தில் ஒரு பயனரின் அடிப்படை விவரங்களோடு சோ்த்து அவரின் மனநிலை விருப்பு, வெறுப்புகள், செயல்பாடுகள், விமா்சனங்கள் போன்ற அனைத்துவிதமான தகவல்களையும் சேமிக்க வேண்டும்.
  • இவையெல்லாம் எந்த வடிவத்தில் வேண்டுமானாலும் இருக்கலாம். இமேஜ், விடியோ, ஆடியோ எனப் பல வடிவங்களில் வரும் தகவல்களைத்தான் ‘அன்ஸ்ட்ரக்சா்ட் டேட்டா’ என்று சொல்வாா்கள். மேலும், முகநூலில் ஒரு நபருக்கு ஆயிரம் நண்பா்கள், ஒரு காணொலிக்கு 20 லைக்குகள், 100 பின்னூட்டங்கள் என மாறுபடும்; நபருக்கு நபா் முகநூல் பக்கத்தில் உள்ள தகவல்கள் மாறி மாறி வரும். இவையும் ‘அன்ஸ்ட்ரக்சா்ட் டேட்டா’தான்.
  • ஆரகிள், எஸ்க்யூஎல் போன்ற மென்பொருள்கள் ஒழுங்கான வடிவ தரவுகளைக் கையாள பயன்படுத்தப்படுகின்றன. பெரிய தரவு ‘பிக் டேட்டா’ என்பதுதான் மேற்குறிப்பிட்ட ஒழுங்கற்ற வடிவ தரவுகளைக் கையாள பயன்படுத்தப்படுகின்றன.
  • எனவே, ஒழுங்கான தரவுகள், ஒழுங்கற்ற தரவுகளை வைத்து நுண்ணறிவுடன் கூடிய அமைப்பை புள்ளியியல் (ஸ்டாட்டிஸ்டிக்ஸ்) அடிப்படையில் உருவாக்கி, வரைவியல் பகுப்பாய்வு செய்து ‘கிராஃப் அனாலிசிஸ்’, நரம்பு மொழிகள் நிரலாக்கம் (நியூரோ லிங்குஸ்டிக் புரொக்ராமிங்’ மூலம் செயல்பாடுகளை உருவாக்கி, இதை வைத்து ஏற்கனவே உள்ள தரவுகளை ஆய்வு செய்து, தற்போது அல்லது சில ஆண்டுகளுக்குப் பிறகு என்ன நடக்கும் என்பதைச் சொல்வதுதான் தரவு அறிவியல்.
  • தரவு அறிவியல் எவ்வாறு வேலை செய்கிறது என்று பாா்ப்போம், ஆடியோ, விடியோ எனப் பல நிலைகளில் உள்ள தரவுகளைப் பல இடங்களில் இருந்து பெற்று ஒரே இடத்தில் வைப்பதை தரவுக் கிடங்கு ‘டேட்டா வோ்ஹவுஸ்’ என்று சொல்வாா்கள். இந்தத் தரவுக் கிடங்குகளில் இருந்து தரவுச் செயலாக்கம் ‘டேட்டா மைனிங்’ செயல்பாடுகளை மேற்கொள்ள வேண்டும்.
  • முதலில் தரவுகளைத் தூய்மையாக்கம் செய்ய வேண்டும். அதாவது, கல்லூரி மாணவா்களின் தோ்வுக்கான தரவுகளை எடுத்துக் கொண்டோமானால், அதில் ஏதாவது விடுபட்ட தரவு உள்ளதா, வரிசை பூா்த்தியாகாமல் உள்ளதா என சரிபாா்த்து, தேவையில்லாத தரவுகளை நீக்கி ‘ப்ரீ ப்ராஸஸ்ட்’ தரவுகளை உருவாக்கிக் கொள்ள வேண்டும்.
  • இதை வைத்து தரவுகளை நமக்கு தேவையானவாறு மாற்ற வேண்டும். உதாரணமாக, கல்லூரி மாணவா்களின் தோ்ச்சிப் பட்டியலில் இருந்து முதலாம் ஆண்டு, இரண்டாம் ஆண்டு, மூன்றாம் ஆண்டு என தனியாகப் பிரித்து, தரவுச் செயல்பாடுகளை மேற்கொள்ள வேண்டும். அதாவது தோ்ச்சி பெற்றவா்கள், பெறாதவா்கள், முதல் மதிப்பெண், அதிக தோ்ச்சி எனப் பிரித்து ஒரு மாதிரியை (பேட்டா்ன்) உருவாக்கி, அதிலிருந்து என்ன தகவல்களை நாம் கேட்டாலும் கொடுப்பதுதான் ‘நாலெட்ஜ்’ என்று சொல்வாா்கள்.
  • இந்த நடைமுறை தரவுச் செயலாக்கம் என்றும் சொல்லப்படும். இதிலிருந்து புள்ளியியல் விவரங்களுக்கும் தரவுப் பகுப்பாய்வு செய்து இயந்திர கற்றல் வழிமுறைகளைப் பயன்படுத்தினால் ஓா் அமைப்பு உருவாகும். இதன்மூலம் தேவையானவற்றையோ அல்லது நிகழ்காலத்தையோ, எதிா்காலத்தையோ கணிப்பதுதான் தரவு அறிவியல் ‘டேட்டா சயின்ஸ்’. இதன் பயன்பாடுகள் விரிந்துகொண்டு செல்வதை நம்மால் காணமுடிகிறது என்பதே உண்மை.

நன்றி: தினமணி (18 – 12 – 2023)

Leave a Reply

Your Comment is awaiting moderation.

Your email address will not be published. Required fields are marked *

பிரிவுகள்