- தரவு அறிவியல் அடிப்படையில் தோ்தலை எதிா்கொள்ள பல அரசியல் கட்சிகள் காத்திருக்கின்றன. முந்தைய தோ்தல்களில் பெற்ற வாக்குகள், அதில், தொகுதி வாரியாக, மாவட்டம் வாரியாக கிடைத்த வாக்குகள் எனத் தனித்தனியாகப் பிரித்து, அவற்றை அலசி ஆராய்ந்தும், தற்போது உள்ள சூழலில் மக்களின் மனநிலையை அறிந்துகொண்டும் 2026 -இல் தமது கட்சியின் செயல்பாடு எவ்வாறு இருக்கும் என்பதை தரவு அறிவியல் மூலம் பகுப்பாய்வு செய்து வரும் தோ்தல் தொடா்பாக ஒரு முடிவுக்கு வர முடியும் என்பது நிதா்சனமான உண்மை.
- எந்தவொரு தோ்தலிலும் வாக்குப் பதிவு முக்கியப் பங்கு வகிக்கிறது. பொதுவாக, அதிக வாக்குப் பதிவு என்பது தற்போது ஆட்சியில் உள்ள கட்சிக்கு எதிரானது மற்றும் ஆட்சி மாற்றத்துக்கான வாக்காளா்களின் விருப்பத்துடன் தொடா்புடையது என்று கருதலாம். குறைந்த வாக்குப் பதிவு பொதுவாக பதவிக்கு சாா்பானது மற்றும் தற்போது பதவியில் உள்ளவா்கள் அதிகாரத்தைத் தக்கவைக்கும் திறனுடன் தொடா்புடையது.
- கா்நாடக சட்டப்பேரவைத் தோ்தலை எடுத்துக்கொண்டோமானால் கடந்த 2008, 2013 மற்றும் 2018 ஆகிய மூன்று தோ்தல்களிலும், ஒவ்வொரு முறையும் புதிய அரசு அமைய வழிவகுத்தது வாக்கு சதவீதம் என்பதையும் தரவுகளின் மூலம் அறிய முடியும். கா்நாடக பேரவைத் தோ்தல், தற்போது நடைபெற்று முடிந்த ஐந்து மாநிலத் தோ்தல் முடிவுகளை வைத்தும், அதன்மூலம் பெறப்பட்ட தரவுகளை வைத்தும், தரவு அறிவியல் மாதிரிகள் மூலம் ஒப்பீடு செய்து, வரும் மக்களவைத் தோ்தலில் எந்தக் கட்சி ஆட்சியைப் பிடிக்கும் என்று கணிக்க இயலுமா என்றால், அது சாத்தியம்தான்.
- சட்டப்பேரவைத் தோ்தலில் மக்கள் எண்ணம் வேறு, மக்களவைத் தோ்தலில் மக்கள் எண்ணம் வேறு என்று பலா் கூறுவாா்கள். ஆனால், சட்டப்பேரவைத் தோ்தலில் வெற்றிக் காரணிகள்?, தோல்விக்கான காரணிகள், மற்ற மாநிலங்களில் உள்ள மக்களின் மனநிலைத் தரவுகள் ஆகியவற்றுடன் தரவு அறிவியல் மாதிரி ஒன்றை உருவாக்கி பகுப்பாய்வு செய்வதன் மூலம், மக்களவைத் தோ்தலில் எந்தக் கட்சி வெற்றி பெறும் என்பதற்கு விடை காண முடியும். அதுவே தரவு அறிவியல் தொழில்நுட்பத்தின் வளா்ச்சி.
- இன்றைய தொலைக்காட்சி நோ்காணலில் பல்வேறு கட்சியினா் மற்றும் அரசியல் ஆா்வலா்கள் எதை வைத்து கணித்துப் பேசுகின்றனா் என்றால் தரவுகளை வைத்துதான். அந்தத் தரவுகளை மனித மூளையில் உள்ள நரம்புகள் எப்படி பகுப்பாய்வு செய்து முடிவுகளைக் கூறுகிறதோ, அதே செயல்பாட்டை தரவு அறிவியல் தொழில்நுட்பத்தில் மேற்கொள்ளலாம்.
- அறிவியல், சமூக அறிவியல் என நாம் படித்திருப்போம். ஆனால், தரவு அறிவியல்? இன்றைய தொழில்நுட்ப வளா்ச்சியில், அனைவரும் தெரிந்துகொள்ள நினைப்பதும், இந்தத் தொழில்நுட்பத்தைப் படித்தால் நல்ல வேலைவாய்ப்பு கிடைக்குமா என அனைவரும் அறிய விரும்பும் தொழில்நுட்பம்தான் தரவு அறிவியல்.
- தரவு என்பது என்ன என்று பாா்ப்போம். தரவு என்பது பயனுடையதாகக் கருதப்படும் குறிப்புகளாகும். அதாவது, ஆங்கிலத்தில் ‘ரா இன்ஃபா்மேஷன்’ என்று சொல்வாா்கள். தரவுகளில் இருந்து பெறப்படும் பயனுள்ள தொகுப்புகளே தகவல் (இன்ஃபா்மேஷன்). தரவு என்பது தகவல்களைச் சேகரிப்பது, தகவல்களைப் பகிா்வது என இன்னும் எளிமையாகக் கூறலாம். இதுபோன்ற தரவுத் தொகுப்புகளில் உள்ள தகவல்களை ஆய்வு செய்வதுதான் ‘டேட்டா அனாலிசிஸ்’ என்பதாகும்.
- இந்த ஆய்வுத் தகவல்களை வைத்துக்கொண்டு எதிா்வரும் தரவின் தகவல்களைக் கூறுவது, அதாவது அடுத்து என்ன நடக்கலாம் அல்லது என்ன நடக்கப்போகிறது என்பதைக் கணித்துக் கூறுவது தரவுப் பகுப்பாய்வு (டேட்டா அனலிடிக்ஸ்) என்பதாகும். உதாரணமாக, 2012-இல் இருந்து 2022 வரை பல மாவட்டங்களில் கோடை காலத்தில் உள்ள வெப்பநிலை, மழைக் காலத்தில் மழை பெய்த அளவுக்கான தரவு உள்ளது என வைத்துக் கொள்வோம். இந்தத் தரவுகளில் உள்ள தகவல்களை ஆய்வு செய்து, 2023-இல் எந்த அளவுக்கு வெயில் அடிக்கும், மழைக் காலத்தில் எந்த அளவுக்கு எந்தந்த மாவட்டங்களில் மழை பெய்ய வாய்ப்பு உள்ளது என்று கணிப்பதுதான் தரவுப் பகுப்பாய்வு.
- தரவு அறிவியல் (டேட்டா சயின்ஸ்) என்பது என்ன என்று பாா்ப்போம். தரவுகளை அடிப்படையாகக் கொண்டு தரவுத் தொகுப்புகளில் உள்ள தகவல்களை ஆய்வு செய்து, அடுத்து என்ன நடக்கலாம் அல்லது 10 ஆண்டுகளுக்குப் பிறகு என்ன நடக்கப்போகிறது என்பதை நுண்ணறிவின் அடிப்படையில், புள்ளியியல் தரவுகளை மையமாக வைத்து இயந்திரக் கற்றல் (மெஷின் லோ்னிங்) நுட்பத்தைப் பயன்படுத்தி எளிமையாகக் கணித்துக் கூறுவதே தரவு அறிவியல் என்பதாகும்.
- முதலில் தரவுகளை ஒழுங்கமைக்கப்பட்ட தரவு (ஸ்ட்ரக்சா்ட் டேட்டா) மற்றும் ஒழுங்கு அமைக்கப்படாத தரவு (அன்ஸ்ட்ரக்சா்ட் டேட்டா) என இரு வகையாகப் பிரிக்கலாம். ஒழுங்கமைக்கப்பட்ட தரவு என்பது ஒரு வகுப்பில் படிக்கும் மாணவா்களுக்கு ஒரு செமஸ்டரில் ஆறு பாடங்கள் உள்ளன என்றால் அனைத்து மாணவா்களுக்கும் ஆறு பாடங்கள் என்று இருக்க வேண்டும். இப்படி இருப்பது ஒழுங்கான தரவுகள்; ஒருவருக்கு ஆறு, மற்றவருக்கு ஏழு, இன்னொருவருக்கு எட்டு என்று இருந்தால் அது ஒழுங்கான தரவு அல்ல.
- மேலும், பள்ளி, கல்லூரியில் பயிலும் மாணவா்களின் பெயா், வயது, ஊா், பிறந்த தேதி, மின்னஞ்சல் முகவரி, தொலைபேசி எண் என வரிசைப்படுத்தி சேமித்து வைத்துள்ள தரவுகளைத்தான் ஒழுங்கான வடிவத்தில் உள்ள தரவுகள் என்று அழைக்கிறோம். ஆனால், முகநூல் போன்ற வலைதளத்தில் ஒரு பயனரின் அடிப்படை விவரங்களோடு சோ்த்து அவரின் மனநிலை விருப்பு, வெறுப்புகள், செயல்பாடுகள், விமா்சனங்கள் போன்ற அனைத்துவிதமான தகவல்களையும் சேமிக்க வேண்டும்.
- இவையெல்லாம் எந்த வடிவத்தில் வேண்டுமானாலும் இருக்கலாம். இமேஜ், விடியோ, ஆடியோ எனப் பல வடிவங்களில் வரும் தகவல்களைத்தான் ‘அன்ஸ்ட்ரக்சா்ட் டேட்டா’ என்று சொல்வாா்கள். மேலும், முகநூலில் ஒரு நபருக்கு ஆயிரம் நண்பா்கள், ஒரு காணொலிக்கு 20 லைக்குகள், 100 பின்னூட்டங்கள் என மாறுபடும்; நபருக்கு நபா் முகநூல் பக்கத்தில் உள்ள தகவல்கள் மாறி மாறி வரும். இவையும் ‘அன்ஸ்ட்ரக்சா்ட் டேட்டா’தான்.
- ஆரகிள், எஸ்க்யூஎல் போன்ற மென்பொருள்கள் ஒழுங்கான வடிவ தரவுகளைக் கையாள பயன்படுத்தப்படுகின்றன. பெரிய தரவு ‘பிக் டேட்டா’ என்பதுதான் மேற்குறிப்பிட்ட ஒழுங்கற்ற வடிவ தரவுகளைக் கையாள பயன்படுத்தப்படுகின்றன.
- எனவே, ஒழுங்கான தரவுகள், ஒழுங்கற்ற தரவுகளை வைத்து நுண்ணறிவுடன் கூடிய அமைப்பை புள்ளியியல் (ஸ்டாட்டிஸ்டிக்ஸ்) அடிப்படையில் உருவாக்கி, வரைவியல் பகுப்பாய்வு செய்து ‘கிராஃப் அனாலிசிஸ்’, நரம்பு மொழிகள் நிரலாக்கம் (நியூரோ லிங்குஸ்டிக் புரொக்ராமிங்’ மூலம் செயல்பாடுகளை உருவாக்கி, இதை வைத்து ஏற்கனவே உள்ள தரவுகளை ஆய்வு செய்து, தற்போது அல்லது சில ஆண்டுகளுக்குப் பிறகு என்ன நடக்கும் என்பதைச் சொல்வதுதான் தரவு அறிவியல்.
- தரவு அறிவியல் எவ்வாறு வேலை செய்கிறது என்று பாா்ப்போம், ஆடியோ, விடியோ எனப் பல நிலைகளில் உள்ள தரவுகளைப் பல இடங்களில் இருந்து பெற்று ஒரே இடத்தில் வைப்பதை தரவுக் கிடங்கு ‘டேட்டா வோ்ஹவுஸ்’ என்று சொல்வாா்கள். இந்தத் தரவுக் கிடங்குகளில் இருந்து தரவுச் செயலாக்கம் ‘டேட்டா மைனிங்’ செயல்பாடுகளை மேற்கொள்ள வேண்டும்.
- முதலில் தரவுகளைத் தூய்மையாக்கம் செய்ய வேண்டும். அதாவது, கல்லூரி மாணவா்களின் தோ்வுக்கான தரவுகளை எடுத்துக் கொண்டோமானால், அதில் ஏதாவது விடுபட்ட தரவு உள்ளதா, வரிசை பூா்த்தியாகாமல் உள்ளதா என சரிபாா்த்து, தேவையில்லாத தரவுகளை நீக்கி ‘ப்ரீ ப்ராஸஸ்ட்’ தரவுகளை உருவாக்கிக் கொள்ள வேண்டும்.
- இதை வைத்து தரவுகளை நமக்கு தேவையானவாறு மாற்ற வேண்டும். உதாரணமாக, கல்லூரி மாணவா்களின் தோ்ச்சிப் பட்டியலில் இருந்து முதலாம் ஆண்டு, இரண்டாம் ஆண்டு, மூன்றாம் ஆண்டு என தனியாகப் பிரித்து, தரவுச் செயல்பாடுகளை மேற்கொள்ள வேண்டும். அதாவது தோ்ச்சி பெற்றவா்கள், பெறாதவா்கள், முதல் மதிப்பெண், அதிக தோ்ச்சி எனப் பிரித்து ஒரு மாதிரியை (பேட்டா்ன்) உருவாக்கி, அதிலிருந்து என்ன தகவல்களை நாம் கேட்டாலும் கொடுப்பதுதான் ‘நாலெட்ஜ்’ என்று சொல்வாா்கள்.
- இந்த நடைமுறை தரவுச் செயலாக்கம் என்றும் சொல்லப்படும். இதிலிருந்து புள்ளியியல் விவரங்களுக்கும் தரவுப் பகுப்பாய்வு செய்து இயந்திர கற்றல் வழிமுறைகளைப் பயன்படுத்தினால் ஓா் அமைப்பு உருவாகும். இதன்மூலம் தேவையானவற்றையோ அல்லது நிகழ்காலத்தையோ, எதிா்காலத்தையோ கணிப்பதுதான் தரவு அறிவியல் ‘டேட்டா சயின்ஸ்’. இதன் பயன்பாடுகள் விரிந்துகொண்டு செல்வதை நம்மால் காணமுடிகிறது என்பதே உண்மை.
நன்றி: தினமணி (18 – 12 – 2023)