Quantcast
Channel:
Viewing all articles
Browse latest Browse all 490

Data Science 1 :தகவல் அறிவியல் 1

$
0
0

Image result for data science

பாய்ஸ் திரைப்படத்தில் ஒரு காட்சி வரும். நகைச்சுவைக்காக வைக்கப்பட்ட அந்தக் காட்சியில் தகவல் அறிவியலின் தேவையை மிக எளிமையாக விளக்கியிருப்பார் சுஜாதா.

செந்தில் ஒரு கோயில் மண்டபத்தில் உட்கார்ந்திருப்பார். அவரது கையில் ஒரு குட்டி புக் இருக்கும். அதில் நாள், கிழமை வாரியாக எந்தக் கோயிலில் எப்போது என்ன சாப்பாடு போடுவார்கள் எனும் குறிப்புகள் எழுதப்பட்டிருக்கும். அதை வைத்துக் கொண்டு ஹாயாக சாப்பிட்டு காலத்தை ஓட்டுவார் அவர். அவரிடம் வந்து கேட்பவர்களுக்கும் புக்கைப் புரட்டிப் பார்த்து, “இந்த கோயிலுக்கு இத்தனை மணிக்கு போ.. ஓட்டை போட்ட வடை தருவாங்க” என அனுப்பியும் வைப்பார். அந்த தகவல்களை வைத்துக் கொண்டு “இன்ஃபர்மேஷன் ஈஸ் வெல்த்” என அவர் சொல்லும் டயலாக் பிரபலமானது !

தகவல்களை சேமித்து வைத்து, அதைப் பயன்படுத்த வேண்டிய வகையில் பயன்படுத்துவது ரொம்பவே பயனளிக்கும் என்பதை சுஜாதா இந்த குட்டி காட்சியின் மூலம் இயல்பாக விளக்கியிருப்பார்.

இந்த சின்ன சிந்தனையை, பரந்து பட்ட தொழில்நுட்ப வெளியில் ஆழமாகவும், நீளமாகவும், பெரிய அளவிலும் அலசி ஆராய்ந்தால் அதை தகவல் அறிவியல் என்று சொல்லலாம்.

உதாரணம் ஒன்று சொல்கிறேன். ஒரு நிறுவனம் இருக்கிறது. அதன் மேலதிகாரி தன்னுடைய அக்கவுன்டிங் துறையைக் கூப்பிட்டு, “நம்ம கம்பெனில போன வருஷம் நடந்த செலவுகளோட ஒட்டு மொத்த டேட்டாவையும் கொண்டு வாங்க” என சொல்கிறார் என வைத்துக் கொள்வோம். ஊழியர்கள் உடனே போய் ஜனவரி மாதம் முதல் டிசம்பர் மாதம் வரை நடந்த செலவுகளின் பட்டியலை எடுப்பார்கள். சின்னச் சின்ன செலவு முதல், பெரிய பெரிய இன்வெஸ்ட்மென்ட் செலவுகள் வரை அனைத்தையும் கொண்டு வந்து மேலதிகாரியிடம் கொடுப்பார்கள். இது தான் டேட்டா ! தகவல் !

இந்தத் தகவலை அப்படியே வைத்திருப்பதில் எந்த பயனும் இல்லை. செயல்படாத தகவல் செத்த தகவல் என சொல்லலாம். அது வெறுமனே இடத்தை அடைத்துக் கொண்டு கிடக்கும் அவ்வளவு தான். ஆனால் மேலதிகாரி அத்துடன் நின்று விடுவதில்லை. மீண்டும் அவர்களைக் கூப்பிட்டு,

“என்னப்பா இப்படி கொண்டு வந்தா நான் என்ன பண்றது ? ஒவ்வொரு மாசம் எவ்வளவு செலவாச்சு ? என்ன டிப்பார்ட்மென்ட்க்கு எவ்ளோ செலவாச்சு ? சம்பளம் எவ்ளோ குடுத்திருக்கோம் ? முதலீடு எவ்ளோ செஞ்சிருக்கோம் ? இப்படி பிரிச்சு குடுப்பா” என்பார்.

ஊழியர்கள் போய் அந்த தகவல்களையெல்லாம் திருப்பிப் போட்டு, அலசி அதை முறைப்படுத்தி மேலதிகாரி கேட்ட வடிவத்தில் கொண்டு வந்து கொடுப்பார்கள். இது தான் கட்டமைக்கப்பட்ட அல்லது வகைப்படுத்தப்பட்ட தகவல். ஸ்ட்ரக்சர்ட் டேட்டா !

இப்போது அந்தத் தகவல்களைப் புரட்டிப் பார்க்கும் மேலதிகாரி ஊழியர்களை அழைத்து,

“யப்பா… மார்ச் மாசம் ஏகப்பட்ட செலவாகியிருக்கு ! சேல்ஸ் டீம்ல செலவு அக்டோபர் மாசம் எகிறியிருக்கு ! மாசா மாசம் பெட்ரோல் செலவு ராக்கெட் மாதிரி ஏறியிருக்கு..” என்னன்னு கொஞ்சம் பாத்து சொல்லு” என்பார்.

அப்போது ஊழியர்கள் அந்த தகவலை மேலும் அலசி ஆராய்ந்து அதற்குரிய பதிலோடு வருவார்கள். அக்டோபர் மாதம் போனஸ் என்றோ, மார்ச் மாதம் அட்வான்ஸ் பேய்மென்ட் என்றோ தங்கள் கண்டுபிடிப்பைச் சொல்வார்கள். இது தகவல் அலசல் ! டேட்டா அனாலிசிஸ் !

இப்போது மேலதிகாரி தன்னுடைய திட்டமிடல் குழுவை கூப்பிடுவார். கூப்பிட்டு தன்னிடம் இருக்கின்ற இந்த தகவல்களை எல்லாம் கொடுப்பார். “இதோ பாருங்க, இதான் கடந்த வருஷத்தோட செலவு. இதுல எல்லா விவரங்களும் இருக்கு. அடுத்த வருஷம் இந்த செலவில 10 சதவீதம் கம்மி ஆகணும். எல்லா மாசமும் செலவு கிட்டத்தட்ட ஒரே மாதிரி இருக்கணும், அதுக்கு என்ன பண்ணணுமோ அதை கண்டுபிடிச்சு சொல்லுங்க” என்பார். இப்போது திட்டக் குழுவினர், கடந்த ஆண்டின் தகவலை வைத்துக் கொண்டு எதிர்காலத்தை திட்டமிடுவார்கள். எதிர்காலத்தில் என்னென்ன செய்தால் மேலதிகாரி சொன்னதை நிறைவேற்றலாம் என்பதை முடிவுசெய்வார்கள். இது தான் டேட்டா அனாலிடிக்ஸ். பொதுவாகச் சொல்ல வேண்டுமெனில் டேட்டா சயின்ஸ். தகவல் அறிவியல்.

துவக்கத்தில் ஏனோதானோவென கிடந்த தகவல்கள், ஒன்று சேர்க்கப்பட்டு, வகைப்படுத்தப்பட்டு, தரம்பிரிக்கப்பட்டு, பயன்படுத்தக்கூடிய வகையில் மாற்றப்பட்டு, எதிர்காலத்துக்கான முடிவுகளை நிர்ணயிக்கும் காரணியாக உருமாற்றம் அடைகிறது. இது தான் தகவல் அறிவியல் என்பதன் ஆகச் சுருக்கமான விளக்கம்.

இந்த தகவல்களெல்லாம் நாம் நினைப்பது போல அழகாக கணினியில் டைப் செய்து சேமிக்கப்பட்டிருப்பவை மட்டுமல்ல. பல்வேறு விதமான தகவல்கள், பல்வேறு விதமான வடிவங்களில் கிடைக்கின்றன. கணினியிலோ, காகிதத்திலோ நாம் தெளிவாக எழுதி வைத்திருக்கும் தகவல்கள் முறைப்படுத்தப்பட்ட தகவல்கள். அல்லது ஸ்ட்ரக்சர்ட் டேட்டா. இதைக் கையாள்வது எளிது. இந்த தகவல்களை அலசி ஆராய்வதும், அதன் மூலமாக புதிய முடிவுகளை எடுப்பதும் மிக எளிது.

ஆனால் முறைப்படுத்தப்படாத தகவல்கள் விஷயத்தில் அது கடினம். அதென்ன முறைப்படுத்தப்படாத தகவல் ? அலுவலகத்தில் ஆங்காங்கே கண்காணிப்பு கேமராக்கள் இருக்கும். அந்த கேமராக்கள் 24 மணி நேரமும் கண்சிமிட்டி காட்சிகளைப் பதிவு செய்து கொண்டே இருக்கும். கார் பார்க்கிங்கிலும், அலுவலகத்தைச் சுற்றியும் இதே போல பல கேமராக்கள் சுற்றிச் சுற்றி காட்சிகளை தனக்குள் அடுக்கிக் கொண்டே இருக்கும் ! இந்த வீடியோ காட்சிகள் முறைப்படுத்தப்படாத தகவலின் ஒரு உதாரணம் !

அலுவலகத்தில் தலைமை அதிகாரி ஒருமணி நேர உற்சாக உரையாற்றுகிறார் என வைத்துக் கொள்வோம். அதில் பல விஷயங்கள் இருக்கும். பல திட்டங்களின் துவக்க நாட்கள் இருக்கும். அந்த உரை ஒரு கட்டமைக்கப்படாத தகவல். அதிலிருந்து தேவையான தகவல்களை பிரித்தெடுக்க வேண்டும்.

ஒரு அலுவலகத்தை எடுத்துக் கொண்டால் இத்தகைய தகவல்கள் எக்கச்சக்கமாக குவிந்து கிடக்கும். நீண்டு கொண்டே இருக்கின்ற அனுமர் வால் போல அவை பயம் காட்டும். நெருங்கிச் செல்லச் செல்ல விலகி ஓடும் தொடுவானம் போல களைப்பை ஏற்படுத்தும்.

அன்னியன் திரைப்படத்தில் வருகின்ற காட்சி நினைவுக்கு வருகிறதா ? ஐந்து பைசா திருடுவது தவறில்லை. ஆனால் ஐந்து இலட்சம் பேர், ஐந்து ஐந்து பைசாவாக‌, ஐந்து இலட்சம் தடவை திருடினால் அது மிகப்பெரிய திருட்டாய் முடியும் இல்லயா ? அதே போல தான் கட்டமைக்கப்படாத தகவல்கள் கொஞ்சம் கொஞ்சமாக சேர்ந்து மலைபோல மாறிவிடும்.

ஆயிரம் பேர் வேலை செய்யும் அலுவலகத்தில், ஒரு நபருக்கு தினம் பத்து அலுவல் சார்ந்த‌ மின்னஞ்சல் வரும் என வைத்துக் கொண்டாலும், மொத்தக்கணக்கு தினசரி பத்தாயிரம் மின்னஞ்சல்கள் என்றாகிறது. அது ஒரு மாதத்திற்கு மூன்று இலட்சம் என மிரட்டும் எண்ணிக்கையில் வந்து முடியும். அப்படி ஒரு ஆயிரம் நிறுவனங்களில் எவ்வளவாகும், தினசரி வருகின்ற மின்னஞ்சல்களின் எண்ணிக்கை அதிகமானால் என்னவாகும் என்பதையெல்லாம் மனக்கணக்கு போட்டு பார்த்துக் கொள்ளுங்கள்.

இதே போல புகைப்படங்கள், டாக்குமென்ட்கள், ஆடியோ ஃபைல்கள், டெக்ஸ் ஃபைல்கள், பிரசன்டேஷன்கள், வலைத்தளங்கள், போன் கால்கள் என ஒவ்வொரு விஷயத்தையும் எடுத்துக் கொண்டால் ‘ஒரு நிமிஷம் தலை சுத்திடுச்சு’ என்று நம்மையறியாமலேயே சொல்வோம்.

நமக்குக் கிடைக்கின்ற தகவல்களில் 70 முதல் 90 விழுக்காடு தகவல்களும் கட்டமைக்கப்படாத தகவல்கள் தான் ! அப்படிக் கிடைக்கின்ற தகவல்களை கட்டமைக்கப்பட்ட தகவல்களாக மாற்றுவது எப்படி என்பது தான்  தொழில்நுட்பம் எதிர்கொள்ளும் மிகப்பெரிய சவால். அதற்கான தொழில்நுட்ப நுணுக்கங்களை தகவல் அறிவியல் தன்னகத்தே முக்கிய இடத்தில் வைத்திருக்கிறது.

அலுவலகம் எனும் எல்லையைத் தாண்டினால்  சமூக வலைத்தளங்கள், வாட்சப் போன்ற குறுஞ்செய்தி செயலிகள், வலைத்தளங்கள், வீடியோ கால்கள், மின்னஞ்சல்கள், ஆன்லைன் பரிவர்த்தனைகள், சிக்னல் வீடியோக்கள் என இந்த தகவல்களின் வகைகளும், அளவுகளும் கோடி கைகளுடன் மனுக்குலத்தை இறுக்கப் பிடிக்கின்றன !

இந்த சவாலை, சாதகமாய் மாற்றும் வேலையைத் தான் தகவல் அறிவியல் செய்கிறது. இன்றைய தேதியில் வேலை வாய்ப்புகள் கொட்டிக் கிடக்கும் இடம் ‘டேட்டா சயின்ஸ்’ எனும் தகவல் அறிவியல் தான்

( தொடர்வோம் )


Viewing all articles
Browse latest Browse all 490