ডেটা এবং ডেটা সায়েন্সের পরিচিতি

ডেটা এবং ডেটা সায়েন্সের পরিচিতি

ভূমিকা

ডেটা সায়েন্স হল অধ্যয়ন এবং অনুশীলনের একটি ক্ষেত্র যা লক্ষ্য থেকে ডেটা থেকে জ্ঞান এবং তথ্য আহরণ করা। বৈজ্ঞানিক পদ্ধতি, প্রক্রিয়া, পরিসংখ্যান, গণিত ডোমেন জ্ঞান এবং গণ্য শক্তি(Computational power) এতে ব্যবহার হয় । যদিও এই শব্দটি সাম্প্রতিক বছরগুলিতে জনপ্রিয়তা অর্জন করেছিল, তথাপি বিজ্ঞানটিতে ব্যবহৃত ধারণাগুলি কয়েক শতাব্দী প্রাচীন বলে জেনে অবাক হতে পারেন । এবং আজ কেন এটি এত জনপ্রিয় হয়ে উঠল তা জিজ্ঞাসা করা স্বাভাবিক। এটি দুটি জিনিসের কারণে জনপ্রিয়তা অর্জন করেছে। আমরা আজ এতো ডাটা সংগ্রহ করতে শুরু করেছি যা আগে কখনো করিনি । আরও ডেটা মানে আরও তথ্য আহরণের সম্ভাবনা। এটি আমাদের আরও ভাল সিদ্ধান্ত নিতে সহায়তা করবে । এবং আমরা এই সুযোগটি উপলব্ধি করতে চাই। তবে ডেটা সাইন্স এর বুম এত কারণ একমাত্র এটা নয় । আরও ডেটা মানে আরও গণনা। যখন আমরা কয়েক হাজার সারি ডেটা নিয়ে কথা বলি, ম্যানুয়ালি প্রয়োজনীয় গণনা সম্পাদন করা মানুষের সক্ষমতা ছাড়িয়ে। এমনকি কিছু বছর আগে অবধি কয়েক কোটি সারি র তথ্যের ওপর গণনা করতে একটি মেশিন বা কম্পিউটার এর ও কয়েক দিন লাগতো । আজ অবশ্য গণনা শক্তি তাত্পর্যপূর্ণভাবে বেড়েছে। এবং এটি, প্রচুর পরিমাণে ডেটার সাথে একত্রিত হয়ে আমাদের কাছে নিশ্চিত করেছে যে আমাদের কাছে তেল ( ডেটা) এবং রিগ (গণনা শক্তি)দুটোই রয়েছে।

ডেটা সম্পর্কে

শেষ বিভাগে উল্লিখিত ডেটা হ’ল ডেটা সায়েন্সের সর্বাধিক প্রয়োজনীয় উপাদান। ডেটা হ’ল কারও, কোনও কিছুর বা কোনও ঘটনার সম্পর্কে সংগ্রহ করা তথ্য বা বৈশিষ্ট্য । এটি পর্যবেক্ষণ ইত্যাদির মাধ্যমে সংগ্রহ করা হয়। অন্য ভাবে বলতে গেলে data কি, কে, কোথায় সঞ্চয় করে । আর বিশ্লেষকগণ এবং ডেটা বিজ্ঞানীরা সেটা দিয়ে কেন আর কি করে গুলো খুঁজে বার করে ।

ডেটার প্রকার

বিচ্ছিন্ন (Discrete) পূর্ণ সংখ্যা (Whole Number ) নির্দেশ করে । যেমন 1 টা আপেল, 25 জন এবং ইত্যাদি । আমরা যখন 1 টি আপেল সম্পর্কে কথা বলি, এটি ঠিক একটি ই । এবং এটি 0.8 বা 1.25 বা কিচু সময়ে পর 2 হয়ে যায় না। অন্যদিকে অবিচ্ছিন্ন(continuous) পূর্ণ সংখ্যা নয়। উপরে আলোচিত 1 আপেলের ওজন 100 গ্রাম হতে পারে। কিন্তু 100 গ্রাম কখনই 100 গ্রাম হয় না। এটা 99 গ্রাম এবং 101 গ্রাম বা 99.9 গ্রাম এবং 100.1 গ্রাম এর মাঝামাঝি কোনো সংখ্যা , মানে এর সাথে একটা [tolerance](](https://www.keyence.com/ss/products/measure-sys/measurement-selection/basic/tolerance.jsp) যুক্ত। একইভাবে, কোনও ব্যক্তির ওজন বা গাড়ির গতিও ক্রমাগত পরিবর্তনশীলগুলির(continuous variable) উদাহরণ। সময়ের সাথে এই দুটোই বদলে যায়।

পরিমাপের স্কেলের (measurement scale ) উপর ভিত্তি করে ডেটা শ্রেণিবদ্ধ করার আরেকটি উপায় রয়েছে। সেটা নির্ভর করে ভ্যারিয়েবল এর ওপর পাটিগণিত প্রয়োগ করার সম্ভাবনা র ওপর । ** নামমাত্র (Nominal)** ডেটা শ্রেণিবদ্ধ / গুণগত তথ্যের একটি বৈকল্প যেখানে ভ্যারিয়েবলের সমস্ত গুণাবলীর সমান গুরুত্ব রয়েছে। যেমন লিঙ্গ (M/F/MtF/FtM/Others) বা স্থান (মুম্বই, নিউ ইয়র্ক, সিঙ্গাপুর, লন্ডন, টোকিও) বা প্রতিক্রিয়া (হ্যাঁ, না)। নামমাত্র তথ্যের একটি বৈকল্পিক হ’ল ** বাইনারি ** যেখানে বাইনারি প্রতিক্রিয়া জড়িত (হ্যাঁ / না, 0/1 ইত্যাদি)। নামমাত্র ভেরিয়েবলের শৃঙ্খলা কোনও অর্থবোধ করে না (বর্ণানুক্রমিক ব্যতীত)। ** সাধারণ (Ordinal)** ডেটাও শ্রেণিবদ্ধ ডেটা। তবে ভেরিয়েবলের গুণাবলীর অসম গুরুত্ব রয়েছে। যেমন ছোট, মাঝারি, বড় বা নিম্ন, মাঝারি, উপরের ইত্যাদি অর্ডিনাল ভেরিয়েবলের শৃঙ্খলা বোঝায়। ** বিরতি (Interval) ** ডেটা একটি সংখ্যাগত ডেটা, বেশিরভাগ রেটিং স্কেল থেকে উত্পন্ন, যেমন linkert scale। যেমন দৃঢ় ভাবে সম্মত, সম্মত, নিরপেক্ষ, অসম্মতি, দৃঢ় ভাবে একমত নয়। এগুলির প্রত্যেকের একটি অন্তর্নিহিত মান রয়েছে। সুতরাং, দৃঢ় ভাবে সম্মতি 1 হতে পারে, সম্মত 2 ইত্যাদি হতে পারে। একটি র গুরুত্বপূর্ণ ব্যাপার হলো এর কোনো শূন্যের উত্স নেই । সুতরাং, এই ধরণের স্কেলে কেউ বলতে পারে না, 2 এর চেয়ে 1 দ্বিগুণ গুরুত্বপূর্ণ। ** অনুপাত (Ratio) ** ডেটা প্রকৃত সংখ্যা নির্দেশ করে। সমস্ত বাস্তব সংখ্যা (Real Number) হ’ল অনুপাতের ডেটা। এটিতে শূন্য উত্স সহ সংখ্যার সমস্ত বৈশিষ্ট্য রয়েছে।

আপনারা এই ভিডিও টি ও দেখতে পারেন ।

Translations: