সংক্ষিপ্তসার ডেটা

2021-06-04 · 6 min read · Data Science তথ্য বিজ্ঞান ·

কেন আমাদের অনুসন্ধান বিশ্লেষণ এবং ডেটা সংক্ষিপ্তসার প্রয়োজন

মনে করুন যে আপনার কাছে কোনও বিদ্যালয়ের 1000 শিক্ষার্থীর ওজনের তথ্য রয়েছে। এ থেকে যে কোনও কিছু বোঝার একটি উপায় হ’ল প্রতি টা সারি র তথ্য এক এক করে পড়া । যেমন আপনি যদি এই 1000 টি ওজনের মধ্যে সর্বনিম্ন ওজন কী তা জানতে চান তবে আপনি প্রতি সারি র ডেটার তুলনা শুরু করতে পারেন। তবে, সেটা কি খুব একটা প্রজ্ঞ ? অবশ্যই না. বা, আপনি যদি raw তথ্য থেকে কোনও অন্তর্দৃষ্টি পেতে চান, তথ্য অন্বেষণ না করেও কি এটি সম্ভব? অবশ্যই না. এবং এজন্য আমাদের ডেটা সংক্ষিপ্ত (Summarize ) করে এটিকে অন্বেষণ করা প্রয়োজন; সহজেই ব্যাখ্যা করা যায় এমন তথ্য সন্ধান করতে।

শ্রেণিবদ্ধ ভ্যারিয়েবল সংক্ষিপ্ত করা

ডেটা র বিভন্ন প্রকারের বিষয়ে জানতে এই লেখা টি পড়ুন ।

শ্রেণীবদ্ধ ভ্যারিয়েবল শুধু মাত্র গোনা সম্ভব। তারপরে আমরা ফলাফলটি নিখুঁত সংখ্যায় বা শতাংশে দেখাই। যেমন 5 লাল বল, 2 নীল বল এবং 3 সবুজ বল বা 50% লাল বল, 20% নীল বল এবং 30% সবুজ বল। আমরা ফলাফলটি একটি টেবিল হিসাবে দেখাতে পারি। অথবা আমরা এটি গ্রাফ হিসাবে দেখাতে পারি।পারি।

x<-read.csv("https://query.data.world/s/ycimehoogc3wiwgkd65z7d24v6mqik", header=TRUE, stringsAsFactors=FALSE)

names(x)[1]<-"EnglishSpeaker"
names(x)[6]<-"ClassAttribute"
names(x)[4]<-"Semester"

x$EnglishSpeaker<-as.factor(x$EnglishSpeaker)
x$Semester<-as.factor(x$Semester)
x$ClassAttribute<-as.factor(x$ClassAttribute)
x<- x %>%
  mutate(EnglishSpeaker=ifelse(EnglishSpeaker==1,"yes","no"))%>%
  mutate(ClassAttribute=case_when(ClassAttribute==1 ~ "low",
                                  ClassAttribute==2 ~ "medium",
                                  ClassAttribute==3 ~ "high"))%>%
  mutate(Semester=ifelse(Semester==1, "Summer", "Regular"))%>%
  select(1,4,6)


x%>%
  group_by(ClassAttribute)%>%
  summarise(Count=n())%>%
  mutate(CountPercent=Count/sum(Count))%>%
  ggplot(aes(y=Count,
             x = reorder(ClassAttribute,Count),
             )
         )+
  geom_col(width = 0.5,fill='turquoise')+
  geom_text(aes(y=Count-6, label=Count), color="white", size=10)+
  labs(title = "Class Attribute", 
       subtitle = "Teaching assistant evaluation",
       x="Attribute",
       y="Count",
       caption = "Source: UCI machine learning repository")+
  theme_clean() + 
  annotation_custom(l, xmin = 2.7, xmax = 4, ymin = 50, ymax = 63) +
  coord_cartesian(clip = "off")

আমরা যখন একটি ভেরিয়েবলের সংক্ষিপ্তসার করি তখন ইটা সম্ভব । একাধিক শ্রেণীবদ্ধ ভ্যারিয়েবল হলে কী হবে? তখন ও , আমরা টেবিল হিসাবে বা নীচের মত বিভিন্ন ধরণের বার চার্ট হিসাবে প্রদর্শন করতে পারি। আর সেটা করি দুটি ভ্যারিয়েবল যুক্ত করে তারপর গুনে ।

x%>%
  group_by(EnglishSpeaker)%>%
  summarise(low=sum(ClassAttribute=="low"), medium=sum(ClassAttribute=="medium"), high=sum(ClassAttribute=="high"))%>%
  tidyr::gather("ClassAttribute","Count",-1)%>%
  ggplot(aes(x=EnglishSpeaker, y=Count, fill=ClassAttribute))+
  geom_col(position="dodge2")+
  geom_text(aes(y=Count-2, label=Count), 
            position = position_dodge(width = 1
                                      ),
            color="white", 
            size=5
            )+
  labs(title = "Class Attribute by native language", 
       subtitle = "Teaching assistant evaluation",
       x="English Speaker",
       y="Count",
       caption = "Source: UCI machine learning repository")+
  theme_clean() +
  annotation_custom(l, xmin = 2, xmax = 3.4, ymin = 36, ymax = 52) +
  coord_cartesian(clip = "off")

কখনও কখনও, এই এক ই তথ্য নীচের চিত্রের মতো দেখানো উপকারী হতে পারে। অনুগ্রহ করে লক্ষ্য করুন যে y এক্সিস 1 অবধি করা হয়েছে এবং হ্যাঁ এবং না উভয়ই সমান উচ্চতা অবধি আঁকা । মানে এই গ্রাফ এ আমরা কটা হ্যাঁ বা কটা না দেখছি না । বরং দেখছি যে হ্যাঁ বা না এর মধ্যে ছোট , বড়ো আর মাঝারি র অবদান কত ।

x%>%
  group_by(EnglishSpeaker)%>%
  summarise(low=sum(ClassAttribute=="low"), medium=sum(ClassAttribute=="medium"), high=sum(ClassAttribute=="high"))%>%
  tidyr::gather("ClassAttribute","Count",-1)%>%
  ggplot(aes(x=reorder(EnglishSpeaker,Count),
             y=Count, fill=ClassAttribute))+
  geom_col(position="fill", width = 0.5)+
  geom_text(aes(label=Count), 
            position = position_fill(vjust = 0.5),
            color="white", 
            size=5
            )+
  labs(title = "Class Attribute by native language", 
       subtitle = "Teaching assistant evaluation",
       x="English Speaker",
       y="Count",
       caption = "Source: UCI machine learning repository")+
  theme_clean() +
  annotation_custom(l, xmin = 2, xmax = 3.4, ymin = 0.8, ymax = 1.2) +
  coord_cartesian(clip = "off")

শ্রেণিবদ্ধ ভেরিয়েবলের ক্ষেত্রে, আমরা উপস্থিতির সংখ্যা গণনা করি। যদি একাধিক ভেরিয়েবল জড়িত থাকে তবে আমরা ভেরিয়েবলগুলির সংমিশ্রণটি গণনা করি।

সংখ্যার ভেরিয়েবলগুলির সংক্ষিপ্তকরণ

একক ভেরিয়েবল

শ্রেণিবদ্ধ ভেরিয়েবলের মতো , সংখ্যার ভেরিয়েবলগুলি গণনা করাও সম্ভব। সাধারণত, গণনাটি কিছুটা আলাদা। আমরা বিনগুলি তৈরি করি এবং বিনগুলি গণনা করি। উদাহরণস্বরূপ, যদি আমাদের 200 ব্যক্তির ওজন থাকে যা 50 কেজি থেকে 100 কেজি অবধি হয়, আমরা 50 কেজি থেকে 59 কেজি, 60 কেজি থেকে 69 কেজি ইত্যাদি বিন তৈরি করতে পারি। এগুলিকে বিন বলা হয়। এবং তারপরে আমরা সেই বিনের মধ্যে সংঘটিত ডাটা পয়েন্টগুলির সংখ্যা দেখাই, আমরা তা টেবিলে বা গ্রাফ হিসাবে প্রদর্শন করতে পারি।

df <- data.frame(
  sex=factor(rep(c("F", "M"), each=200)),
  weight=round(c(rnorm(200, mean=40, sd=4), rnorm(200, mean=50, sd=5)))
  )

ggplot(df, aes(x=weight)) + 
  geom_histogram(binwidth=1, color="black", fill="blue", alpha=0.3)+
  labs(title="Histogram of weight",
       y="frequency")+
  theme_clean()+
  annotation_custom(l, xmin = 60, xmax = 65, ymin = 22, ymax = 30) +
  coord_cartesian(clip = "off")

হিস্টোগ্রাম থেকে বেশিরভাগ শিক্ষার্থীর ওজন কত (আন্দাজমত) তা বোঝা খুব সহজ হয়ে যায়। তথ্যটি দেখার আরেকটি উপায় হ’ল ঘনত্বের (density ) প্লট ব্যবহার করা।

ggplot(df, aes(x=weight)) + 
 geom_density(alpha=.2, fill="#FF6666")+
  labs(title="Density of weight")+
  theme_clean()+
  annotation_custom(l, xmin = 60, xmax = 65, ymin = 0.045, ymax = 0.06) +
  coord_cartesian(clip = "off")

একক ভেরিয়েবলের সংক্ষিপ্তসার করার আরেকটি উপায় হ’ল সংঘটিত ফ্রিকোয়েন্সি (Cumulative ) ব্যবহার করা। এটি ভেরিয়েবলের বিনগুলি তৈরি করে এবং সেগুলি ক্রমে রেখে তারপরে ক্রমযুক্ত ঘটনা বা ডেটা পয়েন্ট গণনা করা হয়। একটি উদাহরণ নীচে প্রদর্শিত।

df%>%
  mutate(weight=case_when(
    weight<40 ~ "30-39",
    weight>=40 & weight<50 ~ "40-49",
    weight>=50 & weight<60 ~ "50-59",
    weight>=60  ~ "60-69"
  ))%>%
  group_by(weight)%>%
  summarise(Count=n())%>%
  mutate(cumulative_count=cumsum(Count))%>%
  mutate(cumulative_percent=cumulative_count*100/sum(Count)) %>% 
  knitr::kable()

weight	Count	cumulative_count	cumulative_percent
30-39	87	87	21.75
40-49	202	289	72.25
50-59	105	394	98.50
60-69	6	400	100.00

“নির্দিষ্ট মানের তুলনায় কতজন কম বা কতজন বেশি” এরকম প্রশ্নের উত্তর দেওয়ার চেষ্টা করার সময় এটি বিশেষত কার্যকর।

df%>%
  mutate(weight=case_when(
    weight<40 ~ "30-39",
    weight>=40 & weight<50 ~ "40-49",
    weight>=50 & weight<60 ~ "50-59",
    weight>=60  ~ "60-69"
  ))%>%
  group_by(weight)%>%
  summarise(Count=n())%>%
  mutate(cumcount=cumsum(Count))%>%
  mutate(cumper=cumcount*100/sum(Count))%>%
  ggplot(aes(x=weight, y=cumper, group=1))+geom_line(color="black")+geom_point()+
  labs(title="Cumulative Percentage of Weight(Range)",
       x="Weight Ranges",
       y="Cumulative Percentage (%)")+
  theme_clean() +
  annotation_custom(l, xmin = 3, xmax = 4, ymin = 40, ymax = 60) +
  coord_cartesian(clip = "off")

উদাহরণস্বরূপ, উপরের গ্রাফ থেকে এটি স্পষ্ট হয় যে বেশিরভাগ ওজন 59 কেজি থেকে কম বা সমান।

সংখ্যাসূচক এবং শ্রেণিবদ্ধ ভেরিয়েবলের সংমিশ্রণ

কখনও কখনও সংখ্যাসূচক এবং শ্রেণিবদ্ধ ভেরিয়েবলের সংমিশ্রণ থাকতে পারে। পূর্ববর্তী উদাহরণ থেকে, আমরা যদি লিঙ্গ অনুসারে শিক্ষার্থীদের ওজন পরীক্ষা করতে চাই, তবে আমরা হিস্টোগ্রামের ওভারলায়িং (overlaying ) প্লট করতে পারি।

ggplot(df, aes(x=weight, color=sex, fill=sex)) +
  geom_histogram(alpha=0.2, position="identity")+ 
  labs(title="Histogram of weight by sex")+
  theme_clean()+
  annotation_custom(l, xmin = 60, xmax = 65, ymin = 35, ymax = 45) +
  coord_cartesian(clip = "off")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

দুটি ভেরিয়েবল

যখনই দুটি সংখ্যক ভেরিয়েবল জড়িত হয়, আমরা তাদের মধ্যে সম্পর্ক বোঝার চেষ্টা করি।

mtcars%>%
  ggplot(aes(x=mpg,y=hp))+geom_point(aes(colour=hp))+
  labs(x="Fuel consumption (Miles per gallon)",
       y="Engine power (HP)",
       title = "Relationship between Engine power and fuel consumption"
       )+
  theme_clean()+
  annotation_custom(l, xmin = 30, xmax = 35, ymin = 275, ymax = 350) +
  coord_cartesian(clip = "off")

এবং যদি কোনও ভেরিয়েবলের তারিখ / বছর / মাস / সময় বা অনুরূপ হয়ে থাকে তবে আমরা প্রবণতাটি(trend) বোঝার চেষ্টা করি।

x = WDI(indicator='SL.UEM.TOTL.ZS', country=c('IN'))
x %>% 
  filter(is.na(x$SL.UEM.TOTL.ZS))

##    iso2c country SL.UEM.TOTL.ZS year
## 1     IN   India             NA 1990
## 2     IN   India             NA 1989
## 3     IN   India             NA 1988
## 4     IN   India             NA 1987
## 5     IN   India             NA 1986
## 6     IN   India             NA 1985
## 7     IN   India             NA 1984
## 8     IN   India             NA 1983
## 9     IN   India             NA 1982
## 10    IN   India             NA 1981
## 11    IN   India             NA 1980
## 12    IN   India             NA 1979
## 13    IN   India             NA 1978
## 14    IN   India             NA 1977
## 15    IN   India             NA 1976
## 16    IN   India             NA 1975
## 17    IN   India             NA 1974
## 18    IN   India             NA 1973
## 19    IN   India             NA 1972
## 20    IN   India             NA 1971
## 21    IN   India             NA 1970
## 22    IN   India             NA 1969
## 23    IN   India             NA 1968
## 24    IN   India             NA 1967
## 25    IN   India             NA 1966
## 26    IN   India             NA 1965
## 27    IN   India             NA 1964
## 28    IN   India             NA 1963
## 29    IN   India             NA 1962
## 30    IN   India             NA 1961
## 31    IN   India             NA 1960

x<-na.omit(x)
x$year<-lubridate::ymd(x$year, truncated = 2L)

x%>%
  ggplot(aes(x=year, y=SL.UEM.TOTL.ZS))+
  geom_line()+
  geom_point()+
  labs(x="Year",
       y="Unemployment Rate (% of labour force)",
       title = "Uemployment Rate by year in India",
       caption = "Source: World Bank")+
  theme_clean() +
  annotation_custom(l, xmin = 1995, xmax = 2000, ymin = 6.5, ymax = 7.0) +
  coord_cartesian(clip = "off")

এই ব্যাখ্যা গুলির ভিডিও দেখতে চাইলে নিচের ভিডিও টি দেখতে পারেন |