对如下数据进行描述性分析,其中包括:最大值,最小值,中位数,众数等,求表的行数、列数。
- 读入数据
> mydata<-read.csv("C:\\Users\\adwar\\Desktop\\soapdata.csv")
求表的行数:
> nrow(mynewdata)
[1] 39
求表的列数:
> ncol(mynewdata)
[1] 18
- 对播放天数进行分析
- 读取播放天数
> a<-mynewdata$播放天数
> a
[1] NA NA 31 22 23 66 14 31 31 27 29 27 25 31 30 31 39 30 24
[20] 22 28 33 24 45 16 22 25 27 22 25 22 22 23 30 36 20 21 37
[39] 25 23 40 NA NA NA NA NA NA NA NA NA NA NA NA
- 去掉NA值
> newa<-na.omit(a)
> newa
[1] 31 22 23 66 14 31 31 27 29 27 25 31 30 31 39 30 24 22 28
[20] 33 24 45 16 22 25 27 22 25 22 22 23 30 36 20 21 37 25 23
[39] 40
- 求最大值
> max(newa)
[1] 66
- 求最小值
> min(newa)
[1] 14
- 求平均数
> round(mean(newa))
[1] 28
- 求中位数
> median(newa)
[1] 27
- 求众数
R语言中没有单独的函数用来求众数,但是可以利用table函数。table函数可以统计每个元素出现的次数。
> names(table(newa))[which.max(table(newa))]
[1] "22"
- 求方差
> var(newa)
[1] 79.99325
- 求标准差
> sd(newa)
[1] 8.943895
- 对收视率进行分析:
- 读取收视率
> b<-mydata$收视率
> b
[1] 1.1280 1.1840 1.5760 0.7830 0.7850 0.8350 0.9380 3.6610
[9] 1.0480 0.9400 0.7132 1.9300 0.8770 1.1670 1.2880 0.4860
[17] 1.3140 0.9820 1.2290 1.2300 1.4900 1.1800 0.8900 1.7100
[25] 0.9300 0.9400 1.1800 1.6400 1.1800 2.0400 1.2200 1.2200
[33] 1.1000 1.1400 0.9700 0.9100 1.0600 1.0000 1.3000 1.4100
[41] 2.9100 NA NA NA NA NA NA NA
[49] NA NA NA NA NA
- 去掉NA值
> newb<-na.omit(b)
> newb
[1] 1.1280 1.1840 1.5760 0.7830 0.7850 0.8350 0.9380 3.6610
[9] 1.0480 0.9400 0.7132 1.9300 0.8770 1.1670 1.2880 0.4860
[17] 1.3140 0.9820 1.2290 1.2300 1.4900 1.1800 0.8900 1.7100
[25] 0.9300 0.9400 1.1800 1.6400 1.1800 2.0400 1.2200 1.2200
[33] 1.1000 1.1400 0.9700 0.9100 1.0600 1.0000 1.3000 1.4100
[41] 2.9100
- 求最大值
> max(newb)
[1] 3.661
- 求最小值
> min(newb)
[1] 0.486
- 求平均数
> mean(newb)
[1] 1.256444
- 求中位数
> median(newb)
[1] 1.167
- 求众数
> names(table(newb))[which.max(table(newb))]
[1] "1.18"
- 求方差
> var(newb)
[1] 0.3209224
- 求标准差
> sd(newb)
[1] 0.5665001
- 对网络播放量进行分析(单位:亿):
- 读取网络播放量
> c<-mydata$网络播放量.亿.
>c
[1] 21.4 92.9 237.8 17.4 74.3 69.2 52.9 302.4 14.5
[10] 49.1 52.9 85.4 11.9 46.4 410.5 57.4 188.2 83.2
[19] 79.5 91.4 251.3 80.0 85.8 110.6 203.7 75.2 86.6
[28] 64.7 148.9 101.5 42.5 207.3 17.6 110.8 14.2 4.0
[37] 4.9 41.9 78.6 37.0 264.8 NA NA NA NA
[46] NA NA NA NA NA NA NA NA
- 去掉NA值
> newc<-na.omit(c)
> newc
[1] 21.4 92.9 237.8 17.4 74.3 69.2 52.9 302.4 14.5
[10] 49.1 52.9 85.4 11.9 46.4 410.5 57.4 188.2 83.2
[19] 79.5 91.4 251.3 80.0 85.8 110.6 203.7 75.2 86.6
[28] 64.7 148.9 101.5 42.5 207.3 17.6 110.8 14.2 4.0
[37] 4.9 41.9 78.6 37.0 264.8
- 求最大值
> max(newc)
[1] 410.5
- 求最小值
> min(newc)
[1] 4
- 求平均数
> mean(newc)
[1] 99.28293
- 求中位数
> median(newc)
[1] 78.6
- 求众数
> names(table(newc))[which.max(table(newc))]
[1] "52.9"
- 求方差
> var(newc)
[1] 8191.57
- 求标准差
> sd(newc)
[1] 90.5073
- 对可见弹幕数进行分析:
- 读取可见弹幕数
> d<-mydata$可见弹幕数
> d
[1] 523749.00 1666971.00 3952034.00 390280.00 1602817.00
[6] 871015.00 1015972.00 4520483.00 383356.00 1079913.00
[11] 571716.00 25122.34 850278.00 959334.00 8199705.00
[16] 1832970.00 658196.00 1980935.00 1162211.00 1064108.00
[21] 3212744.00 769342.00 1114648.00 2141146.00 993456.00
[26] 1281756.00 1285431.00 994242.00 2520841.00 403134.00
[31] 320279.00 3201981.00 348560.00 997472.00 381561.00
[36] 127588.00 58571.00 652281.00 500105.00 914847.00
[41] 1291142.00 NA NA NA NA
[46] NA NA NA NA NA
[51] NA NA NA
- 去掉NA值
> newd<-na.omit(d)
> newd
[1] 523749.00 1666971.00 3952034.00 390280.00 1602817.00
[6] 871015.00 1015972.00 4520483.00 383356.00 1079913.00
[11] 571716.00 25122.34 850278.00 959334.00 8199705.00
[16] 1832970.00 658196.00 1980935.00 1162211.00 1064108.00
[21] 3212744.00 769342.00 1114648.00 2141146.00 993456.00
[26] 1281756.00 1285431.00 994242.00 2520841.00 403134.00
[31] 320279.00 3201981.00 348560.00 997472.00 381561.00
[36] 127588.00 58571.00 652281.00 500105.00 914847.00
[41] 1291142.00
- 求最大值
> max(newd)
[1] 8199705
- 求最小值
> min(newd)
[1] 25122.34
- 求平均数
> mean(newd)
[1] 1385910
- 求中位数
> median(newd)
[1] 994242
- 求众数
> names(table(newd))[which.max(table(newd))]
[1] "25122.34"
- 求方差
> var(newd)
[1] 2.223309e+12
- 求标准差
> sd(newd)
[1] 1491077
- 对视频网站总评论数进行分析:
- 读取视频网站总评论数
> e<-mydata$视频网站总评论数
> e
[1] 204172 474344 1243220 118268 218122 549517 147691
[8] 492970 66268 156509 101593 391934 64019 205821
[15] 2351795 349208 711652 730880 200662 418806 964734
[22] 180304 256088 564411 1205515 481528 395785 232258
[29] 515005 779238 77288 1097082 98112 322887 128603
[36] 41128 24446 226313 2049235 254907 2317520 NA
[43] NA NA NA NA NA NA NA
[50] NA NA NA NA
- 去掉NA值
> newe<-na.omit(e)
> newe
[1] 204172 474344 1243220 118268 218122 549517 147691
[8] 492970 66268 156509 101593 391934 64019 205821
[15] 2351795 349208 711652 730880 200662 418806 964734
[22] 180304 256088 564411 1205515 481528 395785 232258
[29] 515005 779238 77288 1097082 98112 322887 128603
[36] 41128 24446 226313 2049235 254907 2317520
- 求最大值
> max(newe)
[1] 2351795
- 求最小值
> min(newe)
[1] 24446
- 求平均数
> mean(newe)
[1] 522191.2
- 求中位数
> median(newe)
[1] 322887
- 求众数
> names(table(newe))[which.max(table(newe))]
[1] "24446"
- 求方差
> var(newe)
[1] 338833639743
- 求标准差
> sd(newe)
[1] 582094.2
- 对相关微博数进行分析(单位:万):
- 读取相关微博数
> f<-mydata$相关微博数.万.
> f
[1] 37.1000 28.4000 55.0000 2.9000 13.8000 12.0000
[7] 11.1000 39.5000 0.3564 3.3000 3.1000 367.1000
[13] 1.9000 1.2000 163.3000 40.5000 39.6000 21.1000
[19] 4.0000 7.4000 7.1000 0.6475 13.7000 12.5000
[25] 9.6000 1.4000 3.0000 9.8000 3.4000 1.1000
[31] 0.5454 78.5000 0.0768 0.4118 0.1765 1.6000
[37] 0.2335 0.5264 0.6820 0.0826 0.1028 NA
[43] NA NA NA NA NA NA
[49] NA NA NA NA NA
- 去掉NA值
> newf<-na.omit(f)
> newf
[1] 37.1000 28.4000 55.0000 2.9000 13.8000 12.0000
[7] 11.1000 39.5000 0.3564 3.3000 3.1000 367.1000
[13] 1.9000 1.2000 163.3000 40.5000 39.6000 21.1000
[19] 4.0000 7.4000 7.1000 0.6475 13.7000 12.5000
[25] 9.6000 1.4000 3.0000 9.8000 3.4000 1.1000
[31] 0.5454 78.5000 0.0768 0.4118 0.1765 1.6000
[37] 0.2335 0.5264 0.6820 0.0826 0.1028
- 求最大值
> max(newf)
[1] 367.1
- 求最小值
> min(newf)
[1] 0.0768
- 求平均数
> mean(newf)
[1] 24.3376
- 求中位数
> median(newf)
[1] 3.4
- 求众数
> names(table(newf))[which.max(table(newf))]
[1] "0.0768"
- 求方差
> var(newf)
[1] 3872.535
- 求标准差
> sd(newf)
[1] 62.22969
- 对微博相关话题讨论量进行分析(单位:万):
- 读取微博相关话题讨论量
> g<-mydata$微博相关话题讨论量.万.
> g
[1] 402.5000 275.7000 386.2000 24.8000 91.8000 73.9000
[7] 29.4000 215.8000 1.9000 10.2000 14.9000 108.2000
[13] 15.1000 10.3000 985.5000 304.1000 250.1000 125.2000
[19] 17.7000 27.6000 41.7000 1.9000 26.4000 39.7000
[25] 52.8000 7.6000 3.3000 36.0000 8.1000 9.2000
[31] 3.2000 588.9000 0.0770 3.9000 0.3682 0.0849
[37] 0.3995 2.0000 6.1000 1.6000 1.3000 NA
[43] NA NA NA NA NA NA
[49] NA NA NA NA NA
- 去掉NA值
> newg<-na.omit(g)
> newg
[1] 402.5000 275.7000 386.2000 24.8000 91.8000 73.9000
[7] 29.4000 215.8000 1.9000 10.2000 14.9000 108.2000
[13] 15.1000 10.3000 985.5000 304.1000 250.1000 125.2000
[19] 17.7000 27.6000 41.7000 1.9000 26.4000 39.7000
[25] 52.8000 7.6000 3.3000 36.0000 8.1000 9.2000
[31] 3.2000 588.9000 0.0770 3.9000 0.3682 0.0849
[37] 0.3995 2.0000 6.1000 1.6000 1.3000
- 求最大值
> max(newg)
[1] 985.5
- 求最小值
> min(newg)
[1] 0.077
- 求平均数
> mean(newg)
[1] 102.5739
- 求中位数
> median(newg)
[1] 17.7
- 求众数
> names(table(newg))[which.max(table(newg))]
[1] "1.9"
- 求方差
> var(newg)
[1] 38206.95
- 求标准差
> sd(newg)
[1] 195.466
- 对微博总点赞量进行分析(单位:万):
- 读取微博总点赞量
> h<-mydata$微博总点赞量.万.
> h
[1] 1100.0000 1700.0000 1700.0000 114.5000 285.0000
[6] 243.8000 110.6000 678.1000 2.6000 41.9000
[11] 27.7000 2300.0000 25.0000 8.2000 7.1000
[16] 1100.0000 958.5000 528.9000 22.1000 418.5000
[21] 68.4000 2.3000 88.9000 96.5000 137.9000
[26] 14.7000 15.3000 108.2000 21.3000 9.7000
[31] 6.1000 0.2200 0.2891 5.2000 0.7307
[36] 0.4521 0.7925 2.5000 10.4000 2.6000
[41] 3.0000 NA NA NA NA
[46] NA NA NA NA NA
[51] NA NA NA
- 去掉NA值
> newh<-na.omit(h)
> newh
[1] 1100.0000 1700.0000 1700.0000 114.5000 285.0000
[6] 243.8000 110.6000 678.1000 2.6000 41.9000
[11] 27.7000 2300.0000 25.0000 8.2000 7.1000
[16] 1100.0000 958.5000 528.9000 22.1000 418.5000
[21] 68.4000 2.3000 88.9000 96.5000 137.9000
[26] 14.7000 15.3000 108.2000 21.3000 9.7000
[31] 6.1000 0.2200 0.2891 5.2000 0.7307
[36] 0.4521 0.7925 2.5000 10.4000 2.6000
[41] 3.0000
- 求最大值
> max(newh)
[1] 2300
- 求最小值
> min(newh)
[1] 0.22
- 求平均数
> mean(newh)
[1] 102.5739
- 求中位数
> median(newh)
[1] 17.7
- 求众数
> names(table(newh))[which.max(table(newh))]
[1] "1.9"
- 求方差
> var(newh)
[1] 38206.95
- 求标准差
> sd(newh)
[1] 195.466
- 对微博总转发量进行分析(单位:万):
- 读取微博总转发量
> i<-mydata$微博总转发量.万.
> i
[1] 8.741e+02 1.000e+03 5.824e+02 2.980e+01 1.380e+02
[6] 1.051e+02 5.700e+01 3.393e+02 1.800e+00 1.320e+01
[11] 3.170e+01 8.900e+03 3.090e+01 5.100e+00 1.200e+04
[16] 5.990e+02 5.214e+02 2.331e+02 4.130e+01 1.802e+02
[21] 7.250e+01 2.000e+00 5.100e+01 5.270e+01 1.113e+02
[26] 8.400e+00 2.300e+00 8.770e+01 1.570e+01 6.800e+00
[31] 2.700e+00 7.937e+02 4.700e-02 5.300e+00 1.436e-01
[36] 1.396e-01 2.435e-01 2.500e+00 1.030e+01 6.617e-01
[41] 2.600e+00 NA NA NA NA
[46] NA NA NA NA NA
[51] NA NA NA
- 去掉NA值
> newi<-na.omit(i)
> newi
[1] 8.741e+02 1.000e+03 5.824e+02 2.980e+01 1.380e+02
[6] 1.051e+02 5.700e+01 3.393e+02 1.800e+00 1.320e+01
[11] 3.170e+01 8.900e+03 3.090e+01 5.100e+00 1.200e+04
[16] 5.990e+02 5.214e+02 2.331e+02 4.130e+01 1.802e+02
[21] 7.250e+01 2.000e+00 5.100e+01 5.270e+01 1.113e+02
[26] 8.400e+00 2.300e+00 8.770e+01 1.570e+01 6.800e+00
[31] 2.700e+00 7.937e+02 4.700e-02 5.300e+00 1.436e-01
[36] 1.396e-01 2.435e-01 2.500e+00 1.030e+01 6.617e-01
[41] 2.600e+00
- 求最大值
> max(newi)
[1] 12000
- 求最小值
> min(newi)
[1] 0.047
- 求平均数
> mean(newi)
[1] 656.3935
- 求中位数
> median(newi)
[1] 31.7
- 求众数
> names(table(newi))[which.max(table(newi))]
[1] "0.047"
- 求方差
> var(newi)
[1] 5229504
- 求标准差
> sd(newi)
[1] 2286.811
- 对百度指数进行分析:
- 读取百度指数
> j<-mydata$百度指数
> j
[1] 653475 927529 212789 7243 25229 313109 25028 114236
[9] 6264 4513 31652 23157 5013 2323 82014 31470
[17] 7274 9713 2303 2402 12387 1861 4329 5408
[25] 33292 4374 5682 2894 6462 5917 2083 135760
[33] 1283 5557 1806 397 673 1427 2508 1056
[41] 10288 NA NA NA NA NA NA NA
[49] NA NA NA NA NA
- 去掉NA值
> newj<-na.omit(j)
> newj
[1] 653475 927529 212789 7243 25229 313109 25028 114236
[9] 6264 4513 31652 23157 5013 2323 82014 31470
[17] 7274 9713 2303 2402 12387 1861 4329 5408
[25] 33292 4374 5682 2894 6462 5917 2083 135760
[33] 1283 5557 1806 397 673 1427 2508 1056
[41] 10288
- 求最大值
> max(newj)
[1] 927529
- 求最小值
> min(newj)
[1] 397
- 求平均数
> mean(newj)
[1] 66638.54
- 求中位数
> median(newj)
[1] 5917
- 求众数
> names(table(newj))[which.max(table(newj))]
[1] "397"
- 求方差
> var(newj)
[1] 32312314828
- 求标准差
> sd(newj)
[1] 179756.3
- 对360指数进行分析:
- 读取360指数
> k<-mydata$X360指数
> k
[1] 3398052 9938557 2312858 18678 83709 4069221 28766
[8] 676408 13683 25892 19779 39121 9212 5845
[15] 189618 32696 12493 9314 2269 2164 14020
[22] 1356 12211 7893 176718 6864 15007 83575
[29] 10466 7430 2161 2583514 556 12991 2088
[36] 126 134 1226 1932 1646 16126 NA
[43] NA NA NA NA NA NA NA
[50] NA NA NA NA
- 去掉NA值
> newk<-na.omit(k)
> newk
[1] 3398052 9938557 2312858 18678 83709 4069221 28766
[8] 676408 13683 25892 19779 39121 9212 5845
[15] 189618 32696 12493 9314 2269 2164 14020
[22] 1356 12211 7893 176718 6864 15007 83575
[29] 10466 7430 2161 2583514 556 12991 2088
[36] 126 134 1226 1932 1646 16126
- 求最大值
> max(newk)
[1] 9938557
- 求最小值
> min(newk)
[1] 126
- 求平均数
> mean(newk)
[1] 581618.9
- 求中位数
> median(newk)
[1] 12991
- 求众数
> names(table(newk))[which.max(table(newk))]
[1] "126"
- 求方差
> var(newk)
[1] 3.139499e+12
- 求标准差
> sd(newk)
[1] 1771863
- 对新闻收录量进行分析:
- 读取新闻收录量
> l<-mydata$新闻收录量
> l
[1] 13200 5230 61700 1480 8240 35900 3600 78900
[9] 282 3360 3560 8420 1230 692 69400 15000
[17] 8630 4200 2130 285 21700 10800 19600 41300
[25] 31100 6780 1810 264000 164000 8830 4730 124000
[33] 4090 13500 2850 1160 69100 3880 15500 3940
[41] 92700 NA NA NA NA NA NA NA
[49] NA NA NA NA NA
- 去掉NA值
> newl<-na.omit(l)
> newl
[1] 13200 5230 61700 1480 8240 35900 3600 78900
[9] 282 3360 3560 8420 1230 692 69400 15000
[17] 8630 4200 2130 285 21700 10800 19600 41300
[25] 31100 6780 1810 264000 164000 8830 4730 124000
[33] 4090 13500 2850 1160 69100 3880 15500 3940
[41] 92700
- 求最大值
> max(newl)
[1] 264000
- 求最小值
> min(newl)
[1] 282
- 求平均数
> mean(newl)
[1] 30019.73
- 求中位数
> median(newl)
[1] 8420
- 求众数
> names(table(newl))[which.max(table(newl))]
[1] "282"
- 求方差
> var(newl)
[1] 2737539284
- 求标准差
> sd(newl)
[1] 52321.5
- 对豆瓣评分进行分析:
- 读取豆瓣评分
> m<-mydata$豆瓣评分
> m
[1] 4.3 5.5 5.2 5.0 7.5 9.0 6.6 8.3 2.8 6.5 8.2 4.6 8.5 3.0
[15] 6.4 6.9 3.1 4.7 4.7 4.5 4.8 5.3 5.7 6.3 5.1 7.8 3.9 4.7
[29] 6.6 5.0 6.9 7.3 5.5 3.3 3.4 4.4 3.7 6.3 6.1 5.3 5.2 NA
[43] NA NA NA NA NA NA NA NA NA NA NA
- 去掉NA值
> newm<-na.omit(m)
> newm
[1] 4.3 5.5 5.2 5.0 7.5 9.0 6.6 8.3 2.8 6.5 8.2 4.6 8.5 3.0
[15] 6.4 6.9 3.1 4.7 4.7 4.5 4.8 5.3 5.7 6.3 5.1 7.8 3.9 4.7
[29] 6.6 5.0 6.9 7.3 5.5 3.3 3.4 4.4 3.7 6.3 6.1 5.3 5.2
- 求最大值
> max(newm)
[1] 9
- 求最小值
> min(newm)
[1] 2.8
- 求平均数
> mean(newm)
[1] 5.558537
- 求中位数
> median(newm)
[1] 5.3
- 求众数
> names(table(newm))[which.max(table(newm))]
[1] "4.7"
- 求方差
> var(newm)
[1] 2.518488
- 求标准差
> sd(newm)
[1] 1.586974
- 对豆瓣评价人数进行分析:
- 读取豆瓣评价人数
> n<-mydata$豆瓣评价人数
> n
[1] 12917 24310 44886 1284 36407 32357 7108 159558
[9] 878 7823 11813 5266 20260 1953 80309 45638
[17] 44905 11465 4712 12498 27132 6354 14630 28895
[25] 65386 19087 2107 4754 22457 18487 5858 95287
[33] 1586 4235 330 110 253 3249 20935 2792
[41] 54049 NA NA NA NA NA NA NA
[49] NA NA NA NA NA
- 去掉NA值
> newn<-na.omit(n)
> newn
[1] 12917 24310 44886 1284 36407 32357 7108 159558
[9] 878 7823 11813 5266 20260 1953 80309 45638
[17] 44905 11465 4712 12498 27132 6354 14630 28895
[25] 65386 19087 2107 4754 22457 18487 5858 95287
[33] 1586 4235 330 110 253 3249 20935 2792
[41] 54049
- 求最大值
> max(newn)
[1] 159558
- 求最小值
> min(newn)
[1] 110
- 求平均数
> mean(newn)
[1] 23520
- 求中位数
> median(newn)
[1] 12498
- 求众数
> names(table(newn))[which.max(table(newn))]
[1] "110"
- 求方差
> var(newn)
[1] 983201853
- 求标准差
> sd(newn)
[1] 31356.05