分析方向:姓名影响力数据挖掘分析

数据字段选择

高校,地区,姓名

数据分析目的

1.名字伴随人的一生,很多人无法自我选择,而名字也是父母给予子女的一个定位,也是父母对子女一生之中最大的期望。男性多用什么字定名频数最高?女性多用什么字定名频数最高?

2.中国父母对子女的爱有多深?以姓名可窥见,如平,龙,静,好,成等字,这些无不表大父母期望子女是求事事平和,亦或是求事业有成,更或是求一生顺意,这些从每个人的姓名就能看出。

3.生物演化,层次递进,历史的底蕴,将影响现今的生活。而名字又侧面反映父母的文化水平和父母的情感,可是子女是否达到了期望?以学校定义或薪资定义

4.姓名暗示和成功心理学,人常说字如其人,可不也说声名显赫吗?如成龙,卫国,等等,那这样,比较不同的大学,褒义词,励志词。期盼词中在不同高校的占比情况,看是否名字激励也伴随着不同的人。

5.90后,00后,父母对其期盼心理变化,也伴随名字取名的变化。不同的取名的变化,意味着不同时代的父母观念的一种变化,例如70父母,80父母对生活的转变。

6.取名的风水变化,是否包含金木水火土阴阳及风雷雨雪,等等,这些也从另一个角度暗示中国的迷信色彩渐渐趋于了一个常态,开始变得较为平和。

7.名字倾向,前鼻音和后鼻音,顺口偏好选择的分析。

姓名数据挖掘

好的名字,将伴随人的一生。一个人的姓氏很难改变,但名却又有很多相同,红楼梦尚有贾史王薛,百家姓尚有整合。那关于一个人的名,是否有什么意义探究呢?为此选择一些数据进行姓名的名偏好进行分析,看大家取名的偏好如何,是否天生丽质,婷婷静好?

选择数据如下所示:
姓名数据挖掘偏好选字分析_模型 程序 代码

第一步:分割数据

library(readxl)
library(data.table)
data=read_excel(“C:\Users\Lenovo\Desktop\namefreqbyse.xlsx”)
str(data)
data=data.table(data)

第二步:提取名字符

##找出数据中,名字是1个字,2个字,3个字,4个字的数据,命名为data1,data2,data3,data4

data1=data[nchar(data f n a m e ) = = 1 , ] ; h e a d ( d a t a 1 ) d a t a 2 = d a t a [ n c h a r ( d a t a fname)==1,];head(data1) data2=data[nchar(data fname)==1,];head(data1)data2=data[nchar(datafname)==2,];head(data2)
data3=data[nchar(data f n a m e ) = = 3 , ] ; h e a d ( d a t a 3 ) d a t a 4 = d a t a [ n c h a r ( d a t a fname)==3,];head(data3) data4=data[nchar(data fname)==3,];head(data3)data4=data[nchar(datafname)==4,];head(data4)

第三步:分别拆分名字这列的数据字符

n1=lengths(data1[,1])#判断数据1的所有个数,得到27条数据
print(n1)
n2=lengths(data2[,1])#判断数据2的所有个数,得到76条数据
print(n2)
n3=lengths(data3[,1])#判断数据3的所有个数,个数为0
print(n3)
n4=lengths(data4[,1])#判断数据4的所有个数,个数为0
print(n4)

第四步:根据数据个数进行字段拆分

###ma1=data1[,c(“长度”) := tstrsplit(dataKaTeX parse error: Expected 'EOF', got '#' at position 47: …)][rep(1:27)] #̲#ma3=data3[,"长度…fname[rep(1:65)],"", fixed=TRUE)][rep(1:65)]
##ma4=data4[,“长度”) := tstrsplit(data$fname[rep(1:15)],"", fixed=TRUE)][rep(1:15)]

ma2=data2[,c(“type1”,“type2”) := tstrsplit(data$fname[rep(1:76)],"", fixed=TRUE)][rep(1:76)]
ma2_1<-ma2[,c(“type1”,“maleN”,“femaleN”)]
ma2_1[,“type”]<-ma2_1[,“type1”];head(ma2_1)
m1data<-ma2_1[,c(“type”,“maleN”,“femaleN”)]
ma2_2<-ma2[,c(“type2”,“maleN”,“femaleN”)];head(ma2_2)
ma2_2[,“type”]<-ma2_2[,“type2”];head(ma2_2)
m2data<-ma2_2[,c(“type”,“maleN”,“femaleN”)]

第五步:合并数据

#单独提取字符数据拼接

dx=rbind(m1data,m2data)# 合并2个名字的最终数据
dx[,“fname”]<-dx[,“type”]
end_dx<-dx[,c(“fname”,“maleN”,“femaleN”)]
cdata<-rbind(end_dx,data1)
result<-cdata

第六步:求和数据

result f n a m e < − f a c t o r ( r e s u l t fname<-factor(result fname<factor(resultfname);
z1=tapply(result f e m a l e N , r e s u l t femaleN,result femaleN,resultfname,sum) #女性名字求和
z1=tapply(result f e m a l e N , r e s u l t femaleN,result femaleN,resultfname,sum) #男性名字求和

姓名数据挖掘偏好选字分析_模型 程序 代码_02
由字词展示分析得,父母希望男孩望子成龙,一生平安,俊俏明理,心想事成。

姓名数据挖掘偏好选字分析_模型 程序 代码_03

由字词展示分析得,父母希望女孩聪慧芳香,丽质静好,倩影美丽。

姓名数据挖掘偏好选字分析_模型 程序 代码_04

察微小之事,研数据之秘。
做分析挖掘:微信:tan1525859926