我要处理一些文本数据,数据格式如下:

id

content

category

1

”ab*c()dfhjk?k“

1|3|5

数据文件为1.csv,首先读取数据文件,然后处理第二列数据和第三列数据。将第二列所有特殊符号删除,将第三列的|转换成空格,然后保存文件:

// An highlighted block
// [^[:alnum:]///' ]能搞定大部分特殊符号,搞不定的特殊符号,自己输入替换即可
 d1<-read.csv("1.csv",header = F)
 d2<-gsub("[^[:alnum:]///' ]", "", d1[,2])
 d3<-gsub("[ | ]"," ",d1[,3])
 d<-cbind(d2,d3)
  write.table(d,file = "content_label.txt",row.names = F,quote = F)

处理之后的数据格式为:

id

content

category

1

abcdfhjkk

1 3 5

对于gsub函数,简单理解为gsub(“文本中要处理的特殊符号”,”替换为的符号“,文件名)。