我要处理一些文本数据,数据格式如下:
id | content | category |
1 | ”ab*c()dfhjk?k“ | 1|3|5 |
数据文件为1.csv,首先读取数据文件,然后处理第二列数据和第三列数据。将第二列所有特殊符号删除,将第三列的|转换成空格,然后保存文件:
// An highlighted block
// [^[:alnum:]///' ]能搞定大部分特殊符号,搞不定的特殊符号,自己输入替换即可
d1<-read.csv("1.csv",header = F)
d2<-gsub("[^[:alnum:]///' ]", "", d1[,2])
d3<-gsub("[ | ]"," ",d1[,3])
d<-cbind(d2,d3)
write.table(d,file = "content_label.txt",row.names = F,quote = F)
处理之后的数据格式为:
id | content | category |
1 | abcdfhjkk | 1 3 5 |
对于gsub函数,简单理解为gsub(“文本中要处理的特殊符号”,”替换为的符号“,文件名)。