明白甲方要什么

• 1.吸引顾客,稳定客源
• 2.发现竞争优势
• 3.游客满意度以及影响因素

这三者的关系

• 1是最终目的,是核心
• 23是1的路径研究
• 2与3先导

我们有什么?

项目

Value

2个附件

景区和酒店的评论 数据(示例数据和比赛数据);景区和酒店的评分样表;关键词样表

1个C题详细说明

__

要解决的问题?

• 1景区及酒店印象分析
• 2景区及酒店综合评价
• 3网评文本的有效性分析
• 4景区及酒店的特色分析


1景区及酒店印象分析

初步构思

关键词抽取技术实现关键词获取,并通过统计关键词的词频大小获取评论焦点的热度,具体挖掘流程如下所示。首先基于词法分析做评论的分词和词条的词性标注,文本过滤筛选符合关键词搜索域的词条,比如,名词、动词、形容词等,接着基于关键词抽取技术抽取关键词,最后,对关键词做词频统计并基于词云图展示评论热点评论焦点。

泰迪杯数据挖掘竞赛代码 泰迪杯数据挖掘题目_数据


我的其他NPL文章参考【传送门1】【传送门2


2景区及酒店综合评价

拿手菜---------初步构思
建立综合评价体系
题目已经给出了要求 从服务、位置、设施、卫生、性价比五个维度建立指标体系

用独热编码

通多对文本词的训练,将每个词都映射到比较短、稠密度高的向量上来。所有的词构成一个向量空间,通过统计学的方法来研究词之间的关系。
把原本的词向量映射到这个相对低维空间的过程就称为词嵌入(Word Embedding)

达到的效果

景区名称

总得分

服务得分

位置得分

设施得分

卫生得分

性价比得分

A01

4.3


A02

4.3


A03

1.3





这里出来的是降维后的独热编码

还可以通过一些综合评价方法来做
常见的 熵权法+Topsis结合、层次分析法等等
难一点可以用决策表属性约简等方法

• 从MSE 角度反映对模型进行评价——exm?

3网评文本的有效性分析

初步感觉是 数据清洗,但这里好像是 做一个关于垃圾评论的筛选、删除的模型。
就比如我们逛淘宝的时候,淘宝社区会自动帮我屏蔽掉一些无用的评论,给到消费者有效评论

主要涉及:文本去重 这里可以基于文本之间的相似度计算,包括编辑距离去重,simhash算法去重等,但是也会去除一些相近的表达,可能会误删。推荐使用比较删除法

4景区及酒店的特色分析

感觉好像是有点像用户画像(Profile)一样
将景点和酒店按高中低三个层次
以前做过,感觉上可以用基于高斯云理论模型的K-means聚类方法。当然做用户画像的方法有很多种,供选择的也有很多【传送门

但是!这里有感觉有点多余了?
前面不是有综合评价模型?是否可以取综合得分,按照等级5分划分为三个等级?按照不同等级,分别对5个维度进行衡量,从而得到不同等级的特色?下对策建议等。。。

疑惑点

这个评论时间没想到怎么用?
具体的算法还没有落实到实处,只是具体有一了一个构思

欢迎留言交流!一起进步