明白甲方要什么
• 1.吸引顾客,稳定客源
• 2.发现竞争优势
• 3.游客满意度以及影响因素
这三者的关系
• 1是最终目的,是核心
• 23是1的路径研究
• 2与3先导
我们有什么?
项目 | Value |
2个附件 | 景区和酒店的评论 数据(示例数据和比赛数据);景区和酒店的评分样表;关键词样表 |
1个C题详细说明 | __ |
要解决的问题?
• 1景区及酒店印象分析
• 2景区及酒店综合评价
• 3网评文本的有效性分析
• 4景区及酒店的特色分析
1景区及酒店印象分析
• 初步构思
关键词抽取技术实现关键词获取,并通过统计关键词的词频大小获取评论焦点的热度,具体挖掘流程如下所示。首先基于词法分析做评论的分词和词条的词性标注,文本过滤筛选符合关键词搜索域的词条,比如,名词、动词、形容词等,接着基于关键词抽取技术抽取关键词,最后,对关键词做词频统计并基于词云图展示评论热点评论焦点。
2景区及酒店综合评价
• 拿手菜---------初步构思
建立综合评价体系
题目已经给出了要求 从服务、位置、设施、卫生、性价比五个维度建立指标体系
用独热编码
通多对文本词的训练,将每个词都映射到比较短、稠密度高的向量上来。所有的词构成一个向量空间,通过统计学的方法来研究词之间的关系。
把原本的词向量映射到这个相对低维空间的过程就称为词嵌入(Word Embedding)
达到的效果
景区名称 | 总得分 | 服务得分 | 位置得分 | 设施得分 | 卫生得分 | 性价比得分 |
A01 | 4.3 | … | ||||
A02 | 4.3 | … | ||||
A03 | 1.3 | … | ||||
… | … | … | ||||
这里出来的是降维后的独热编码 |
还可以通过一些综合评价方法来做
常见的 熵权法+Topsis结合、层次分析法等等
难一点可以用决策表属性约简等方法
• 从MSE 角度反映对模型进行评价——exm?
3网评文本的有效性分析
初步感觉是 数据清洗,但这里好像是 做一个关于垃圾评论的筛选、删除的模型。
就比如我们逛淘宝的时候,淘宝社区会自动帮我屏蔽掉一些无用的评论,给到消费者有效评论
主要涉及:文本去重 这里可以基于文本之间的相似度计算,包括编辑距离去重,simhash算法去重等,但是也会去除一些相近的表达,可能会误删。推荐使用比较删除法
4景区及酒店的特色分析
感觉好像是有点像用户画像(Profile)一样
将景点和酒店按高中低三个层次
以前做过,感觉上可以用基于高斯云理论模型的K-means聚类方法。当然做用户画像的方法有很多种,供选择的也有很多【传送门】
但是!这里有感觉有点多余了?
前面不是有综合评价模型?是否可以取综合得分,按照等级5分划分为三个等级?按照不同等级,分别对5个维度进行衡量,从而得到不同等级的特色?下对策建议等。。。
疑惑点
这个评论时间没想到怎么用?
具体的算法还没有落实到实处,只是具体有一了一个构思
欢迎留言交流!一起进步