很久没怎么练字了,有点生疏了,重习胆巴碑,狼毫太涩,纸太湮墨,心也不够沉,希望后面多加练习。
五色斑驳似锦球,群鸟齐鸣朝霞飞。 彩云燃遍天边际,无尽风光在琼城。
端午节再临般若波罗蜜多心经
琼海一日游
IT从业人员的写照,你符合几条? 都说人在江湖,身不由己,看甲方看领导看老婆看小孩,还有更艰难的是不可说不可做。。。
Python数据挖掘、Python机器学习、Python深度学习的书籍买了不少本了,但真正读下来的却很少,为何?涉及高等数学,图论、离散数学等等,对我来说和天文差不多了,其实我只想做一个懂数据挖掘的人,不想研究那些深奥的理论知识。
词云主要包括三块内容,一块是词库,一块是分词,一块是可视化,一般来说词库和分词是密不可分的,分词会自带一些词库,当然也可以按照词库的格式要求引入一些停用词库、专业词库、自定义词库。此外在词库和分词英文和中文是完全不同的。
亲和性问题属于关联分析,关联分析采用的是Apriori算法和FP-growth算法,不过很奇怪的是,scikit-learn没有内置这些算法,需要靠代码来实现。
jieba 是一个python实现的分词库,对中文有着很强大的分词能力。通过版本一、二、四、五演示了如何一步步提升分词的可用性,当然一两天的功夫很难全部了解jieba的全部功能。
数据预处理,数据挖掘过程中需要对数据集进行预处理进行数据的转换。此外sklearn也提供了流水线,流水线的作用是使数据挖掘步骤标准化。
本笔记介绍两种分类算法——决策树和随机森林决策树,用它预测NBA篮球赛的获胜球队。比起其他算法,决策树有很多优点,其中最主要的一个优点是决策过程是机器和人都能看懂的,我们使用机器学习到的模型就能完成预测任务。
河流图能够动态的直观的反映出多个指标随着时序的变化而变化。matplotlib中提供了stackplot图表,后查询了很多材料,需要通过scipy的spline进行插值法处理,经过几天的反复测试,今天终于完全搞定了。
pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。从用法上pkuseg和jieba相差无几,pkuseg不支持直接使用自定义词库,当然通过函数也能扩展;从分词的实际效果上也相差不大。
主成分分析算法(PCA)的目的是找到能用较少信息描述数据集的特征组合。它意在发现彼此之间没有相关性、能够描述数据集的特征,确切说这些特征的方差跟整体方差没有多大差距,这样的特征也被称为主成分。
TF-IDF是一种用于信息检索与数据挖掘的常用加权技术。 TF意思是词频,表示词条在文档d中出现的频率。 IDF意思是逆文本频率指数。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力
关于词云的分析,一直想分析同一类文章的特征,不同类文章的特征,因此下载了射雕英雄传,神雕侠侣,倚天屠龙记这三部小说的前十章,又想着关于tf-idf的可视化分析问题,后来写着写着想着想着偏离主题了,变成射雕英雄传前十章人物的动态分析了。
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
特征抽取是数据挖掘任务最为重要的一个环节,一般而言,它对最终结果的影响要高过数据挖掘算法本身。但怎样选取好的特征,还没有严格、快捷的规则可循。
因工作内容需要,尝试爬取所有海南的A级景区,因之前通过BeautifulSoup爬取过一些网站,这次仍旧选了该组件,不过爬取的结果有点不如人意,景区数量和实际不匹配,尽管如此,还是把代码帖一下吧。
前两天看了许久BeautifulSoap,想找个网站挑战一下,刚好想到之前曾经爬过携程网,想爬一下酒店信息试一下,没想到刚尝试就碰到了钉子。
每天一天笔记也好文章也好,感觉还是要求挺高的,写的没点干货也挺难堪的,代码本来就是业余的事情,想写点干货对自
本文的目标是先熟悉文章相似度比较的流程,初衷前文也提过了主要是为了比较两个不同的地址体系,避免纯人工干预,相信论文查重也是部分利用这一原理,当然我对这些package未必理解,先解决会用能解决问题吧。
小学五年纪曾学过一个月素描,那时候的老师不怎么讲解理论,就是一大堆大大小小的小孩先画简单的石膏像,再画复杂的
所以在第一篇主要使用了urllib和BeautifulSOAP,在第二篇解析每个酒店的时候使用了selenium 和BeautifulSOAP,在本篇完全没办法解决延迟加载问题,不得已使用了selenium,总之一边踩坑一边进步。
Python最大的好处就是开源的package,你总能找到各种方案,不过换句话说,每种方案都也都有其优劣势,
可视化是数据分析的重要一环,也是python比较擅长的工作,本笔记系列尽可能采用统一的数据源和基于matplotlib原生版本进行可视化。
今晚跟文文老师学的是“唇唇欲动”的手绘课,课时大致一个小时,一边看电视一边听评书一边画画,是我的通常做法,有点三心二意。 也对!毛糙、浮躁、心不静、都市欲望的林林总总!都映射到一个人的心里,反映到画画的笔触上。
通过Heatmap热图可以简单地聚合大量数据,并使用一种渐进的色带来优雅地表现,最终效果一般优于离散点的直接显示,可以很直观地展现空间数据的发展趋势、疏密程度、频率高低。但也由于很直观,热图在数据表现的准确性并不能保证。
逐渐的人工智能已走入了日常生活中了,从对联生成器到古诗生成器,从智能翻译到机器写作,有时候看UC头条的新闻,感觉很多逻辑混乱的文章,有可能就是机器写作的也可能是机器翻译出来的,不管怎么样,文本写作已经成为人工智能的一个重要场景了。
第一个深度学习笔记吧,看书有一阵子了,对理论知识仍然稀里糊涂的,不过一边实操一边记笔记一边查资料,希望逐步再深入到理论里去,凡事开头难,也不怕他人笑话。一般深度学习都是从手写数字识别开始的。
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号