package com.jsptpd.wordpart; import java.util.Arrays; import java.util.List; /** * //TF-IDF算法——原理及实现 * */ public class App { /** * 词频统计 */ public double tf(Listdoc,String item) { double termFrequency = 0; for(String str:doc) { if(str.equalsIgnoreCase(item)) { termFrequency++; } } return termFrequency; } /*** * 文档频率统计 */ public int df(List<List> docs,String item) { int n =0; if(item != null && item != "") { for(Listdoc:docs) { for(String word:doc) { if(word.equalsIgnoreCase(item)) { n++; break; } } } }else { System.out.println("item 不能为null或者空串"); } return n; } /** * 逆文档频率 */ public double idf(List<List> docs,String item) { return Math.log(docs.size()/(double) df(docs,item)+1); } /* * 词频 */ public double tfIdf(Listdoc,List<List> docs,String item) { return tf(doc,item)*idf(docs,item); } public static void main( String[] args ) { Listdoc1 = Arrays.asList("人工","智能","成为","互联网","大会","焦点"); Listdoc2 = Arrays.asList("谷歌","推出","开源","人工","智能","系统","工具"); Listdoc3 = Arrays.asList("互联网","的","未来","在","人工","智能"); Listdoc4 = Arrays.asList("谷歌","开源","机器","学习","工具"); List<List> documents = Arrays.asList(doc1,doc2,doc3,doc4); App app1 = new App(); ; System.out.println(app1.tf(doc2, "谷歌")); System.out.println(app1.df(documents, "谷歌")); System.out.println(app1.tfIdf(doc4,documents, "学习")); } }
TF-IDF算法——原理及实现
原创wx5b58976cc0a6f ©著作权
上一篇:hive迁移
下一篇:HDFS commands
-
瞎聊机器学习——TF-IDF算法(原理及代码实现)
TF-IDF的概文章的长短是不同的,所以我们可以把上述内容进行一个...
TF-IDF 特征提取 词频 自定义 权重 -
数学与算法《TF-IDF》
TF-IDF零:寒暄寒暄昨天看了一天的CNN,结果被深度学习的深度给深深地深刻地深埋了(
算法 概率论 权重 深度学习 搜索 -
python TF-IDF
python TF-IDF
python -
【MapReduce】TF-IDF
文章目录TF-IDF一、概述二、案例_统计猫眼电影数据中的TF-IDF1.整体思路2.代码实现Step 1 — 计算 TFpart 1:自定义SQLBean获取需要数据p
mapreduce java apache hadoop -
zabbix服务端在window中如何启动
第一、环境准备主机与软件准备OS :centos 6.7x86_64Zabbix版本:zabbix-3.0.2MySql版本:MariaDB10.1.13Nginx版本:nginx-1.8.0PHP版本:php-5.6.1主机IP规划:主机IP:192.168.3.45主机资源规划:内存:2GB以上主机分区:/tmp分区至少2G以上,mysql数据磁盘20G以上第二、基础组件安装(LNMP)&nb
zabbix install_zabbix_serve zabbix-3.0.2编译安装 zabbix安装图文教程 mysql -
centos开机自启动seata
说明: 开机启动使用的命令式chkconfig 、防火墙相关的命令式iptables 1、chkconfig2、iptables 1、chkconfig 参数: --add 新增所指定的系统服务  
centos开机自启动seata 操作系统 系统服务 apache 开机启动