乐胖代购免代理版

语义分析的一些方法(一)

语义分析，本文指运用各种机器学习方法，挖掘与学习文本、图片等的深层次概念。wikipedia上的解释：In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or ima

语言模型

语义分析

数据

转载 2023-07-11 14:08:19 111 阅读

语义分析的一些方法(三)

原文地址3 图片语义分析3.1 图片分类图片分类是一个最基本的图片语义分析方法。基于深度学习的图片分类传统的图片分类如下

数据

卷积

语义分析

转载 2023-07-11 14:07:53 98 阅读

语义分析的一些方法(二)

原文地址2 文本语义分析前面讲到一些文本基本处理方法。一个文本串，对其进行分词和重要性打分后（当然还有更多的文本处理任务），就可以开始更高层的语义分析任务。2.1 Topic Model首先介绍主题模型。说到主题模型，第一时间会想到pLSA，NMF，LDA。关于这几个目前业界最常用的主题模型，已经有相当多的介绍了，譬如文献[60主题模型

词向量

卷积

文本分类

转载 2023-07-11 14:07:00 107 阅读

基于互信息和左右信息熵的短语提取识别

并给出原理和步骤。开源项目本文代码已集成到HanLP中开源：http://www.hankcs.com/nlp/hanlp.html 测试数据算法工程师算法（Algorithm）是一系列解决问题的清晰指令，也就是说，能够对一定规范的输入，在有限时间内获得所要求的输出。如果一个算法有缺陷，或不适合于某个问题，执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务

信号处理

复杂度

3D

转载 2023-07-11 13:36:44 78 阅读

语义分析工具

中科院http://ictclas.nlpir.org/nlpir/哈工大http://www.ltp-cloud.com/

系统

原创 2023-07-11 13:36:12 142 阅读

NLTK学习笔记

k.set_proxy("**.com:80")nltk.download()2. 使用sents(fileid)函数时候出现：Resource 'tokenizers/punkt/engl

元组

sed

svn

转载 2023-07-11 10:16:56 36 阅读

使用python+机器学习方法进行情感分析(详细步骤)

原文地址不是有词典匹配的方法了吗？怎么还搞多个机器学习方法。因为词典方法和机器学习方法各有千秋。机器学习的方法精。回复此公众号

机器学习

分类算法

好用

转载 2023-07-11 10:16:43 157 阅读

界 | Facebook人工智能实验室开源文本分类专用工具fastText

选自Facebook作者：Armand Joulin、Edouard Grave、PiotrBojanowski、Tomas Mikolov参与：黄清纬、李亚洲 fastText是 Facebook 开发的一款快速文本分类器，提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快（学界 | Facebook研究者提出新型文本分类方法fastText：性能比肩深度学习而且速度更快）

文本分类

深度学习

数据集

原创 2023-07-11 10:15:06 45 阅读

中文维基百科上的word2vec实验，python及java版本

放下的NLP收拾起来，刚准备做关系抽取，然后把词变成向量的时候看到了Word2Vec这个神器，然后就开始了折腾之路1.java版的目前Word2Vec有很多版本，这次主要实验的是python版本，但开始为了省心（就在当前项目内）就先用java版的试

sed

python

java

转载 2023-07-11 09:44:22 143 阅读

LDA的python实现之模型参数训练

不少关于主题模型的东西，要说起主题模型，现在最火的当然是LDA, LDA全称是Latent Dirichlet Allocation(隐狄利克雷分布), 而不是Linear Discriminant Analysis, 相信大家很多都对lda的理解感到痛苦不

初始化

python

字符串

转载 2023-07-11 09:29:36 189 阅读

KD-tree的原理以及构建与查询操作的python实现

几天小组讨论会上展示了kd-tree（k－dimension tree），感觉这玩意儿还挺有用的，所以学习了一下它的原理，然后把其中的构建kd-tree以及对应的查询操作实现了一下，现在跟大家分享一下首先说一下什么是kd-tree把

搜索

数据

方差

转载 2023-07-11 09:27:19 552 阅读

LDA(Latent Dirichlet Allocation)主题模型算法

原文LDA整体流程先定义一些字母的含义：文档集合D，topic集合TD中每个文档d看作一个单词序

迭代

取值

赋值

转载 2023-07-11 00:27:28 107 阅读

UndefinedMetricWarning: Precision is ill-defined and being set to 0.0 due to no predicted samples.

# -*- coding: utf-8 -*-import jieba, osimport codecsfrom gensim import corpora, models, similaritiesfrom pprint import pprintfrom collectsrc.

ci

数据

原创 2023-07-11 00:20:01 720 阅读

python27使用jieba分词，去除停用词

# -*- coding: utf-8 -*-import jiebaimport jieba.analyseimport sysimport codecsreload(sys)sys.setdefaultencoding('utf-8')#使用其

ico

原创 2023-07-11 00:19:57 253 阅读

gensim学习之Dictionary

def test3(): ''' gensim学习之Dictionary ''' a = [['一','一','二'],['一','二','三']] b = ['一','一','三','四','四'] dictionary = corp

词频

原创 2023-07-11 00:17:25 66 阅读

python nltk自然语言处理学习笔记2

基础语法搜索文本----词语索引使我们看到词的上下text1.concordance("monstrous")词出现在相似的上下文中text1.similar("monstrous")函数common_contexts允许我们研究两个或两个以上的词共同的上下文text2.common_contexts(["monstrous", "very"])以

链表

Python

取文本长度

原创 2023-07-11 00:15:44 64 阅读

python nltk自然语言处理学习笔记1

1、搭建环境下载anaconda并安装，其自带python2.7和一些常用包，第一次启动使用spyder2、下载nltkimport nltknltk.download()在打开的界面上选择book并下载（注意存储路径，我设的 C:\nltk_data ）我下载的大概370M3、现在可以开始学习python自然语言处理

python

NumPy

搭建环境

原创 2023-07-11 00:14:24 69 阅读

python3使用ltp语言云

text="我爱自然语言处理。"text=str(text)#text=urllib.quote(text)text=urllib.parse.quote(text)def test1():

python

自然语言处理

原创 2023-07-11 00:13:22 43 阅读

pagerank和textrank

99

原创 2023-07-11 00:00:16 59 阅读

python计算tfidf

本例来自mining social webfrom math importe): doc = doc.lower().split()

泡、

转载 2023-07-10 20:48:24 67 阅读

python使用gensim训练搜狗语料的LDA

# -*- coding: utf-8 -*-import jiebaollections import defaultdictimport sysreload(sys)sys.setdefa

sed

3G

加载

原创 2023-07-10 20:48:07 105 阅读

基于大规模语料的新词发现算法

原文地址文 / 顾森　　对中了。但在中文分词领域里，还有一个

信息熵

后缀

用例

转载 2023-07-10 20:43:40 440 阅读

信息熵

原文地址“熵”是信息的不确定性度量“信会那么吃惊，它给你带来的信息量是-log(1/2)，约为0.69

信息熵

转载 2023-07-10 20:43:31 136 阅读

gensim计算词相似度报错

Traceback (most recent call last): n() File "D:/dev_src/python/image_classifiy/text/similarity.py", line 16, in r

python

原创 2023-07-10 20:40:37 73 阅读

计算句子相似度

1、使用vsm向量空间模型2、将词使用word2vec将词转换成向量，计算两个句子向量分布距离，使用kl散度

向量空间模型

原创 2023-07-10 20:40:26 64 阅读

python读文件或文件夹计算idf

#-*- encoding:utf-8 -*-import osimport jiebaiutf8')'''''读取文件，文件每行是一个文档计算得到idf文件求idf得步骤：

数据

读取文件

原始数据

原创 2023-07-10 20:39:54 77 阅读

java实现正向最大匹配分词

1、下载mmseg4j-1.8.5分词器，取其中

java

结点

中文字符

原创 2023-07-10 20:39:46 54 阅读

sabnf文件注释

d3

Group

ABNF

原创 2023-07-10 20:37:04 35 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

语义分析的一些方法(一)

语义分析的一些方法(三)

语义分析的一些方法(二)

基于互信息和左右信息熵的短语提取识别

语义分析工具

NLTK学习笔记

使用python+机器学习方法进行情感分析(详细步骤)

界 | Facebook人工智能实验室开源文本分类专用工具fastText

中文维基百科上的word2vec实验，python及java版本

LDA的python实现之模型参数训练

KD-tree的原理以及构建与查询操作的python实现

LDA(Latent Dirichlet Allocation)主题模型算法

UndefinedMetricWarning: Precision is ill-defined and being set to 0.0 due to no predicted samples.

python27使用jieba分词，去除停用词

gensim学习之Dictionary

python nltk自然语言处理学习笔记2

python nltk自然语言处理学习笔记1

python3使用ltp语言云

pagerank和textrank

python计算tfidf

python使用gensim训练搜狗语料的LDA

基于大规模语料的新词发现算法

信息熵

gensim计算词相似度报错

计算句子相似度

python读文件或文件夹计算idf

java实现正向最大匹配分词

sabnf文件注释

欢迎