开源中文 nlp_51CTO博客
光学字符识别(OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。前几个月,猿妹曾和大家分享过一个热门的中文OCR项目———chineseocr_lite。这两天猿妹才知道,百度也开源了一款超轻量级中文OCR,总模型大小仅8.6M,只有chineseocr_lite,那真真是超轻量级别的神级OCR。Padd
转载 2024-02-05 20:51:48
23阅读
接触NLP也有好长一段时间了,但是对NLP限于知道,但是对整体没有一个很好的认识。特整理了一下思绪,总结记录下:一、NLP的定义   还是按照常规的逻辑来看下定义:NLP(Natural Languange Processing,自然语言处理),方法是应用计算机来处理,理解和应用人类语言,目的是达到人机之间进行交流。分成自然语言理解和自然语言生成两部分。引用一个表来概括下:二、
开源自然语言处理(NLP)工具包的出现推动了研究人类语言的计算方法的快速发展。然而现有的NLP工具包,例如CoreNLP 、Flair、spaCy 和UDPipe等本身都存在一些缺陷:首先,现有工具包通常仅支持几种主要语言。这极大地限制了处理多语言文本的能力;其次,广泛使用的工具有时会针对准确性进行优化,可能会误导下游应用程序;第三,他们有时会假设输入文本已使用其他工具进行了标记或注释,但缺乏使用
# NLP中文开源框架概述 自然语言处理(NLP)是计算机科学与人工智能的一个重要分支,它涉及计算机与人类语言之间的互动。在中文处理方面,由于语言的复杂性和丰富的文化背景,NLP 的发展尤为重要。现在,市场上涌现了许多开源框架来支持中文自然语言处理。本篇文章将介绍一些流行的中文 NLP 开源框架,并提供一些基本的代码示例来展示如何使用这些工具。 ## 常见的中文 NLP 开源框架 ### 1
开源语音识别软件 2009-02-24 9:47 开源语音识别软件simon的第一个测试版已经发布,simon用Julius作实际的语音识别处理引擎,HTK toolkit作为主要的语言模型。这些组件被一个易于使用的图形用户界面连接在一起。simon能够直接输入wiktionary(维基百科的子项目)词典,或者是将个人文本转换成HADIFIX或HTK格式和文法结构后导入。它还提
转载 2023-12-28 16:10:16
36阅读
环境说明开发环境工具版本备注JDK1.8强制要求MySQL5.7.24+强制要求Redis——开发使用工具工具说明IntelliJ IDEAJava编程语言开发的集成环境NavicatMysql数据库管理工具RedisDesktopManagerRedis可视化管理工具部署说明针对于不同的技术人群,我们提供了多种部署方式:简易版部署:使用Docker只需要一行命令即可完成‘NLP自然语言处理引擎’
# 中文开源NLP标注工具实现指南 在开发中文开源NLP标注工具的过程中,我们需要经过几个主要的步骤。通过这个流程,你将逐步构建和实现一个简单的NLP标注工具。以下是整个开发过程的步骤和需要的内容。 ## 流程图 ```mermaid flowchart TD A[需求分析] --> B[选择NLP库] B --> C[数据预处理] C --> D[模型训练]
原创 2月前
65阅读
介绍,源码主要完成了bert预训练的两个TASKMasked LM(Masked Language Model) 一个句子中每个词有15%的概率会被选中进行设置,设置的规则有三种: 80%的概率设置为[MASK]用于学习10%的概率设置为原单词,为了进行下游任务10%的概率设置为随机单词,类似负采样操作NSP(Next Sentence Prediction) [CLS]用于句子的标签,[S
nlp中文纠错 开源 paddlepaddle是一个关于自然语言处理(NLP)领域热门问题。随着中文信息处理的需求不断上升,开发一个高效的中文纠错模型显得尤其重要。本文将分享在这一过程中遇到的问题及解决方案,具体将涵盖环境配置、编译过程、参数调优、定制开发、部署方案和生态集成等关键步骤。 ## 环境配置 建立一个合适的开发环境是首要步骤。我们选择使用PaddlePaddle作为深度学习框架,因
原创 3天前
21阅读
特别推荐系列: 1、HMM学习最佳范例全文文档 2、无约束最优化全文文档 -by @jianzhu 3、PYTHON自然语言处理中文翻译-NLTK Natural Language Processing with Python 中文版,陈涛sean 无偿翻译。 4、正态分布的前世今生(pdf 版) – by @rickjin 5、LDA-math-汇总
Python易用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,特别是当你使用Windows的时候。为了解决这些问题,有不少发行版的Python,比如WinPython、Anaconda等,这些发行版将python和许多常用的package打包,方便pythoners直接使用,此外,还有virtualenv、pyenv等工具管理虚拟环境。个人尝试了很多类似的发行版,最终选择了
目录前言一、数据集介绍1-1、spell-errors.txt1-2、vocab.txt1-3、testdata.txt二、拼写纠错代码Part0:构建词库Part1:生成所有的候选集合Part2:读取语料库,为构建语言模型准备Part3:构建语言模型,BigramPart4:构建每个单词的错误单词输入概率的词典。Part5:使用测试数据来进行拼写纠错总结 前言在自然语言处理的过程中,我们常常会
Named Entity Recognition目录Named Entity Recognition1. NER1.1 NER定义1.2 数据格式1.2.1 BIO1.2.2 BIOES1.3 开源库1.4 相关数据集1.5 方法2. BILSTM2.1 BILSTM classify2.2 BILSTM seq encode3. NER应用:NER-BILSTM-CNN4. NER应用:BERT
一些实用的NLP开源项目1. 综合型开源工具(1)Natural Language Toolkit (NLTK) NLTK是用于构建Python程序以处理人类语言数据的领先平台。它为超过50个语料库和词汇资源(如WordNet)提供了易于使用的接口,以及一套用于分类、标记化、词干、标记、解析和语义推理的文本处理库,用于工业强度NLP库的包装器,以及一个活跃的讨论论坛。由于介绍了编程基础知识
一、豆瓣多轮对话数据集1、简介:测试数据包含 1000 个对话上下文,对于每个上下文,创建 10 个响应作为候选。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大多数标签被视为最终决定。2、数据格式:标签 \t 对话话语(由 \t 分割)\t 响应3、下载https://github.com/MarkWuNLP/MultiTurnResponseSelection二、KdC
1.funNLP地址: https://github.com/fighting41love/funNLP涉及内容包括: 中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、手机号抽取、名字推断性别、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库
转载 2023-12-28 14:28:31
69阅读
大家好,我是对白。在本文中,我列出了当今最常用的 NLP 库,并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势,因此它们都可以作为专门从事 NLP 的优秀数据科学家备选方案。每个库的描述都是从它们的 GitHub 中提取的。NLP库以下是顶级库的列表,排序方式是在GitHub上的星数倒序。 1. Hugging Face Transformers57.1k 
代码github 几个简单的NLP数据增强示例:random delete wordrandom delete charrandom delete symbolrandom swag wordrandom back translate by google (需要能访问谷歌)random synonym substitutionrandom back translate by youdao(免费,有
原创 2023-05-19 09:51:24
107阅读
一、 实验目的深入理解汉语分词的基本概念。掌握并实现前向最大匹配算法、后向最大匹配算法和最少分词法。掌握分词的评价指标,学会计算正确率、召回率和F-测度值。二、 实验内容利用人民日报语料库或自己构建的语料库(30词以上)作为词典,任选五个句子,并基于正向最大匹配算法和最短路径法分别对这五个句子进行分词,并分别计算分词结果的正确率,召回率和F-测度值。输出句子,基于两种算法的分词结果和其对应的评价指
整理 | AI 科技大本营(ID:rgznai100)自然语言处理(NLP)被誉为 AI 皇冠上的明珠,传统 NLP 模型制作复杂,耗时耗力,且用途单一,难以复用。预训练语言模型是 NLP 领域的研究热点之一,“预训练+精调”已成为NLP任务的新范式,当前预训练语言模型正在改变局面,有望让语言 AI 走向入可规模化复制的工业时代。今日,阿里巴巴达摩院正式开源预训练语言模型体系 Alice
  • 1
  • 2
  • 3
  • 4
  • 5