c语言中文分词

E安全 • 2024年3月25日 10:53:02 • C语言 • 阅读 40

c语言中文分词算法

没有挂网公布，需要咨询专业人士。

C语言是一门面向过程的、抽象化的通用程序设计语言，广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。

C语言是仅产生少量的机器语言以及不需要任何运行环境支持便能运行的高效率程序设计语言。尽管C语言提供了许多低级处理的功能，但仍然保持着跨平台的特性，以一个标准规格写出的C语言程序可在包括类似嵌入式处理器以及超级计算机等作业平台的许多计算机平台上进行编译。

C语言诞生于美国的贝尔实验室，由丹尼斯·里奇（Dennis MacAlistair Ritchie）以肯·汤普森（Kenneth Lane Thompson）设计的B语言为基础发展而来，在它的主体设计完成后，汤普逊和里奇用它完全重写了UNIX，且随着UNIX的发展，c语言也得到了不断的完善。

为了利于C语言的全面推广，许多专家学者和硬件厂商联合组成了C语言标准委员会，并在之后的1989年，诞生了第一个完备的C标准，简称“C89”，也就是“ANSI C”，截至2020年，最新的C语言标准为2018年6月发布的“C18”。

如何用C语言调用NLPIR进行中文分词

1.打开vs之后，按照下面的方式新建project。新建的工程名是text-segmentation。建好之后在你选择的那个目录会出现一个text-segmentation文件夹。

2.从nlpir官网下载相关资源，这里下载的是2013版本。下载地址：

3.将下载文件解压缩，找到其中的Data文件夹、bin文件夹中的NLPIR.dll文件、include文件夹中的NLPIR.h文件、lib文件夹

中的NLPIR.lib文件，将这四个东西复制到刚刚的text-segmentation文件夹中的text-segmentation文件夹下，如下

效果：

4.点击text-segmentation文件夹下的text-segmentation.sln，在vs中打开这个项目。按照如下方式将NLPIR.h文件加入到头文件中。

5.点击project – properties（快捷键ALT +

F7），按照下图所示的进行设置。别问我为什么这么设置，我也不懂，摸索了半天才摸索出来的，不这么设置就是搞不定。

6.在source里面新建程序新建c++源程序

7.接下来就可以在这里写代码了，下面附上一段我的代码作为例子。最关键的是前面的函数头部分，可以直接抄过去。

#ifndef OS_LINUX

#include

#pragma comment(lib, “NLPIR.lib”)

#endif

#include

#include “NLPIR.h”

#include

using namespace std;

void IfInit();//判断是否已经成功初始化

void IfExit();//是否成功退出

int main()

{

IfInit();//初始化程序

NLPIR_SetPOSmap(ICT_POS_MAP_SECOND);

int nitems;//

nitems=NLPIR_ImportUserDict(“H:\\sentence\\UserDict_manual.txt”);

NLPIR_SaveTheUsrDic();

cout”import “nitems”

words”endl;

//NLPIR_AddUserWord(“A股”);

//NLPIR_AddUserWord(“沪指”);

//int i;

//char s[100];

//char s2[100];

//ifstream infile;

////infile.open(“H:\\sentence\\files to break

word.txt”);

//infile.open(“C:\\Users\\pc\\Desktop\\temp\\file_to.txt”);

//ifstream infile2;

////infile2.open(“H:\\sentence\\files after break

word.txt”);

//infile2.open(“C:\\Users\\pc\\Desktop\\temp\\file_after.txt”);

//for(i=0;i717696;i++)//1798

//{

// if (i350000)

// {

// infile.getline(s,100);

// infile2.getline(s2,100);

// continue;

// }

// infile.getline(s,100);

// infile2.getline(s2,100);

// NLPIR_FileProcess(s,s2,0);

// couti+1endl;

//}

NLPIR_FileProcess(“try.txt”,”try_result.txt”,0);

IfExit();//退出

system(“pause”);

return 0;

}

void IfInit()//判断是否已经成功初始化

{

if(!NLPIR_Init(0,UTF8_CODE))

{

cout”Init fails”endl;

exit(EXIT_FAILURE);

}

else

{

cout”Init ok”endl;

}

void IfExit()//是否成功退出

{

if(!NLPIR_Exit())

{

cout”Exit fails”endl;

}

else

{

cout”Exit ok”endl;

}

8.若函数报错，可以去text-segmentation文件夹中的text-segmentation文件夹下查看log文件。常见的错误是Initial

Fail，这很可能是因为license过期了，解决方法可见

。

用c语言进行中文分词，给定一个词典，一篇文章，一个参照的utf8编码怎

// Wordsplit.cpp

// Target: Find all possible splitting of a sentence given a dictionary dict

// Howto: refer to main

// Created by Rachel on 14-8-16.

#include iostream

#include stdio.h

#include “vector”

#include set

#includeunordered_set

using namespace std;

class Wordsplit {

private:

vectorstring list;

bool match(string s, string cur_ele){

int l = cur_ele.length();

if (s.substr(0,l)==cur_ele) {

return true;

}

return false;

}

bool validate(string s, unordered_setstring dict){

//1. calculate all alphabets in the query

setchar alpha;

for (int i=0; is.length(); i++) {

alpha.insert(s[i]);

}

//2. calculate all alphabets in the dictionary

setchar beta;

unordered_setstring::iterator dict_it;

for (dict_it = dict.begin(); dict_it!=dict.end(); dict_it++) {

for (int i=0; i(*dict_it).length(); i++) {

beta.insert((*dict_it)[i]);

}

setchar::iterator it;

for (it = alpha.begin(); it!=alpha.end(); it++) {

if (beta.find(*it)==beta.end()) {

return false;

}

return true;

}

public:

string split(string s, unordered_setstring dict, string cur_str){

if (s.length()==0) {

list.push_back(cur_str.substr(0,cur_str.length()-1));

return s;

}

//coutsendl;

unordered_setstring::iterator it;

for (it=dict.begin(); it!=dict.end(); it++) {

if (match(s, (*it))) {

string tmp_str = cur_str;

string latter = s.substr(it-length(), s.length()-it-length());

cur_str += (*it) + ” “; // add current word to cur_str

cur_str += split(latter, dict, cur_str); // split remaining words

cur_str = tmp_str; //back to last status

}

return “no result”;

}

vectorstring main(string s, unordered_setstring dict) {

if (!validate(s, dict)) {

return list;

}

split(s, dict, “”);

return list;

}

};

int main()

{

Wordsplit s;

unordered_setstring L={“程序员”,”公务员”,”员”,”我”,”喜”,”做”,”程序”,”一”,”欢”,”喜欢”,”做一个”,”一个”};

vectorstring V = s.main(“我喜欢做一个程序员”, L);

vectorstring::iterator it;

for (it=V.begin(); it!=V.end(); it++) {

cout(*it)endl;

}

C语言分词并显示写函数？

void Input (char *str) {

char c;

int i = 0;

while ( (c = getchar()) != ‘\n’ i 81) {

* (str + i) = c;

i++;

}

int Split_Count (char *str, char **pStr) {

int count = 0, is_word = 0, j = 0;

char tmp[81];

for (int i = 0; i strlen (str); i++) {

if (* (str + i) == ‘ ‘) {

if (is_word == 1) {

ss:

* (tmp + j) = ‘\0’;

*pStr = (char *) malloc (strlen (tmp) * sizeof (char));

strcpy (*pStr, tmp); //调试了一下，到这行就出错

pStr++;

j = 0;

}

is_word = 0;

} else {

if (is_word == 0) {

count++;

}

* (tmp + j) = * (str + i);

j++;

is_word = 1;

if (i == strlen (str) – 1)

goto ss;

}

return count;

}

本文来自投稿，不代表【痞子匠】观点，发布者：【E安全】

本文地址：https://www.pizijiang.com/wep/199523.html ，如若转载，请注明出处！

举报投诉邮箱：253000106@qq.com

中文分词语言

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

E安全作者

64.2K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

c语言位异或运算

上一篇 2024年3月25日 10:46:50

抽烟问题c语言

下一篇 2024年3月25日 10:57:12

C语言

c语言改写模式,c语言实现修改功能

c语言程序修改? 1、这个程序有4个错误，我都加粗了，第一个是m没有赋初值，第二个是while表达式中的ch=getchar()需要括号括起来，第三个是m=m*10+ch-0中的0也需要用单引号括起来，第四个是第2个while中为m！=0。 2、define容易造成误会，因为不符合一般的编程习惯，false 0， true 1；scanf放在你的那个地方是达…

E安全
2024年5月23日
39000
C语言

c语言控制代码的换码序列,c语言交换代码

求C语言编程大神解答一下下面这个编程代码? k==5，用5去除125余0，所以r=125%5中r为0。由于！0为1，所以执行while循环体：先打印出5(k的值)，再n=n/k==125/5=25；由于251则再打印出*号。这一循环结果输出是5*。下面是我的代码，三个函数分别对应三个问题。在实现基本要求的前提下，拓展了可以从键盘输入的功能，以下为各题代码…

E安全
2024年5月23日
56000
C语言

c语言扫描io脚状态,c语言端口扫描

求51单片机的上升沿和下降沿C语言检测程序列子,端口就是普通IO口。上升沿触发是当信号有上升沿时的开关动作，当电位由低变高而触发输出变化的就叫上升沿触发。也就是当测到的信号电位是从低到高也就是上升时就触发，叫做上升沿触发。单片机怎么计算1s内下降沿的个数的C语言程序或者计算两个下降沿的时间（检测脉冲频率）计算1s内下降沿的个数方法是，一个定时器设置定时1…

E安全
2024年5月23日
43000
C语言

c语言mallloc使用的简单介绍

C语言中使用malloc必须加#includemallo.h? 1、在C语言中使用malloc函数进行动态内存分配。malloc的全称是memory allocation，中文叫动态内存分配。原型：extern void malloc(unsigned int num_bytes)；功能：分配长度为num_bytes字节的内存块。 2、你可以看一下C语言那本…

E安全
2024年5月23日
43000
C语言

c语言三位小数,C语言三位小数

怎样用C++语言输出精确到小数点后三位的数? 1、用C++语言输出精确到小数点后三位的数，可以参考下面给出的代码：coutsetiosflags(ios：fixed)setprecision(3)。其中 setiosflags中set是设置的意思。ios是iostream的缩写，即输入输出流。flags是标志的意思。 2、要精确到小数点后若干位，则数据类型为…

E安全
2024年5月23日
72000
C语言

c语言21点游戏,二十一点游戏代码c语言

如何使用C语言编写简单小游戏? 1、数学知识：长方形的面积S=a*b 长方形周长L=2*（a+b）其中a b分别为长方形的宽和高。算法分析：长方形面积及周长均依赖于宽和高，所以先要输入宽高值，然后根据公式计算，输出结果即可。 2、/*也不知道你是什么级别的，我是一个新手，刚接触编程语言，以下是我自己变得一个小程序，在所有c语言的编译器(vc++0、turbo…

E安全
2024年5月23日
63000
C语言

c语言当中的null,C语言当中的符号

C/C++中,NULL和null的区别是什么? nul 和 null要看编译器，不同的编译器有所区别。所以C或者C++中都使用一个特殊定义NULL表示无效值，其本质就是未定义具体数据类型的0值。 null是是什么都没有的意思。在java中表示空对象。本意是“空的；元素只有零的”意思。计算机中通常表示空值，无结果，或是空集合。\x0d\x0a在ASCII码…

E安全
2024年5月23日
45000
C语言

包含c语言对txt文件命名的词条

如何在C语言编程里面修改源文件名字如果你是在WINDOWS的话，简单了，随便用个编辑器，比如记事本，然后写c源程序，保存到你想要保存的位置。如果你在DOS下，可以用edit，写好以后，按alt键，选择文件菜单，然后保存。用open打开文件，注意操作模式使用“修改”或者“添加” 用write或者fprintf向文件中写入你的内容。用close关闭文件。 …

E安全
2024年5月23日
48000
C语言

学c语言编程,学c语言编程用什么软件

编程开发必须要学C语言吗? 1、要学习。编程开发的学习内容主要包括c语言、python和c+语言。C语言作为一种简单灵活的高级编程语言，它是一个面向过程的语言，一般是作为计算机专业的基础入门语言课程。 2、C语言。对于刚接触编程的人来说，先学习C语言是非常重要的。C语言可以说是是计算机编程语言的鼻祖，其他的编程语言几乎全是由C语言变化衍生出来的。 3、不需要…

E安全
2024年5月23日
34000
C语言

c语言用string定义字符串,c语言中用string类型来处理字符串类型

C++怎样定义定义字符串 1、第一是字符数组来表示字符串。用下面的语句声明：char a[10]；C语言中字符数组与字符串的唯一区别是字符串末尾有一个结束符\0，而字符数组不需要。 2、在C中定义字符串有下列几种形式：字符串常量，char数组，char指针字符串常量即：位于一对双括号中的任何字符。双引号里的字符加上编译器自动提供的结束标志\0字符，作为 …

E安全
2024年5月23日
42000