安装方式

pip install sikufenci

introduction

这是一个基于sikuBERT预训练模型的自动分词工具，主要用于繁体中文古籍文本的自动分词,不仅能用于带有标点信息的繁体中文语料，也能够很好的适应不含标点语料的分词。工具包具有cpu分词与gpu分词两种模式，如果您的设备没有安装gpu,可以自动调用全部的cpu核心进行分词。而在安装gpu后，代码则会利用gpu加速分词速度，gpu与cpu分词的结果完全一致。

prepare

运行需要的依赖:

torch>1.1.0

boto3

pytorch_pretrained_bert==0.6.1

seqeval

tqdm

建议创建一个虚拟环境，以正常安装sikufenci。

除上述依赖包外，如果要正常运行代码，还需要下载一个用于分词的pytorch_model.bin文件。

该文件可以通过如下的百度云链接下载:

链接	提取码
https://pan.baidu.com/s/1ePPlCpoZ4UTsUaQumMpZTQ	c9hb

Foreign users can download the fine-tuned model through Google Drive:

Model	Link
sikubert_vocabtxt(fine-tuned)	https://drive.google.com/drive/folders/1uA7m54Cz7ZhNGxFM_DsQTpElb9Ns77R5?usp=sharing

下载完成后，需要将pytorch_model.bin文件放到sikufenci安装目录的子文件夹的'train_fenci_sikuroberta_vocabtxt'文件夹中。

安装目录就是您默认的安装此python工具包的位置。例如，在我的电脑中安装目录就是D:\ProgramData\Anaconda3\envs\pyqt5_py38\Lib\site-packages\sikufenci\train_fenci_sikuroberta_vocabtxt

如果上述工作都已完成，就可以进入运行阶段。

Run

调用模块方式

from sikufenci import wordsegall_txt

使用方式

wordsegall_txt.TCfenci_all(raw_path='datatest',resultpath='resulttest',max_seq_length=128,eval_batch_size=3)

TCfenci_all函数含有四个参数:

raw_path:代表您当前存放待分词语料的文件夹，可以存放多个txt文件。

resultpath:代表您希望分词后文件的存储位置,在案例中是一个被命名为resulttest的空文件夹

max_seq_length:最大截断长度，超过这一长度的待分词序列会被以该值大小等分，例如，当我有一个长度为257的句子时，而max_seq_length值为128时，会将句子切分为长度128，128，1的三个子句。所以，为保持语义的完整性，应根据您的分词语料具体情况确定该值。但最高不能超过512。值越大代码运行速度越慢。

eval_batch_size:模型一次性分词的序列数。

数据实例

您应该按照如下原则安排待分词语料的文件夹:

1.单个句子长度不宜过长，建议单句长度在512以下。使用换行符"\n"来切分不同的句子。

2.文件夹中的文件应当以txt为后缀名。

3.应尽量确保分词文件中不包含在utf-8编码下无法呈现的字符。

真实的数据样例:

魏帝召而謂之曰："卿風度峻整，姿貌秀異，後當升進，何以處官？"琡曰："宗廟之禮，不敢不敬，朝廷之事，不敢不忠，自此以外，非庸臣所及。

"正光中，行洛陽令，部內肅然。

有犯法者，未加拷掠，直以辭理窮核，多得其情。

於是豪猾畏威，事務簡靜。

時以久旱，京師見囚悉召集華林，理問冤滯，洛陽系獄，唯有三人。

魏孝明嘉之，賜縑百匹。

遷吏部，尚書崔亮奏立停年之格，不簡人才，專問勞舊。

分词后的数据样例:

魏帝/召/而/謂/之/曰/：/"/卿/風度/峻整/，/姿貌/秀異/，/後/當/升進/，/何以/處/官/？/"/琡/曰/：/"/宗廟/之/禮/，/不/敢/不/敬/，/朝廷/之/事/，/不/敢/不/忠/，/自/此/以/外/，/非/庸臣/所/及/。/

"/正光/中/，/行/洛陽/令/，/部/內/肅然/。/

有/犯/法/者/，/未/加/拷掠/，/直/以/辭理/窮核/，/多/得/其/情/。/

於是/豪猾/畏/威/，/事/務/簡靜/。/

時/以/久/旱/，/京師/見/囚/悉/召集/華林/，/理問/冤滯/，/洛陽/系/獄/，/唯/有/三/人/。/

魏孝明/嘉/之/，/賜/縑/百/匹/。/

遷/吏部/，/尚書/崔亮/奏/立/停/年/之/格/，/不/簡/人才/，/專/問/勞舊/。/

可以看到模型具有较好的分词效果。有效解决当前缺少面向繁体中文的古文分词工具问题。

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
build/lib/sikufenci		build/lib/sikufenci
dist		dist
sikufenci.egg-info		sikufenci.egg-info
sikufenci		sikufenci
MANIFEST.in		MANIFEST.in
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

安装方式

introduction

prepare

Run

调用模块方式

使用方式

数据实例

About

Releases

Packages

Languages

hsc748NLP/sikufenci

Folders and files

Latest commit

History

Repository files navigation

安装方式

introduction

prepare

Run

调用模块方式

使用方式

数据实例

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages