Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

为什么要在每个字后面加空格 #7

Open
Yun-Peng-Wang opened this issue Jan 9, 2023 · 4 comments
Open

为什么要在每个字后面加空格 #7

Yun-Peng-Wang opened this issue Jan 9, 2023 · 4 comments

Comments

@Yun-Peng-Wang
Copy link

你好,请问为什么要在每个字后面加空格

@taishan1994
Copy link
Owner

你好,请问为什么要在每个字后面加空格

从onerel原始仓库里面贴过来:
最近收到一些小伙伴的邮件,主要问题集中在“目前的标注方式在头实体或者尾实体只有一个字符的时候会出问题”。在此详细解释。

首先,上述标注方式在处理单个字符实体的时候是不矛盾的。因为我们是按照HB-TB,HB-TE,HE-TE的顺序来标注实体边界,单个字符实体的后一个标签会覆盖掉之前的标签。因此,如果是头实体单个字符,尾实体多个字符,则解码时查询HB-TB与HB-TE组成的元组即可;如果头实体和尾实体都只有一个字符,则在解码过程中查询孤立的HE-TE即可。这种方法是可行的,但是比较麻烦。

因此,我们在实现过程中,采用了“将句子中的空格也作为字符”的方式,即“北京今天有雨”会被tokenize成“北[u]京[u]今[u]天[u]有[u]雨[u]”,话相当于每一个字符都是由它本身和之后的空格组成,也就不存在单个字符组成的实体的情况。这样做会使句子长度变成原来的两倍,明显降低模型运行速度(从约60ms一个batch到约140ms一个batch),但是能简化模型在推理阶段的逻辑。

@xiehou-design
Copy link

你好,我想问一下原始项目是不是又不开源了?网上看到几个好像是fork原始代码的仓库(https://github.com/China-ChallengeHub/OneRel),特别注意到,这个头实体或者尾实体是单个字符的情况,那是不是在原始代码的情况下添加你说的这两种解码方式就行啊,就是单独考虑单个字符的情况。
你那还有没有之前开源的代码?方便分享一份吗?

@taishan1994
Copy link
Owner

taishan1994 commented Apr 26, 2023

你好,我想问一下原始项目是不是又不开源了?网上看到几个好像是fork原始代码的仓库(https://github.com/China-ChallengeHub/OneRel),特别注意到,这个头实体或者尾实体是单个字符的情况,那是不是在原始代码的情况下添加你说的这两种解码方式就行啊,就是单独考虑单个字符的情况。 你那还有没有之前开源的代码?方便分享一份吗?

刚看了,应该还有吧:https://github.com/China-ChallengeHub/OneRel

@xiehou-design
Copy link

你好,我想问一下原始项目是不是又不开源了?网上看到几个好像是fork原始代码的仓库(https://github.com/China-ChallengeHub/OneRel),特别注意到,这个头实体或者尾实体是单个字符的情况,那是不是在原始代码的情况下添加你说的这两种解码方式就行啊,就是单独考虑单个字符的情况。 你那还有没有之前开源的代码?方便分享一份吗?

刚看了,应该还有吧:https://github.com/China-ChallengeHub/OneRel

好的,就是不太确定这个仓库是不是

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants