-
Notifications
You must be signed in to change notification settings - Fork 9
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
为什么要在每个字后面加空格 #7
Comments
从onerel原始仓库里面贴过来: 首先,上述标注方式在处理单个字符实体的时候是不矛盾的。因为我们是按照HB-TB,HB-TE,HE-TE的顺序来标注实体边界,单个字符实体的后一个标签会覆盖掉之前的标签。因此,如果是头实体单个字符,尾实体多个字符,则解码时查询HB-TB与HB-TE组成的元组即可;如果头实体和尾实体都只有一个字符,则在解码过程中查询孤立的HE-TE即可。这种方法是可行的,但是比较麻烦。 因此,我们在实现过程中,采用了“将句子中的空格也作为字符”的方式,即“北京今天有雨”会被tokenize成“北[u]京[u]今[u]天[u]有[u]雨[u]”,话相当于每一个字符都是由它本身和之后的空格组成,也就不存在单个字符组成的实体的情况。这样做会使句子长度变成原来的两倍,明显降低模型运行速度(从约60ms一个batch到约140ms一个batch),但是能简化模型在推理阶段的逻辑。 |
你好,我想问一下原始项目是不是又不开源了?网上看到几个好像是fork原始代码的仓库(https://github.com/China-ChallengeHub/OneRel),特别注意到,这个头实体或者尾实体是单个字符的情况,那是不是在原始代码的情况下添加你说的这两种解码方式就行啊,就是单独考虑单个字符的情况。 |
|
好的,就是不太确定这个仓库是不是 |
你好,请问为什么要在每个字后面加空格
The text was updated successfully, but these errors were encountered: