Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于NER模型高层部分构成的问题 #29

Open
Voil3t opened this issue May 14, 2023 · 3 comments
Open

关于NER模型高层部分构成的问题 #29

Voil3t opened this issue May 14, 2023 · 3 comments

Comments

@Voil3t
Copy link

Voil3t commented May 14, 2023

作者您好,您的项目对我有很大的帮助,但是关于NER模型高层部分构成的目的我有一些问题想要请教您。
首先下图是模型高层部分的构成图:
image
其中最后线性分类器的输出维度和CRF部分的tag数量我根据自己任务进行了更改,但这不会影响到我下面的问题。
我的问题是:
1、中间线性层中为何首先将768降维到256?256这个数字是通过什么方式得到的?
2、后续的ReLU激活函数的目的又是什么?
3、在模型真正实现的过程中dropout操作并没有真正采用,原因是否是因为在中间线性层中已经进行过了dropout?
期待您拨冗回复!

@taishan1994
Copy link
Owner

作者您好,您的项目对我有很大的帮助,但是关于NER模型高层部分构成的目的我有一些问题想要请教您。 首先下图是模型高层部分的构成图: image 其中最后线性分类器的输出维度和CRF部分的tag数量我根据自己任务进行了更改,但这不会影响到我下面的问题。 我的问题是: 1、中间线性层中为何首先将768降维到256?256这个数字是通过什么方式得到的? 2、后续的ReLU激活函数的目的又是什么? 3、在模型真正实现的过程中dropout操作并没有真正采用,原因是否是因为在中间线性层中已经进行过了dropout? 期待您拨冗回复!

1、进一步获取语义信息。256自己随意设置,一般是16的倍数。
2、增加非线性,也可以是其它的一些激活函数。
3、dropout没使用就是可能定义了没有用而已。

模型这些东西自己看着使用就行,也可以直接使用768加一个nn.Linear,没有什么特定的说法。

@Voil3t
Copy link
Author

Voil3t commented May 14, 2023

作者您好,您的项目对我有很大的帮助,但是关于NER模型高层部分构成的目的我有一些问题想要请教您。 首先下图是模型高层部分的构成图: image 其中最后线性分类器的输出维度和CRF部分的tag数量我根据自己任务进行了更改,但这不会影响到我下面的问题。 我的问题是: 1、中间线性层中为何首先将768降维到256?256这个数字是通过什么方式得到的? 2、后续的ReLU激活函数的目的又是什么? 3、在模型真正实现的过程中dropout操作并没有真正采用,原因是否是因为在中间线性层中已经进行过了dropout? 期待您拨冗回复!

1、进一步获取语义信息。256自己随意设置,一般是16的倍数。 2、增加非线性,也可以是其它的一些激活函数。 3、dropout没使用就是可能定义了没有用而已。

模型这些东西自己看着使用就行,也可以直接使用768加一个nn.Linear,没有什么特定的说法。

非常感谢您的回复,关于这部分我还有一个问题,最终模型是通过CRF的decode方法获得了最优标注序列,在这个过程中模型中定义的交叉熵损失函数CrossEntropyLoss同样没有使用到,如果我想要在我的项目中引入交叉熵损失函数来进行评估和分类,该怎么在这里更改和使用模型呢?
期待您的解答

@taishan1994
Copy link
Owner

非常感谢您的回复,关于这部分我还有一个问题,最终模型是通过CRF的decode方法获得了最优标注序列,在这个过程中模型中定义的交叉熵损失函数CrossEntropyLoss同样没有使用到,如果我想要在我的项目中引入交叉熵损失函数来进行评估和分类,该怎么在这里更改和使用模型呢? 期待您的解答

交叉熵主要是针对不使用CRF的,可参考:https://github.com/taishan1994/pytorch_bert_bilstm_crf_ner

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants