Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

生成单位时易出错,表格公式混合易出错 #179

Open
tldwlw opened this issue Nov 22, 2024 · 1 comment
Open

生成单位时易出错,表格公式混合易出错 #179

tldwlw opened this issue Nov 22, 2024 · 1 comment

Comments

@tldwlw
Copy link

tldwlw commented Nov 22, 2024

  1. 对公式,虽然识别成功,但在生成时出现问题:$50\upmu\mathrm{m}$ 有 ParseError: KaTeX parse error: Undefined control sequence: \upmu at position 3: 50\̲u̲p̲m̲u̲\mathrm{m} ,这种生成方式错误的问题在单位中的特殊符号更容易出现(不止 \upmu 一种问题)。
    image
    而其他相似问题也存在,如单个使用的 \right 等。
  2. 对于表格中的公式,出现难以识别的问题:
    image
    image

希望给出一些优化方案,最后附上相关文件(原pdf与图片过大无法上传)。
汽轮发电机组振动及事故_第2版.zip

@wangbinDL
Copy link
Member

感谢反馈!

  1. 第一个问题是因为现在的公式识别训练集中包含了一些冗余字符,可以自行通过去除训练集冗余字符,重新使用UniMERNet repo训练一个模型,或者后接一个语言模型进行后处理
  2. 表格中包含公式目前尚未考虑,当前针对表格处理思路是布局检测(表格)-->表格识别,而由于表格识别训练集中公式较少,所以模型性能不够。我们后续会关注是否有更好的表格识别模型,并接入到当前项目中

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants