Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

train 데이터에서 한영 문장이 매치되지 않습니다. #2

Open
bowbowbow opened this issue Dec 4, 2019 · 0 comments
Open

Comments

@bowbowbow
Copy link

bowbowbow commented Dec 4, 2019

코드 공유 감사드립니다 👍

train 데이터에서 한영 데이터에서 같은 라인에 있는 문장들이 서로 잘 매치되는지 훑어보다가, 데이터에서 특정 라인부터 마지막 라인까지 문장이 매치되지 않는걸 알게됐습니다.

96212~96215 라인 문장들을 비교한 예시입니다.

korean-english-park.train.ko

96212. 사랑하는 앤드류에게, 내가 너에게 이미 말해 주었던 몇 가지 것들을 기억해 주길 바란다.
96213. 그녀는 이미 훌륭한 화가이다. 그리고 그녀는 항상 열심히 한다.
96214. 그래서 이 아이들이 할 수 있는 동안 재미를 갖도록 하십시오.
96215. 영화 '레인맨 과 '컬러 오브 머니'에서 그는 유명한 배우들과 함께 일했다.

korean-english-park.train.en

96212. The school principal visited several classes and was angry at the noise being made by one class
96213. in particular.
96214. I saw an accident this morning.
96215. He said to them.

수동으로 확인해보니 4, 6, 8, 9 만번째 라인 문장은 일치합니다.
제일 뒷쪽에만 오류가 있는 것 같습니다.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant