Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

NLP Ch4 수정사항 #90

Closed
7 tasks done
mmminji opened this issue Apr 8, 2021 · 5 comments
Closed
7 tasks done

NLP Ch4 수정사항 #90

mmminji opened this issue Apr 8, 2021 · 5 comments
Assignees

Comments

@mmminji
Copy link
Member

mmminji commented Apr 8, 2021

  • 1. 데이터셋 다운로드 2장보고 pkl 수정
  • 2. 패키지 설치 확인
  • 3. _split_text함수에서 cut_sentences 두번 있는거 체크
  • 4. 주석 삭제하거나 전부 넣거나
  • 5. 처음 시작하는 부분에 참고 깃허브 언급
  • 6. 마무리 멘트
  • 7. 결과 예시 지문 다시 선정
@mmminji mmminji self-assigned this Apr 8, 2021
@mmminji
Copy link
Member Author

mmminji commented Apr 14, 2021

@SDSTony 성진님 2장에서 pkl 파일 저장되면 알려주세요~ 1,7번 수정하겠습니다!

@SDSTony
Copy link
Member

SDSTony commented Apr 18, 2021

오래 기다리셨죠.... ㅠ
아래 코드를 통해 전처리된 pickle 파일 다운로드 받을 수 있습니다.
data변수에 170개의 문법 교정된 지문이 저장됩니다.

!git clone https://github.com/Pseudo-Lab/Tutorial-Book-Utils
!python Tutorial-Book-Utils/PL_data_loader.py --data NLP-QG

import pickle
file_name = "CoNLL+BEA_corrected_essays.pkl"
open_file = open(file_name, "rb")
data = pickle.load(open_file)
open_file.close()

@mmminji
Copy link
Member Author

mmminji commented Apr 20, 2021

@SDSTony 성진님, 혹시 잘못된 부분 교정하시면서 공백(space)이 들어갔나요?

제가 첫번째 지문의 문제 생성 결과가 달라져 지문을 확인해보았는데요,

image

원본: Forest's view
교정후: Forests'sview

s가 추가되면서 공백이 사라진것 같아요!

@SDSTony
Copy link
Member

SDSTony commented Apr 20, 2021

아래 이미지가 원본 텍스트인데, 확인해 보면 Forest'sview로 입력이 되어 있습니다. 원문에서 띄어쓰기가 제대로 되어 있지 않습니다.

image

annotation 좌표가 가르키는 단어가 Forest's이고, correction 단어가 Forests's로 되어 있습니다.
현재 전처리 알고리즘의 작동 방식은 annotation 좌표가 가르키는 단어를 correction 단어로 대체만 해주기 때문에, 원본 텍스트에 의존적이라서 위와 같은 결과가 나온것 같습니다.

현재 edit_paragraph() 알고리즘이 원문 텍스트, annotation 위치, 그리고 correction 단어에 의존적이라서 #94 에 있는 3가지 경우에 대해선 전처리 적용 시 띄어쓰기가 사라지거나 2칸으로 대체되기도 합니다.

혹시 문제 생성 결과가 많이 달라졌나요?

@mmminji mmminji closed this as completed Jul 12, 2021
@mmminji
Copy link
Member Author

mmminji commented Jul 12, 2021

fix all issues

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants