Skip to content
#

postagging

Here are 47 public repositories matching this topic...

jeongwookie
jeongwookie commented Dec 10, 2019

안녕하세요 Noun extractor을 잘 사용하고 있는 학생입니다!
다름 아니라 사용 중에 의문이 하나 들어서 질문 드리게 되었습니다.
input으로 사용하는 doublespace txt 파일의 sentence length가 얼마가 되어야 많은 범위의 어절을 커버하게 되나요?
제가 몇가지 샘플을 만들어서 사용해 보았는데, 인풋 데이터가 적으면 적을수록 명사를 잘 못 뽑는 것 같습니다. (비지도학습 기반의 모델이라 당연하지만요 ㅎㅎ)

예를 들어서, num sentence가 약 1만개일 경우 50~55%의 어절이 커버되었다고 출력됩니다.
[Noun Extractor] 54.52 % eojeols are covered

num sentence가 약 10만개일 경우 60~65%의 어절이 커버되었다

Toxic Comment Classification Project constructed by Qimo Li, Chen He and Kun Qiu for the course "Introduction to Natural Language Processing in Python" at Brandeis University.

  • Updated Dec 20, 2019
  • HTML

Improve this page

Add a description, image, and links to the postagging topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the postagging topic, visit your repo's landing page and select "manage topics."

Learn more

You can’t perform that action at this time.