• Title/Summary/Keyword: 논문 문장 분류

Search Result 357, Processing Time 0.023 seconds

Multi-class Classification System Based on Multi-loss Linear Combination for Word Spacing and Sentence Boundary Detection (띄어쓰기 및 문장 경계 인식을 위한 다중 손실 선형 결합 기반의 다중 클래스 분류 시스템)

  • Kim, GiHwan;Seo, Jisu;Lee, Kyungyeol;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.185-188
    • /
    • 2018
  • 띄어쓰기와 문장 경계 인식은 그 성능에 따라 자연어 분석 단계에서 오류를 크게 전파하기 때문에 굉장히 중요한 문제로 인식되고 있지만 각각 서로 다른 자질을 사용하는 문제 때문에 각각 다른 모델을 사용해 순차적으로 해결하였다. 그러나 띄어쓰기와 문장 경계 인식은 완전히 다른 문제라고는 볼 수 없으며 두 모델의 순차적 수행은 앞선 모델의 오류가 다음 모델에 전파될 뿐만 아니라 시간 복잡도가 높아진다는 문제점이 있다. 본 논문에서는 띄어쓰기와 문장 경계 인식을 하나의 문제로 보고 한 번에 처리하는 다중 클래스 분류 시스템을 통해 시간 복잡도 문제를 해결하고 다중 손실 선형 결합을 사용하여 띄어쓰기와 문장 경계 인식이 서로 다른 자질을 사용하는 문제를 해결했다. 최종 모델은 띄어쓰기와 문장 경계 인식 기본 모델보다 각각 3.98%p, 0.34%p 증가한 성능을 보였다. 시간 복잡도 면에서도 단일 모델의 순차적 수행 시간보다 38.7% 감소한 수행 시간을 보였다.

  • PDF

Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation (문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역)

  • Kim, Hankyong;Na, Hwi-Dong;Li, Jin-Ji;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.44-49
    • /
    • 2009
  • 통계기계번역에서 도메인에 특화된 번역을 시도하여 성능향상을 얻는 방법이 있다. 이를 위하여 문장의 유형이나 장르에 따라 클러스터링을 수행한다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 문장 사이의 문법적 구조 유사성으로 문장을 유형별로 분류하는 새로운 기법을 제시하였고, 단어 유사도 정보로 문서의 장르를 구분하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조의 유사성과 단어 유사도 계산을 위하여 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정은 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

  • PDF

A Conditional Unification Based Parsing for Korean Using Sentence-Type Information (문장 형태 정보를 이용한 조건단일화 기반 한국어 파싱)

  • Yang Seungweon
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.9 no.4
    • /
    • pp.1-7
    • /
    • 2004
  • In this thesis, we introduce a parsing method which use information of the post position in Korean to get the exact parsing tree. In order to implement this method we classified categories of the predicates, and defined sentence-types based on these categories. We tried to make parsing using the method grasping the grammatical role of the noun phrase that have to exist in each sentence-type. In parser control mechanism, we use some heuristics based on linguistic frame. We use conditional unification to implement analysis. It is Possible to reduce ambiguous because the parsing method suggested helps to Prune the branches which are unnecessary.

  • PDF

Kernel-based sentence classification for protein-protein interaction (커널 기반의 '단백질-단백질 작용' 의미 포함 문장 분류)

  • Kim Seong-Hwan;Eom Jae-Hong;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.286-288
    • /
    • 2005
  • 본 논문에서는 tree kernel을 이용 '단백질-단백질 작용' 내용 포함 문장의 추출 방법을 제시한다. Tree kernel은 convolution kernel의 하나로서, 이를 이용하여 파싱 트리(parsing tree)로 표현된 문장을 데이터로 하여 '단백질-단백질 작용' 내용을 포함하고 있는 문장을 그렇지 않은 문장으로부터 분류할 수 있다. 문장 전체를 데이터로 사용하는 것보다 관련 영역을 서브트리(sub-tree)로 추출하여 사용한 것이 더 효과적임을 확인할 수 있었고, kernel계산에 있어 파싱 트리의 태그 내용이 중요한 역할을 하기 때문에 이를 '단백질-단백질 작용'의 의미를 반영할 수 있도록 semantic하게 변환한 효과 및 트리의 길이에 따른 영향도 실험해 보았다. 문제에 사용된 데이터의 양이 다소 적었지만, 데이터 표현 방식에 따라 파싱이나 패턴기법을 이용한 기존의 방법과 비교해 좋은 성능을 보일 수 있다는 가능성을 확인할 수 있었다.

  • PDF

Adverbs as Aspectual Markers (상표지로서의 부사 '거의')

  • 송현석;이정민
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.150-154
    • /
    • 2000
  • 동사의 종류와 곡용, 논항의 종류와 격 등 문장의 상을 결정하는 요인들은 여러 가지이다(Tenny 1994). 그러나 실제 자연언어처리에서 상 결정 요소들의 복잡한 조합은 기계가 문장의 상을 파악하는 작업을 더욱 어렵게 만들뿐이다. 본 논문에서는 다양한 상 결정 요인을 참조하지 않고 특정 부류의 부사에 의존하여 문장의 상을 결정하는 방법을 제안하고자 한다. 부사는 이른바 불변화사로 분류하는 품사 중의 하나로 통사적 혹은 형태소적 규칙의 적용을 받아 변형하지 않는다. 따라서 기계는 복잡한 형태소 분석을 통하지 않는 부사를 포착하기가 쉽다. 이와 같은 이점을 지닌 부사가 통사적 분석을 토대로 파악할 수 있는 문장의 의미인 상에 대한 표지임을 증명하여 자연언어처리의 간결함을 확보하고자 하는 것이 본 논문의 목적이다.

  • PDF

A Document Sentiment Classification System Based on the Feature Weighting Method Improved by Measuring Sentence Sentiment Intensity (문장 감정 강도를 반영한 개선된 자질 가중치 기법 기반의 문서 감정 분류 시스템)

  • Hwang, Jae-Won;Ko, Young-Joong
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.6
    • /
    • pp.491-497
    • /
    • 2009
  • This paper proposes a new feature weighting method for document sentiment classification. The proposed method considers the difference of sentiment intensities among sentences in a document. Sentiment features consist of sentiment vocabulary words and the sentiment intensity scores of them are estimated by the chi-square statistics. Sentiment intensity of each sentence can be measured by using the obtained chi-square statistics value of each sentiment feature. The calculated intensity values of each sentence are finally applied to the TF-IDF weighting method for whole features in the document. In this paper, we evaluate the proposed method using support vector machine. Our experimental results show that the proposed method performs about 2.0% better than the baseline which doesn't consider the sentiment intensity of a sentence.

A Comparative study on the Effectiveness of Segmentation Strategies for Korean Word and Sentence Classification tasks (한국어 단어 및 문장 분류 태스크를 위한 분절 전략의 효과성 연구)

  • Kim, Jin-Sung;Kim, Gyeong-min;Son, Jun-young;Park, Jeongbae;Lim, Heui-seok
    • Journal of the Korea Convergence Society
    • /
    • v.12 no.12
    • /
    • pp.39-47
    • /
    • 2021
  • The construction of high-quality input features through effective segmentation is essential for increasing the sentence comprehension of a language model. Improving the quality of them directly affects the performance of the downstream task. This paper comparatively studies the segmentation that effectively reflects the linguistic characteristics of Korean regarding word and sentence classification. The segmentation types are defined in four categories: eojeol, morpheme, syllable and subchar, and pre-training is carried out using the RoBERTa model structure. By dividing tasks into a sentence group and a word group, we analyze the tendency within a group and the difference between the groups. By the model with subchar-level segmentation showing higher performance than other strategies by maximal NSMC: +0.62%, KorNLI: +2.38%, KorSTS: +2.41% in sentence classification, and the model with syllable-level showing higher performance at maximum NER: +0.7%, SRL: +0.61% in word classification, the experimental results confirm the effectiveness of those schemes.

Multi-Document Summarization using Time Feature (시간자질을 이용한 다중 문서요약)

  • 임정민;강인수;배재학;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.898-900
    • /
    • 2004
  • 시간에 중속적인 문서집합에서 사람이 만든 요약문은 시간에 따른 중요 내용의 분포를 보여준다. 본 논문은 다중 문서에 시간 자질을 이용한 문서의 분류와 시간별 문서집합에서 핵심문장과 부가문장을 선별하고, 문장간의 계층적인 클러스터링을 통해서 중요 문장을 선별하는 방법을 제안한다. 동일한 주제를 갖는 문서집합에서 사랑이 선택한 중요 문장에 대해서 제안한 방법은 50% 정확률을 나타냈다.

  • PDF

Test on Learning Method for Improving Performance Using Cohesion Devices (Cohesion Devices를 이용한 학습 적용 방법과 성능 개선을 위한 실험)

  • Kim, Yonghoon;Chung, Mokdong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.755-758
    • /
    • 2018
  • 현재의 정보 검색 및 문서를 분류하는 기법에 대하여 신경망을 이용한 정보검색 모델에 대한 연구가 활발히 진행되고 있으며, 간단한 문장에 대한 주제어 분석에서부터 장문에 해당하는 수필 등의 문서를 분류하는 기술이 요구되고 있으며, 이를 실현하기 위한 다양한 알고리즘을 적용하거나, 단어 및 문서에 가중치를 적용하거나, 문서에서의 특이 값을 구하고, 이를 분석하는 방법에 대하여 정보화가 가속화 되면서 정확한 문서에 대한 이해가 요구되고 있다. 이러한 연구와 직접적으로 관련된 단어의 빈도에 대한 논의는 사회과학의 영어학습에 대한 연구 또는 순수 언어에 대한 연구에 머물러 있다. 이에 본 연구에서는 영문에서의 응집장치를 이용하여 문장에서의 중요 단어에 대한 빈도를 합리적으로 증가시켜 문장의 의미를 더 정확하게 분석할 수 있는 기법에 대하여 제시하고자 하며, 본 논문에서는 영문 수필 사이트의 분류를 추측하고 이를 자동 분류 할 수 있는 방법에 대하여 제시하고자 하며, 이를 구현하여 문서의 의미에 대한 연구에 기여하고자 한다.

Question Similarity Analysis in dialogs with Automatic Feature Extraction (자동 추출 자질을 이용한 대화 속 질의 문장 유사성 분석)

  • Oh, KyoJoong;Lee, DongKun;Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.347-351
    • /
    • 2018
  • 이 논문은 대화 시스템에서 질의를 이해하기 위해 딥 러닝 모델을 통해 추출된 자동 추출 자질을 이용하여 문장의 유사성을 분석하는 방법에 대해 기술한다. 문장 간 유사성을 분석하기 위한 자동 추출 자질로써, 문장 내 표현 순차적 정보를 반영하기 위한 RNN을 이용하여 생성한 문장 벡터와, 어순에 관계 없이 언어 모델을 학습하기 위한 CNN을 이용하여 생성한 문장 벡터를 사용한다. 이렇게 자동으로 추출된 문장 임베딩 자질은 금융서비스 대화에서 입력 문장을 분류하거나 문장 간 유사성을 분석하는데 이용된다. 유사성 분석 결과는 질의 문장과 관련된 FAQ 문장을 찾거나 답변 지식을 찾는데 활용된다.

  • PDF