• Title/Summary/Keyword: 단어 중의성

Search Result 121, Processing Time 0.025 seconds

Abbreviation Disambiguation using Topic Modeling (토픽모델링을 이용한 약어 중의성 해소)

  • Woon-Kyo Lee;Ja-Hee Kim;Junki Yang
    • Journal of the Korea Society for Simulation
    • /
    • v.32 no.1
    • /
    • pp.35-44
    • /
    • 2023
  • In recent, there are many research cases that analyze trends or research trends with text analysis. When collecting documents by searching for keywords in abbreviations for data analysis, it is necessary to disambiguate abbreviations. In many studies, documents are classified by hand-work reading the data one by one to find the data necessary for the study. Most of the studies to disambiguate abbreviations are studies that clarify the meaning of words and use supervised learning. The previous method to disambiguate abbreviation is not suitable for classification studies of documents looking for research data from abbreviation search documents, and related studies are also insufficient. This paper proposes a method of semi-automatically classifying documents collected by abbreviations by going topic modeling with Non-Negative Matrix Factorization, an unsupervised learning method, in the data pre-processing step. To verify the proposed method, papers were collected from academic DB with the abbreviation 'MSA'. The proposed method found 316 papers related to Micro Services Architecture in 1,401 papers. The document classification accuracy of the proposed method was measured at 92.36%. It is expected that the proposed method can reduce the researcher's time and cost due to hand work.

Context-sensitive Word Error Detection and Correction for Automatic Scoring System of English Writing (영작문 자동 채점 시스템을 위한 문맥 고려 단어 오류 검사기)

  • Choi, Yong Seok;Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.4 no.1
    • /
    • pp.45-56
    • /
    • 2015
  • In this paper, we present a method that can detect context-sensitive word errors and generate correction candidates. Spelling error detection is one of the most widespread research topics, however, the approach proposed in this paper is adjusted for an automated English scoring system. A common strategy in context-sensitive word error detection is using a pre-defined confusion set to generate correction candidates. We automatically generate a confusion set in order to consider the characteristics of sentences written by second-language learners. We define a word error that cannot be detected by a conventional grammar checker because of part-of-speech ambiguity, and propose how to detect the error and generate correction candidates for this kind of error. An experiment is performed on the English writings composed by junior-high school students whose mother tongue is Korean. The f1 value of the proposed method is 70.48%, which shows that our method is promising comparing to the current-state-of-the art.

Named Entity Linking Based on Deep Learning Model (딥러닝 모형 기반 한국어 개체명 연결)

  • Sohn, Dae-Neung;Lee, Dongju;Lee, Yong-Hun;Chung, Youjin;Kang, Inho
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.90-95
    • /
    • 2016
  • 개체명 연결이란 문장 내 어떤 단어를 특정 사물이나 사람, 장소, 개념 등으로 연결하는 작업이다. 과거에는 주로 연결 대상 단어 주변 문맥에서 자질 공학을 거쳐 입력을 만들고, 이를 이용해 SVM이나 Logistic Regression 혹은 유사도 계산, 그래프 기반 방법론 등으로 지도/비지도 학습하여 문제를 풀어왔다. 보통 개체명 연결 문제의 출력 부류(class)가 사물이나 사람 수만큼이나 매우 커서, 자질 희소성 문제를 겪을 수 있다. 본 논문에서는 이 문제에 구조적으로 더 적합하며 모형화 능력이 더 뛰어나다 여겨지는 딥러닝 기법을 적용하고자 한다. 다양한 딥러닝 모형을 이용한 실험 결과 LSTM과 Attention기법을 같이 사용했을 때 가장 좋은 품질을 보였다.

  • PDF

Harmful Web-document Filtering using Harmful word Co-occurrence (유해어의 공기정보를 활용한 유해 웹문서 필터링)

  • An, Hyung-Keun;Lee, Won-Hee;An, Dong-Un;Chung, Sung-Jong
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.7-10
    • /
    • 2006
  • 웹 환경이 일반화되고 웹을 통해 획득할 수 있는 정보가 다양하고 풍부하다. 이 다양하고 풍부한 정보는 유익한 정보 뿐만 아니라 청소년들을 비롯한 사회적으로 보호를 받아야 할 웹 이용자들의 정신건강을 해치는 정보들도 다수 포함되고 있어 사회적 문제가 되고 있다. 본 연구에서는 웹 문서를 필터링하는 수단으로 공기정보를 포함하고 있는 유해어 사전을 활용한다. 유해어 사전 구축은 단순히 유해어 리스트만으로 사전을 구축하지 않고, 유해어 주위의 공기 단어의 정보를 포함시킴으로써 유해어의 중의성에 의한 오분류를 해소하고자 하였다. 즉, 유해어 후보가 1개 이상의 의미를 가지며 각 의미가 유해 정도가 다를 때, 유해어 후보의 등급을 결정하기 위하여 해당 유해어와 같은 문장 혹은 같은 문서에 출현하는 다른 단어 정보를 활용한다. 이렇게 함으로써 문서의 유해 등급을 결정하게 된다.

  • PDF

Named Entity Linking Based on Deep Learning Model (딥러닝 모형 기반 한국어 개체명 연결)

  • Sohn, Dae-Neung;Lee, Dongju;Lee, Yong-Hun;Chung, Youjin;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.90-95
    • /
    • 2016
  • 개체명 연결이란 문장 내 어떤 단어를 특정 사물이나 사람, 장소, 개념 등으로 연결하는 작업이다. 과거에는 주로 연결 대상 단어 주변 문맥에서 자질 공학을 거쳐 입력을 만들고, 이를 이용해 SVM이나 Logistic Regression 혹은 유사도 계산, 그래프 기반 방법론 등으로 지도/비지도 학습하여 문제를 풀어왔다. 보통 개체명 연결 문제의 출력 부류(class)가 사물이나 사람 수만큼이나 매우 커서, 자질 희소성 문제를 겪을 수 있다. 본 논문에서는 이 문제에 구조적으로 더 적합하며 모형화 능력이 더 뛰어나다 여겨지는 딥러닝 기법을 적용하고자 한다. 다양한 딥러닝 모형을 이용한 실험 결과 LSTM과 Attention기법을 같이 사용했을 때 가장 좋은 품질을 보였다.

  • PDF

Korean Verb Senses Disambiguation Using Distributional Information from Corpora (분포 정보를 이용한 의미 중의성을 지닌 한국어 동사의 의미 분별)

  • Cho, Jeong-Mi;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.56-61
    • /
    • 1995
  • 본 논문에서는 말뭉치로부터의 분포 정보를 이용하여, 의미 중의성을 지닌 한국어 동사의 의미를 분별하고자 한다. 분포 정보란 말뭉치내에서 목적어-서술어 관계에 있는 명사와 동사의 분포를 의미한다. 이 분포 정보는 명사 분포와 동사 분포로 나누어 생각할 수 있는데, 본 논문에서는 이 두가지 분포 정보를 사용함으로써 명사 분포만을 이용하였을 때 나타나는 자료 부족 현상을 등사 분포 정보를 이용하여 보완하였다. 분포 정보간의 유사도 계산은 정보 이론에서 사용하는 상대 엔트로피를 이용한다. 품사가 태깅된 50만 단어의 한국어 말뭉치로부터 분포 정보들을 추출하여 한국어 동사 10개에 대해 실험하였다.

  • PDF

Resolution of Ambiguous Grammatical Functions of Korean Using Conceptual Patterns and Statistical Information (개념패턴과 통계정보를 이용한 한국어 미지격의 구문관계 결정 방법)

  • Lee, Hui-Feng;Kang, In-Su;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.261-266
    • /
    • 1998
  • 본 논문은 보조사로 인해 야기되는 한국어 미지격의 구문관계 중의성 해소를 위한 새로운 기법을 제안한다. 기존의 연구는 수작업으로 얻어진 동사의 의미적 선택 제약을 사용하는 방식과 단어 간의 공기패턴과 빈도를 어휘 레벨에서 추출하여 중의성을 해소하는 방식으로 나뉠 수 있다. 본 논문은 말뭉치에서 어휘 레벨이 아닌 개념패턴과 격의 분포 값을 자동으로 추출하여 미지격의 구문관계를 결정한다. 개념패턴과 용언의 격 분포 정보를 적용하여 구문분석 단계에서 실험한 결과, 본 논문이 제안한 방법은 92%의 미지격 결정 정확율을 보였다. 개념패턴은 지식의 저장공간을 줄이고 격 결정 범위를 확장할 수 있기에 범용 구문분석 시스템으로의 확장을 가능하게 한다.

  • PDF

Weighting and Query Structuring Scheme for Disambiguation in CLTR (교차언어 문서검색에서 중의성 해소를 위한 가중치 부여 및 질의어 구조화 방법)

  • Jeong, Eui-Heon;Kwon, Oh-Woog;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.175-182
    • /
    • 2001
  • 본 논문은 사전에 기반한 질의변환 교차언어 문서검색에서, 대역어 중의성 문제를 해결하기 위한, 질의어 가중치 부여 및 구조화 방법을 제안한다. 제안하는 방법의 질의 변환 과정은 다음의 세 단계로 이루어진다. 첫째, 대역어 클러스터링을 통해 먼저 질의어 단어의 적합한 의미를 결정짓고, 둘째, 문맥정보와 지역정보를 이용하여 후보 대역어들간의 상호관계를 분석하며, 셋째, 각 후보 대역어들을 연결하여, 후보 질의어를 만들고 각각에 가중치를 부여하여 weighted Boolean 질의어로 생성하게 된다. 이를 통해, 단순하고 경제적이지만, 높은 성능을 낼 수 있는 사전에 의한 질의변환 교차언어 문서검색 방법을 제시하고자 한다.

  • PDF

Automatic Recognition of Sentence-final Intonatio Patterns for Korean Predicates (한국어 서술어의 문장만 위치에서의 억양패턴에 대한 자동인식)

  • 이기영
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1995.06a
    • /
    • pp.131-134
    • /
    • 1995
  • 최근, 문장단위의 음성을 인식할 수 있는 시스템을 개발하는 단계에 접어들면서 자발적인 발성음성의 인식 또는 음성언어 이해의 차원을 위한 시스템의 개발을 위해 운율특징을 이용하는 연구가 요구되고 있으나, 지금까지 개발되어온 음성이식시스템은 주로 독립단어의 인식수준에 머물고있기 때문에 운율을 이용하고자 하는 연구가 상대적으로 미흡한 수준에 있다. 본 연구에서? 나국어의 중의성 문장에서 서술어 부분을 세그멘트하고 이 부분의 억양패턴을 자동인식하여 중의성 문장이 서술형, 의문형, 명령형, 권유형인지를 파악하므로써 인식시스템에서 억양패턴을 이용할 수 있는 가능성을 제시하였으며, 서술형 문장음서으이 서술어 부분의 억양변황에 의해 의문형, 명령형, 권유형 무장으로 변환시키므로써 서술어 부분의 억양패턴에 따라 문장의 형태가 구분될 수 있음을 확인하였다.

  • PDF

Development of the Real-Time Graphic Sign Language Broadcasting System (실시간 그래픽 수화방송 시스템 개발)

  • Oh, Juhyun;Jeon, Seonggyu;Kim, Byungsun;Kim, Minho;Kang, Sangwook;Kwon, Hyukchul;Kim, Iktae;Song, Youngho
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.191-194
    • /
    • 2015
  • 청각장애인을 위한 지상파방송 서비스 중 자막방송은 100%에 가까운 편성 비율을 달성하고 있지만, 수화방송은 방송화면을 가리는 특성과 비용 등의 문제로 5% 수준의 편성에 그치고 있다. 본 연구에서는 자막방송을 수화로 번역하여 그래픽 수화 방송을 생성함으로써 수화방송의 비율을 높이고자 한다. 일기예보에 한정하여 수화방송을 생성한 기존 연구 결과를 바탕으로 모든 방송 프로그램에 적용 가능한 그래픽 수화방송 시스템을 제안한다. 자막방송 문장을 형태소별로 분석한 다음 중요 품사 위주로 단어 단위로 번역하고, 한국어 어휘의미망을 이용하여 수화사전에 없는 단어를 대표어로 대체하였다. 형제어와 문맥 정보를 이용하여 중의성 단어를 성공적으로 번역하였다. 기존 일기예보 수화방송 시스템의 수화 사전과 수화 모션 데이터베이스를 추가 구축하였다. 자동번역 기술이 전문 수화 통역사의 수준을 따라잡을 수는 없지만 향후 수화방송도 선택적 서비스가 가능해지고 수화통역사의 수화방송이 모든 프로그램에 편성될 때까지 본 시스템이 보조적 시청 수단으로 사용 가능할 것이다.

  • PDF