• Title/Summary/Keyword: 어휘정보

Search Result 1,062, Processing Time 0.029 seconds

Retrieval Model Based on Word Translation Probabilities and the Degree of Association of Query Concept (어휘 번역확률과 질의개념연관도를 반영한 검색 모델)

  • Kim, Jun-Gil;Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.19B no.3
    • /
    • pp.183-188
    • /
    • 2012
  • One of the major challenge for retrieval performance is the word mismatch between user's queries and documents in information retrieval. To solve the word mismatch problem, we propose a retrieval model based on the degree of association of query concept and word translation probabilities in translation-based model. The word translation probabilities are calculated based on the set of a sentence and its succeeding sentence pair. To validate the proposed method, we experimented on TREC AP test collection. The experimental results show that the proposed model achieved significant improvement over the language model and outperformed translation-based language model.

Pour un traitement lexicographique des proprietes syntaxiques et lexicales des noms coreens (언어사전의 명사항목 구성을 위한 통사 어휘 정보)

  • Hong, Chai-Song
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.96-98
    • /
    • 1989
  • 본 발표는 현대 한국어 어휘에 대한 공시적 시각 우위의 총체적 기술을 지향하는 대규모 언어사전의 명사 항목 내에 표시 되어야할 주요 통사 어휘 정보가 어떠한 것인가 하는 문제를 다룬다. 특히 기간 한국어 사전에서 소홀히 취급되었거나 무시되었으나, 언어학적으로는 중요하고, 따라서 언어 사전에 기록되는 것이 바람직한 한국어 명사의 통사 어휘적 속성의 일부를 소개해 보기로 한다.

  • PDF

Korean Word Learning System Using Automatic Question Generation Technique (자동 문제 생성 기술을 이용한 한국어 어휘학습시스템)

  • Choe, Su-Il;Im, Ji-Hui;Choe, Ho-Seop;Ock, Cheol-Young
    • Korean Journal of Cognitive Science
    • /
    • v.17 no.4
    • /
    • pp.271-286
    • /
    • 2006
  • In this paper, we introduce automatic question generation technique using the language resources like User-Word Intelligent Network(U-WIN) and Korean dictionary including quite a for of information. And we present Korean word learning system with this technique. The item pool method which almost learning-system are using makes some problems. As a solution of the problems, we classified into 8 question type and implemented the Korean word learning system which is making the Korean question automatically by using the morphological and semantic information according to the automatic question generation pattern of each type.

  • PDF

An Analysis of Cohesion and Word Information among English CSAT Question Types (수능 영어 문항 유형간 응집력과 어휘정보 분석)

  • Choi, Minju;Kim, Jeong-ryeol
    • The Journal of the Korea Contents Association
    • /
    • v.17 no.12
    • /
    • pp.378-385
    • /
    • 2017
  • The aim of this study was to analyze cohesion and word information among different types of questions in the English reading section of the College Scholastic Ability Tests (CSAT). The types of questions were divided into three categories: macro reading, micro reading, and indirect writing. Reading texts from 1994 to 2017 CSAT were analyzed by Coh-Metrix, an automated evaluation program of text and discourse. The findings of this study indicated that there were statistical differences among the three categories of questions for noun overlap, stem overlap, adversative and contrastive connective, additive connective, pronoun incidence, age of acquisition, concreteness for content word, imagability, and meaningfulness. The information of the findings bore pedagogic implications for developing textbooks, questions for CSAT, and reading strategies by students.

Descriptor Profiling for Research Domain Analysis (연구영역분석을 위한 디스크립터 프로파일링에 관한 연구)

  • Kim, Pan-Jun;Lee, Jae-Yun
    • Journal of the Korean Society for information Management
    • /
    • v.24 no.4
    • /
    • pp.285-303
    • /
    • 2007
  • This study aims to explore a new technique making complementary linkage between controlled vocabularies and uncontrolled vocabularies for analyzing a research domain. Co-word analysis can be largely divided into two based on the types of vocabulary used: controlled and uncontrolled. In the case of using controlled vocabulary, data sparseness and indexer effect are inherent drawbacks. On the other case, word selection by the author's perspective and word ambiguity. To complement each other, we suggest a descriptor profiling that represents descriptors(controlled vocabulary) as the co-occurrence with words from the text(uncontrolled vocabulary). Applying the profiling to the domain of information science implies that this method can complement each other by reducing the inherent shortcoming of the controlled and uncontrolled vocabulary.

Korean Lexical Knowledge Base Construction System (한국어 어휘 지식 베이스 구축 시스템)

  • Lee, Hae-Joong;Cho, Jeong-Mi;Mun, Jun-Hyeok;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.397-403
    • /
    • 1999
  • 어휘 지식은 자연어 처리에서 매우 중요한 요소이다. 그러나 대규모의 어휘 지식 베이스를 구축하는 것은 많은 시간과 비용을 필요로하는 일이다. 본 논문에서는 온라인 국어 사전을 이용하여 범용의 대규모 한국어 어휘 지식 베이스를 자동으로 구축하는 방법을 제안하고 실제로 시스템을 구현한다. 제안하는 방법론은 비교적 적은 비용으로 단시일내에 대규모의 어휘 지식 베이스를 구축하는 것을 가능하게 한다. 또한 지식 구축 과정이 자동화되어 만들어진 지식 베이스의 유지, 보수 및 확장이 용이하다. 구현된 시스템으로 구축한 어휘 지식 베이스는 기계번역에서의 대역어 선정이나 한국어 조사의 의미 분별 등 자연어 처리 과정에서 발생하는 각종 어휘 의미 모호성 해소에 응용될 수 있다.

  • PDF

Fine-grained Sentiment Lexicon Construction via Semi-supervised Learning (준지도학습을 통한 세부감성 어휘 구축)

  • Jo, Yo-Han;Oh, Hyo-Jung;Lee, Chung-Hee;Kim, Hyun-Ki
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.33-38
    • /
    • 2013
  • 소셜미디어를 통한 여론분석과 브랜드 모니터링에 대한 요구가 증가하면서, 빅데이터로부터 감성을 분석하는 기술에 대한 필요가 늘고 있다. 이를 위해, 본 논문에서는 단순 긍/부정 감성이 아닌 20종류의 세분화된 감성을 분석하기 위한 감성어휘 구축 알고리즘을 제시한다. 감성어휘 구축을 위해서는 준지도학습을 사용하였으며, 도메인에 특화되지 않은 일반 감성어휘를 구축하도록 학습되었다. 학습된 감성어휘를 인물, 스마트기기, 정책 등 다양한 도메인의 트위터 데이터에 적용하여 세부감성을 분석한 결과, 알고리즘의 특성상 재현율이 낮다는 한계를 가지고 있었으나, 대부분의 감성에 대해 높은 정확도를 지닌 감성어휘를 구축할 수 있었고, 감성을 직간접적으로 나타내는 표현들을 학습할 수 있었다.

  • PDF

Chinese Unsupervised Word Sense Disambiguation using WordNet (어휘의미망을 이용한 중국어 비감독 어의 중의성 해소)

  • Lian, Guang-Zhe;Kim, Minho;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.365-368
    • /
    • 2012
  • 어의 중의성 해소는 자연어처리에서 중요한 역할을 한다. 감독 중의성 해소 방법은 비감독 중의성 해소 방법보다 높은 성능을 나타내지만, 구축비용이 큰 대규모 의미부착 말뭉치가 필요하다. 본 논문에서는 중국어 어휘의미망(HowNet)과 의미 미부착 말뭉치를 이용한 중국어 비감독 어의 중의성 해소 방법을 제안한다. 의미 미부착 말뭉치에서 통계정보를 추출하고, 중국어 어휘 의미망에서 중의성 어휘의 의미별 형제어를 추출하여 중의성 어휘의 주변 문맥에 나타나는 어휘와 카이제곱검정(${\chi}^2$-test)에 의한 독립성 검정을 통해 어휘 간 연관성을 판단하고 중의성 해소를 한다. 본 논문에서 제안한 중의성 해소방법의 성능을 SemEval-2007 평가데이터에서 측정한 결과 명사와 동사에서 각각 64.7%, 49.4%를 나타냈다. 이는 SemEval-2007 중국어 비감독 중의성 해소에서 가장 높은 성능을 나타낸 시스템보다 13.1%, 13.9% 높은 성능이다.

Query Classification Based on Translation Probabilities of Similar Query Pair (유사한 질의쌍의 어휘 번역확률을 이용한 질의 분류)

  • Jin, Xueying;Jang, Kye-Hun;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.443-446
    • /
    • 2010
  • 질의 분류에서 어휘의 다양한 표현으로 인한 어휘 불일치문제는 성능저하의 주요 원인이다. 본 논문에서는 야후!앤써 질의응답 아카이브를 이용해서 같은 카테고리의 질의-질의쌍들에 대해 어휘-어휘 번역확률을 계산하는 방법을 제안한다. 정보검색에서 우수한 성능을 보인 어휘 사이의 번역확률을 반영하는 번역기반 언어모델이 질의 분류에서 유효함을 확인하였고 언어모델과의 비교실험을 통해 성능향상을 보였다. 어휘관계를 측정하는 방법에서 번역확률 계산방법에 따른 성능측정에서 전체 질의-대답쌍들에 대해 번역확률을 계산하는 것보다 같은 카테고리에 속하는 질의-질의쌍들에 대해 번역확률을 계산하는 것이 분류를 위해 더 좋은 번역확률임을 확인하였다.

Vocabularies for Defining Business Process of International Logistics (국제 물류 비즈니스 프로세스 정의를 위한 어휘 사전)

  • Lee, Jong-Yun;Lee, Sang-Ho;Bae, Woo-Sik;Lee, Sun-Young;Song, Byung-Jun
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10c
    • /
    • pp.179-184
    • /
    • 2007
  • EPCglobal 네트워크란 EPC(Electronic Product Code)와 RFID(Radio Frequency Identification) 기술을 바탕으로 제품에 식별번호를 부여하고 정보를 저장할 수 있는 공간을 네트워크로 연동하여 공급자, 수요자, 소비가 제품에 관련된 정보를 알 수 있게 해주는 시스템을 말한다. 또한 EPCglobal 네트워크 아키텍처 프레임워크(EPCglobal network architecture framework)는 EPC를 사용하여 공급과 유통망 강화라는 업체간의 공동 목표를 위한 서비스하는 것이다. EPCglobal 네트워크 아키텍처 중 EPCIS(EPC Information System) 수집 애플리케이션, EPCIS 접근 애플리케이션에서 이벤트 정의 시 공통적인 의사소통을 위한 표준 어휘 정의가 필수적이며, 그 어휘 종류에는 표준 어휘(standard vocabulary)와 사용자어휘(user vocabulary)가 있다. 이 논문은 이 가운데 EPCglobal 네트워크 아키텍처의 표준 어휘 정의에 초점을 두고, 사용자 어휘는 부분적으로 정의하고자 한다. 따라서 이 논문은 EPCglobal 네트워크 프레임 아키텍처의 이벤트 정의 시 사용될 표준 어휘를 제안하고, XML 구현을 통해 실제 사용 가능한 환경을 제공할 것이다.

  • PDF