• 제목/요약/키워드: Allomorph

검색결과 7건 처리시간 0.021초

POI 이형태 데이타베이스 구축 시스템 (A Point-Of-Interest Allomorph Database Construction System)

  • 양승원;이현영;왕지현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권3호
    • /
    • pp.226-235
    • /
    • 2009
  • 내비게이션 시스템에서 목적지를 찾기 위하여 목적지의 이름, 분류, 주소, 전화번호 등의 정보를 이용하게 되는데 대부분의 사용자들은 이들 중에서 목적지의 이름을 사용한다. 그런데 사용자들은 공급사에서 제공하는 POI DB에 등재된 이름을 정확히 알지 못할 뿐만 아니라 편의상 축약된 명칭이나 일반적으로 불리어지는 명칭 등으로 POI 검색을 시도하므로 검색이 실패하는 경우가 빈번하다. 본 논문에서는 내비게이션 시스템에서 이름으로 검색 할 때 검색 성공률을 제고할 수 있는 이형태 DB 구축 시스템을 제안한다. 이 시스템은 원 DB의 POI 명과 연결되는 이형태를 생성하여 DB화한다. 우리는 이형태의 생성을 위하여 약 650,000 개의 개체를 가지고 있는 원 DB의 POI 명으로부터 모은 패턴을 분석하여 이형태의 유형을 7 가지로 분류하였다 분류한 유형을 토대로 일정한 패턴이 존재하여 자동화가 가능한 유형들에 대하여 577개의 규칙을 만들어 자동으로 이형태를 구축하였다. 규칙으로 만들기가 어렵거나 빈도수가 적은 개체들에 대해서는 수동으로 이형태를 구축하였다. 생성된 비율은 전체 POI DB의 35.8%에 해당하며 구축한 이형태 DB를 사용한 검색 성공률은 89%이었다.

특허 정보 검색 품질 향상을 위한 대체어 후보 자동 생성 방법 (Automatic Construction of Alternative Word Candidates to Improve Patent Information Search Quality)

  • 백종범;김성민;이수원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권10호
    • /
    • pp.861-873
    • /
    • 2009
  • 정보 검색에서 원하는 정보를 얻지 못하는 원인은 다양하다. 그 중에서도 표기의 다양성은 검색 시 불일치로 인한 정보 누락을 발생시키는 원인이 된다. 본 논문은 이러한 불일치에 의한 정보 누락을 최소화하기 위하여 검색 대체어 후보를 자동 생성하는 방법을 제안한다. 본 연구에서 제안하는 대체어 후보 자동 생성 방법은 문장 내에서 함께 쓰이는 단어들이 비슷한 두 단어는 서로 비슷한 의미를 지닐 것이다라는 직관적 가설을 전제로 한다. 이와 같은 가설을 기반으로 하여 본 연구에서는 분류별 집중도, 신뢰도를 이용한 연관단어 뭉치, 연관단어 뭉치 간 코사인 유사도 및 신뢰도를 이용한 필터링 기법 등을 이용한 대체어 후보 자동 생성 방법을 제안한다. 본 연구에서 제안한 대체어 후보 자동 생성 방법의 성능은 대체어 유형별로 작성된 평가지표를 이용하여 정확도 및 재현율을 측정함으로써 평가되었으며, 제안 방법이 context window overlapping을 이용한 대체어 추출 방법보다 더 우수한 것으로 나타났다.

의존 명사 '것'으로부터 도출된 몇몇 형식에 대한 고찰 (A Study on Some Forms that Originated from the Dependent Noun "것" [kət])

  • 이은섭
    • 비교문화연구
    • /
    • 제41권
    • /
    • pp.245-273
    • /
    • 2015
  • 본고는 의존 명사 '것'으로부터 도출된 '거', '게', '걸'의 성격 구명을 위해 작성된 것이다. 최근 이 형식들을 '것'의 이형태로 간주한 논의가 있다. 그러나 이는 교체와 이형태 개념의 전제가 되는 엄밀한 조건들에 대한 고려를 결한 것으로서 재고되어야 한다. 특히 '거'는 기능과 분포의 면에서 '것'과 거의 동일하므로 이형태가 아닌 수의적 변이형이며, 부사격 조사와 통합하는 '걸'은 비록 제약이 강하기는 하나 '거'의 수의적 변이형으로 보아야 한다. 또한 격조사구의 일부로서의 '게'나 '걸'은 이미 형태소의 층위를 넘어선 통합 형식이므로 이형태 논의와는 무관하다. 결국 '것'의 이형태는 존재하지 않는 것으로 보아야 한다.

A Rule-Based Analysis from Raw Korean Text to Morphologically Annotated Corpora

  • Lee, Ki-Yong;Markus Schulze
    • 한국언어정보학회지:언어와정보
    • /
    • 제6권2호
    • /
    • pp.105-128
    • /
    • 2002
  • Morphologically annotated corpora are the basis for many tasks of computational linguistics. Most current approaches use statistically driven methods of morphological analysis, that provide just POS-tags. While this is sufficient for some applications, a rule-based full morphological analysis also yielding lemmatization and segmentation is needed for many others. This work thus aims at 〔1〕 introducing a rule-based Korean morphological analyzer called Kormoran based on the principle of linearity that prohibits any combination of left-to-right or right-to-left analysis or backtracking and then at 〔2〕 showing how it on be used as a POS-tagger by adopting an ordinary technique of preprocessing and also by filtering out irrelevant morpho-syntactic information in analyzed feature structures. It is shown that, besides providing a basis for subsequent syntactic or semantic processing, full morphological analyzers like Kormoran have the greater power of resolving ambiguities than simple POS-taggers. The focus of our present analysis is on Korean text.

  • PDF

Semantic Alternation of Korean Case Markers '에e' and '에게ege', and '에서eseo' and '에게서 egeseo'

  • Kim, Jungnam;Shim, Yanghee
    • 비교문화연구
    • /
    • 제36권
    • /
    • pp.271-291
    • /
    • 2014
  • In this paper, we maintain that case makers '에e' and '에게ege', and '에서eseo' and '에게서egeseo' are not two separate morphemes but are simply allomorphs of the same morphemes respectively. When '에e' and '에게ege' are used as a dative marker, they show exactly the same semantic function and are in complementary distribution in relation to the semantic features of their preceding noun; that is, if the preceding noun is an animate noun, '에게ege' is used and '에e' is used if not. Also, '에게서egeseo' and '에서eseo' as ablative and locative case makers show exactly the same semantic function and show complementary distribution depending on whether the preceding noun is animate or non-animate. Therefore, we assume that these markers are semantically conditioned allomorphs.

한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상 (Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph)

  • 이원기;김영길;이의현;권홍석;조승우;조형미;이종혁
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF

한국어의 이형태 표준화를 통한 구 기반 통계적 기계 번역 성능 향상 (Improve Performance of Phrase-based Statistical Machine Translation through Standardizing Korean Allomorph)

  • 이원기;김영길;이의현;권홍석;조승우;조형미;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.285-290
    • /
    • 2016
  • 한국어는 형태론적으로 굴절어에 속하는 언어로서, 어휘의 형태가 문장 속에서 문법적인 기능을 하게 되고, 형태론적으로 풍부한 언어라는 특징 때문에 조사나 어미와 같은 기능어들이 다양하게 내용어들과 결합한다. 이와 같은 특징들은 한국어를 대상으로 하는 구 기반 통계적 기계번역 시스템에서 데이터 부족 문제(Data Sparseness problem)를 더욱 크게 부각시킨다. 하지만, 한국어의 몇몇 조사와 어미는 함께 결합되는 내용어에 따라 의미는 같지만 두 가지의 형태를 가지는 이형태로 존재한다. 따라서 본 논문에서 이러한 이형태들을 하나로 표준화하여 데이터부족 문제를 완화하고, 베트남-한국어 통계적 기계 번역에서 성능이 개선됨을 보였다.

  • PDF