• Title/Summary/Keyword: 용례

Search Result 92, Processing Time 0.029 seconds

A Korean Corpus Analysis Tool for Language Information Acquisition (언어 정보 획득을 위한 한국어 코퍼스 분석 도구)

  • Lee, Ho;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.297-304
    • /
    • 1994
  • 코퍼스는 기계 가독형으로 개장되어 있는 실제 사용 언어의 집합으로 자연어 처리에 필요한 여러 가지 언어 정보를 내재하고 있다. 이들 정보는 코퍼스 분석기를 이용하여 획득할 수 있으며 용례와 각종 통계 정보 및 확률 정보, 연어 목록 등은 코퍼스에서 추출할 수 있는 대표적인 언어 정보들이다. 그러나 기존의 한국어 코퍼스 분석 도구들은 용례 추출 기능만을 보유하여 활용 범위가 제한되어 있었다. 이에 본 논문에서는 대량의 한국어 코퍼스를 분석하여 용례뿐만 아니라 자연어 처리의 제분야에서 필요한 언어 정보들을 추출하는 방법에 대해 연구하였으며 이의 검증을 위해 KCAT(Korean Corpus Analysis Tool)를 구현하였다. KCAT는 코퍼스 색인, 용례 추출, 통계 정보 추출, 연어 추출 부분으로 구성되어 있다. 용례 색인을 위해서는 여러 가지 사전과 용례 색인 구조가 필요한데 KCAT에서는 가변 차수 B-Tree 구조를 이용하여 사전을 구성하며 용례 색인을 위해 버킷 단위의 역 화일 구조를 이용한다. 질 좋은 용례의 추출을 위해 KCAT는 다양한 용례 연산 및 정렬 기능을 제공한다. 또한 통계적 방법의 자연어 처리 분야를 위해 어휘 확률, 상태 전이 확률, 관측 심볼 확률, 상호 정보, T-score 등을 제공하며, 기계 번역 분야에서 필요한 연어를 추출한다.

  • PDF

Extraction and Ranking of Term Usages using Usage Vector and Web Resources (용례 벡터와 웹 자원을 이용한 전문용어 용례의 추출 및 순위화)

  • Jung, Ha-Yong;Choi, Key-Sun
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.95-101
    • /
    • 2006
  • 전문용어의 용례는 일반용어의 용례와 다르게 의미를 드러내는 것이 중요하다. 또한 사전 및 시소러스와 같은 자원이 부족하다는 특징이 있다. 본 논문에서 우리는 전문용어의 용례를 벡터를 이용한 표현을 통해 더 정량적으로 나타내는 방법을 제안했다. 또한 전문용어의 자료부족 문제를 극복하기 위해 대체적 자원으로 웹을 이용하는 것을 제안했다. 실험 결과, 제안한 시스템은 기존의 시스템에 비해 최대 30%의 성능 향상을 이룰 수 있었다. 게다가 제안한 시스템에의 추출된 전문용어의 용례는 다른 자연어 처리 응용을 위한 보완적 자원으로서의 가능성을 보여줬다.

  • PDF

Conceptual Clustering of Korean Concordances using Similarities between Morphemes (형태소 사이의 유사도를 이용한 용례의 의미별 분류)

  • Baek, Dae-Ho;Lee, Ho;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.235-240
    • /
    • 1996
  • 본 논문에서는 정보 검색에서 사용하는 계층적 클러스터링 기법을 이용하여 용례들을 중심어의 의미에 따라 분류하고자 한다. 분류에 필요한 용례 사이의 유사도는 형태소 사이의 유사도를 이용하여 계산한다. 형태소 사이의 유사도 계산에는 상호 정보, 상호 정보의 유사도, 벡터 유사도 등을 사용한다. 품사 태깅된 17만 코퍼스에서 명사 4개와 동사 4개를 중심어로 사용하여 추출된 용례에 대해서 각 방법의 정확도를 실험한 결과 상호 정보와 상호 정보 유사도를 더한 값을 형태소 사이의 유사도로 사용한 방법이 90.16%의 정확도를 보였다. 제안된 방법에서 사용하는 정보들은 의미 태깅되지 않은 코퍼스에서 추출할 수 있기 때문에, 정보의 획득이 쉬운 장점이 있다.

  • PDF

A Phonetic and Semantic Analysis on the Annotations of Li ShangYin (李商隱)'s Poetry (이상은(李商隱) 시(詩) 구주(舊注) 중에 나타난 시어(詩語)의 음의관계(音義關係) 연구(硏究))

  • Yum, Jae-ung
    • Cross-Cultural Studies
    • /
    • v.52
    • /
    • pp.341-369
    • /
    • 2018
  • Li ShangYin (李商隱) was a poet who represented the late Tang period and authored more than 590 poems. In this paper, I have searched for various phonetic and semantic relationships through the attention of scholars' annotation about Li ShangYin (李商隱)'s poetry. As a result, we found 12 types of "examples that explain the phonetic and semantic relationships of poetic words" and five types of "examples that explain the features of poetic words and prosody." Especially, through analysis of "examples that explain the phonetic and semantic relationships of poetic words", it is divided into two types. The first type is that the scholars' annotation about Li ShangYin (李商隱)'s poetry and phonetic and semantic relationships of poetic words are matched, and the second type is that the scholars' annotation about Li ShangYin (李商隱)'s poetry and phonetic and semantic relationships of poetic words are inconsistent. In this study, I applied the theory of level and oblique tones for more detailed analysis of each type.

Text Visualization and Concordance Search Using Gutenberg Project Text Data (구텐베르그 프로젝트 텍스트 데이터를 활용한 시각화 및 용례 검색)

  • Kim, Dongsung;Shin, Yeonsu;Lee, Jian;Yu, Jimin
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.175-178
    • /
    • 2017
  • 본 연구는 거시적 빅데이터 인문학과 미시적 언어 텍스트 검색 시스템을 구축하고, 이를 통해서 언어를 통한 문화의 역동적 변화를 시간적 순서에 따라 살펴보고자 한다. 연구의 최종적인 목표는 문화도 생물체처럼 변화하는 존재라 여기고 그 구성요소들을 연구한다는 뜻인 '문화체학(文化體學; Culturomics)'과 같은 '인문학 + 정보과학 + 사회과학' 등등의 다학문간의 융합적 연구에 있다. 이 시스템을 통해서 인류 역사의 기록인 텍스트 빅데이터를 통한 인문학적 성찰을 시각화하고 있다. 이러한 구글의 업적은 인문학과 정보기술의 융합을 통해서 인문학 자체의 지평을 넓히고, 사회과학을 변형시키고, 산업과 상아탑 사이의 관계를 재조정하는데 있다.

  • PDF

Text Visualization and Concordance Search Using Gutenberg Project Text Data (구텐베르그 프로젝트 텍스트 데이터를 활용한 시각화 및 용례 검색)

  • Kim, Dongsung;Shin, Yeonsu;Lee, Jian;Yu, Jimin
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.175-178
    • /
    • 2017
  • 본 연구는 거시적 빅데이터 인문학과 미시적 언어 텍스트 검색 시스템을 구축하고, 이를 통해서 언어를 통한 문화의 역동적 변화를 시간적 순서에 따라 살펴보고자 한다. 연구의 최종적인 목표는 문화도 생물체처럼 변화하는 존재라 여기고 그 구성요소들을 연구한다는 뜻인 '문화체학(文化體學; Culturomics)'과 같은 '인문학 + 정보과학 + 사회과학' 등등의 다학문간의 융합적 연구에 있다. 이 시스템을 통해서 인류 역사의 기록인 텍스트 빅데이터를 통한 인문학적 성찰을 시각화하고 있다. 이러한 구글의 업적은 인문학과 정보기술의 융합을 통해서 인문학 자체의 지평을 넓히고, 사회과학을 변형시키고, 산업과 상아탑 사이의 관계를 재조정하는데 있다[1].

  • PDF

국내 업계별 효소이용 실태

  • 이정문
    • The Microorganisms and Industry
    • /
    • v.13 no.3
    • /
    • pp.35-36
    • /
    • 1987
  • 질병의 진단과 예후판정 병태연구에 이용되는 진단용및 분석용 시약은 효소와는 떼어놓고 이야기 할 수 없는 정밀한 관련이 있다. 이분야의 효소이용례를 크게 두가지로 나누어 설명하겠다.

  • PDF

Automatic Construction of Syntactic Relation in Lexical Network(U-WIN) (어휘망(U-WIN)의 구문관계 자동구축)

  • Im, Ji-Hui;Choe, Ho-Seop;Ock, Cheol-Young
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.10
    • /
    • pp.627-635
    • /
    • 2008
  • An extended form of lexical network is explored by presenting U-WIN, which applies lexical relations that include not only semantic relations but also conceptual relations, morphological relations and syntactic relations, in a way different with existing lexical networks that have been centered around linking structures with semantic relations. So, This study introduces the new methodology for constructing a syntactic relation automatically. First of all, we extract probable nouns which related to verb based on verb's sentence type. However we should decided the extracted noun's meaning because extracted noun has many meanings. So in this study, we propose that noun's meaning is decided by the example matching rule/syntactic pattern/semantic similarity, frequency information. In addition, syntactic pattern is expanded using nouns which have high frequency in corpora.