• 제목/요약/키워드: 용례

검색결과 92건 처리시간 0.02초

언어 정보 획득을 위한 한국어 코퍼스 분석 도구 (A Korean Corpus Analysis Tool for Language Information Acquisition)

  • 이호;김진동;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.297-304
    • /
    • 1994
  • 코퍼스는 기계 가독형으로 개장되어 있는 실제 사용 언어의 집합으로 자연어 처리에 필요한 여러 가지 언어 정보를 내재하고 있다. 이들 정보는 코퍼스 분석기를 이용하여 획득할 수 있으며 용례와 각종 통계 정보 및 확률 정보, 연어 목록 등은 코퍼스에서 추출할 수 있는 대표적인 언어 정보들이다. 그러나 기존의 한국어 코퍼스 분석 도구들은 용례 추출 기능만을 보유하여 활용 범위가 제한되어 있었다. 이에 본 논문에서는 대량의 한국어 코퍼스를 분석하여 용례뿐만 아니라 자연어 처리의 제분야에서 필요한 언어 정보들을 추출하는 방법에 대해 연구하였으며 이의 검증을 위해 KCAT(Korean Corpus Analysis Tool)를 구현하였다. KCAT는 코퍼스 색인, 용례 추출, 통계 정보 추출, 연어 추출 부분으로 구성되어 있다. 용례 색인을 위해서는 여러 가지 사전과 용례 색인 구조가 필요한데 KCAT에서는 가변 차수 B-Tree 구조를 이용하여 사전을 구성하며 용례 색인을 위해 버킷 단위의 역 화일 구조를 이용한다. 질 좋은 용례의 추출을 위해 KCAT는 다양한 용례 연산 및 정렬 기능을 제공한다. 또한 통계적 방법의 자연어 처리 분야를 위해 어휘 확률, 상태 전이 확률, 관측 심볼 확률, 상호 정보, T-score 등을 제공하며, 기계 번역 분야에서 필요한 연어를 추출한다.

  • PDF

용례 벡터와 웹 자원을 이용한 전문용어 용례의 추출 및 순위화 (Extraction and Ranking of Term Usages using Usage Vector and Web Resources)

  • 정하용;최기선
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.95-101
    • /
    • 2006
  • 전문용어의 용례는 일반용어의 용례와 다르게 의미를 드러내는 것이 중요하다. 또한 사전 및 시소러스와 같은 자원이 부족하다는 특징이 있다. 본 논문에서 우리는 전문용어의 용례를 벡터를 이용한 표현을 통해 더 정량적으로 나타내는 방법을 제안했다. 또한 전문용어의 자료부족 문제를 극복하기 위해 대체적 자원으로 웹을 이용하는 것을 제안했다. 실험 결과, 제안한 시스템은 기존의 시스템에 비해 최대 30%의 성능 향상을 이룰 수 있었다. 게다가 제안한 시스템에의 추출된 전문용어의 용례는 다른 자연어 처리 응용을 위한 보완적 자원으로서의 가능성을 보여줬다.

  • PDF

형태소 사이의 유사도를 이용한 용례의 의미별 분류 (Conceptual Clustering of Korean Concordances using Similarities between Morphemes)

  • 백대호;이호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.235-240
    • /
    • 1996
  • 본 논문에서는 정보 검색에서 사용하는 계층적 클러스터링 기법을 이용하여 용례들을 중심어의 의미에 따라 분류하고자 한다. 분류에 필요한 용례 사이의 유사도는 형태소 사이의 유사도를 이용하여 계산한다. 형태소 사이의 유사도 계산에는 상호 정보, 상호 정보의 유사도, 벡터 유사도 등을 사용한다. 품사 태깅된 17만 코퍼스에서 명사 4개와 동사 4개를 중심어로 사용하여 추출된 용례에 대해서 각 방법의 정확도를 실험한 결과 상호 정보와 상호 정보 유사도를 더한 값을 형태소 사이의 유사도로 사용한 방법이 90.16%의 정확도를 보였다. 제안된 방법에서 사용하는 정보들은 의미 태깅되지 않은 코퍼스에서 추출할 수 있기 때문에, 정보의 획득이 쉬운 장점이 있다.

  • PDF

이상은(李商隱) 시(詩) 구주(舊注) 중에 나타난 시어(詩語)의 음의관계(音義關係) 연구(硏究) (A Phonetic and Semantic Analysis on the Annotations of Li ShangYin (李商隱)'s Poetry)

  • 염재웅
    • 비교문화연구
    • /
    • 제52권
    • /
    • pp.341-369
    • /
    • 2018
  • 이상은(李商隱)은 만당(晩唐)시기를 대표하는 시인으로 590여수의 시를 남겼다. 본 논문에서는 이상은(李商隱) 시(詩)에 대한 역대 학자들의 주석(注釋)을 통하여 시어(詩語) 속에 담긴 다양한 음의관계(音義關係)와 특징을 탐색했다. 그 결과 "시어(詩語)의 음의관계(音義關係)를 설명(說明)한 용례" 12개와 "시어(詩語)의 특징(特徵) 및 운율(韻律)을 설명(說明)한 용례" 5개의 핵심적인 용례를 찾아냈다. 특히 "시어(詩語)의 음의관계(音義關係)를 설명(說明)한 용례"를 분석해보니 이상은(李商隱) 시어(詩語)의 주석(注釋)과 고대(古代) 중국어의 음의관계가 일치하는 유형과 그렇지 않은 유형으로 분류되었다. 본 연구에서는 각 유형에 대한 세부 분석을 위해서 시율(詩律)의 평측(平仄)을 적용했다.

구텐베르그 프로젝트 텍스트 데이터를 활용한 시각화 및 용례 검색 (Text Visualization and Concordance Search Using Gutenberg Project Text Data)

  • 김동성;신연수;이지안;유지민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-178
    • /
    • 2017
  • 본 연구는 거시적 빅데이터 인문학과 미시적 언어 텍스트 검색 시스템을 구축하고, 이를 통해서 언어를 통한 문화의 역동적 변화를 시간적 순서에 따라 살펴보고자 한다. 연구의 최종적인 목표는 문화도 생물체처럼 변화하는 존재라 여기고 그 구성요소들을 연구한다는 뜻인 '문화체학(文化體學; Culturomics)'과 같은 '인문학 + 정보과학 + 사회과학' 등등의 다학문간의 융합적 연구에 있다. 이 시스템을 통해서 인류 역사의 기록인 텍스트 빅데이터를 통한 인문학적 성찰을 시각화하고 있다. 이러한 구글의 업적은 인문학과 정보기술의 융합을 통해서 인문학 자체의 지평을 넓히고, 사회과학을 변형시키고, 산업과 상아탑 사이의 관계를 재조정하는데 있다.

  • PDF

구텐베르그 프로젝트 텍스트 데이터를 활용한 시각화 및 용례 검색 (Text Visualization and Concordance Search Using Gutenberg Project Text Data)

  • 김동성;신연수;이지안;유지민
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.175-178
    • /
    • 2017
  • 본 연구는 거시적 빅데이터 인문학과 미시적 언어 텍스트 검색 시스템을 구축하고, 이를 통해서 언어를 통한 문화의 역동적 변화를 시간적 순서에 따라 살펴보고자 한다. 연구의 최종적인 목표는 문화도 생물체처럼 변화하는 존재라 여기고 그 구성요소들을 연구한다는 뜻인 '문화체학(文化體學; Culturomics)'과 같은 '인문학 + 정보과학 + 사회과학' 등등의 다학문간의 융합적 연구에 있다. 이 시스템을 통해서 인류 역사의 기록인 텍스트 빅데이터를 통한 인문학적 성찰을 시각화하고 있다. 이러한 구글의 업적은 인문학과 정보기술의 융합을 통해서 인문학 자체의 지평을 넓히고, 사회과학을 변형시키고, 산업과 상아탑 사이의 관계를 재조정하는데 있다[1].

  • PDF

국내 업계별 효소이용 실태

  • 이정문
    • 미생물과산업
    • /
    • 제13권3호
    • /
    • pp.35-36
    • /
    • 1987
  • 질병의 진단과 예후판정 병태연구에 이용되는 진단용및 분석용 시약은 효소와는 떼어놓고 이야기 할 수 없는 정밀한 관련이 있다. 이분야의 효소이용례를 크게 두가지로 나누어 설명하겠다.

  • PDF

어휘망(U-WIN)의 구문관계 자동구축 (Automatic Construction of Syntactic Relation in Lexical Network(U-WIN))

  • 임지희;최호섭;옥철영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권10호
    • /
    • pp.627-635
    • /
    • 2008
  • 본 연구에서는 사용자 어휘지능망(U-WIN)의 어휘 관계 중의 하나인 구문관계를 자동으로 구축하는 방법을 제시하고자 한다. 먼저, 구문관계를 형성할 수 있는 후보명사를 용언의 용례에서 문형 정보를 기준으로 추출함으로써, 용언의 세분화된 의미별로 정확하고 다양한 후보명사를 추출할 수 있다. 그러나 추출된 후보명사는 다양한 의미를 지니고 있으므로, 어휘간의 명확한 구문관계를 설정하기 위해서는 후보명사의 여러 의미 중에서 정확한 의미로 결정해야 한다. 그래서 본 연구에서는 용례 매칭 규칙, 구문 패턴, 의미 유사도, 빈도 정보 등을 이용하여 후보명사의 의미를 분별한다. 또한 구문패턴의 빈도 정보를 이용하여 용례에 나타나지 않지만 구문관계를 형성할 수 있는 명사를 추출하여 구문관계를 확장하고자 하였다. 이러한 연구는 명사 중심의 어휘망이 용언과의 구문관계 구축을 통해 형태소 분석, 구문 분석, 의미분석 등에 광범위하게 활용할 수 있는 어휘망의 기반을 다지는 작업이 될 수 있을 것이다.