• 제목/요약/키워드: 공기정보

검색결과 812건 처리시간 0.022초

공기정보를 이용한 한국어 요약 시스템의 성능개선 (Performance Improvement of Korean Indicative Summarizer)

  • 박호진;김준홍;김재훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.349-351
    • /
    • 2001
  • 본 논문은 공기정보를 이용하여 한국어 추출요약 시스템의 성능을 개선한다. 여기서 공기정보는 복합명사와 구문관계를 말하며, 복합명사는 인접한 명사들 사이의 공기관계이고, 구문관계는 인접한 명사와 동사 사이의 공기관계를 말한다. 본 논문에서는 공기관계는 t test를 이용하였다. 공기정보를 이용한 시스템은 기존의 시스템보다 좋은 성능을 보였으나, 커다란 성능 향상을 가져오지 못했다. 복합명사는 거의 모든 환경에서 좋은 결과를 가져왔으나, 구문관계는 그렇지 못했다. 앞으로 공기정보의 추출방법을 좀더 개선한다면 좀더 좋은 성능을 기대할 수 있을 것이다.

  • PDF

코퍼스 기반 의미체계와 의미 별 공기정보를 이용한 비지도식 의미구분 (Word Sense Disambiguation using corpus based sense distribution and collocation)

  • 신사임;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.772-774
    • /
    • 2004
  • 본 논문은 원시코퍼스에서 추출한 동음이의어의 의미 별 공기정보를 사용한 비지도식 의미구분 시스템의 구축을 제안한다. 대용량 원시코퍼스에서 추출한 의미체계를 기준으로 의미구분을 수행하였기 때문에 비현실적인 의미체계에 의한 문제점을 해결하였고, 원시코퍼스에서 추출한 공기정보로 데이터 획득비용과 부족문제를 해소하였다 실험을 통해 의미체계의 현실화와 비지도식 훈련데이터 추출방법이 의미구분의 성능향상에 기여함을 보였다

  • PDF

단어의 공기정보를 이용한 클러스터 기반 다중문서 요약 (Multi-document Summarization Based on Cluster using Term Co-occurrence)

  • 이일주;김민구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권2호
    • /
    • pp.243-251
    • /
    • 2006
  • 대표문장 추출에 의한 다중문서 요약에서는 비슷한 정보가 여러 문서에서 반복적으로 나타나는 정보의 중복문제에 대해 문장의 유사성과 차이점을 고려하여 이를 해결할 수 있는 효율적인 방법이 필요하다. 본 논문에서는 단어의 공기정보에 의한 관련단어 클러스터링 기법을 이용하여 문장의 중복성을 제거하고 중요문장을 추출하는 다중문서 요약을 제안한다. 관련단어 클러스터링 기법에서는 각 단어들은 서로 독립적으로 존재하는 것이 아니라 서로 간에 의미적으로 연관되어 있다고 보며 주제별 문장클러스터단위의 단어 연관성(cohesion)을 이용한다. 평가용 실험문서인 DUC(Document Understanding Conferences) 데이타를 이용하여 실험한 결과 본 논문에서 제안한 문장클러스터단위의 단어 공기정보를 이용한 방법이 단순 통계정보와 문서단위 단어 공기정보, 문장단위 단어 공기정보에 의한 다중문서 요약에 비해 좋은 결과를 보였다.

개체명 공기 정보를 이용한 이벤트 문장의 단문 구조 분석 (Clausal Segmentation for Event Sentences Using Named Entity Co-occurrence Information)

  • 임수종;김태현;황이규;윤보현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.593-596
    • /
    • 2002
  • 정보추출이란 자연어로 작성된 문서 집합에서 원하는 정보를 선택하여 구조화된 표현으로 생성하는 것을 말한다. 문장 단위로 정보 추출 작업을 수행할 때 추출되는 정보를 보유한 문장을 이벤트 문장이라고 정의하고 이러한 이벤트 문장의 구조를 분석하여 최종적으로 유용한 정보를 추출하기 위해서는 이벤트 문장의 구조를 파악하기 위해 이벤트 문장을 단문으로 분할하여 구조를 분석한다. 본 연구에서는 단문 구조 분석을 위해 일반적인 한국어 문장의 특성과 용언의 조사 정보를 이용하고 이러한 정보로 분석할 수 없는 문장에 대해서는 공기 정보를 사용한다. 사용되는 공기 정보는 개체명이 많이 사용되는 이벤트 문장의 특성을 이용하기 위하여 개체명으로 확장된 명사(개체명)-조사-용언의 공기 정보를 구축하여 사용한다. 개체명 확장된 공기 정보는 일반 공기 정보에 비해 이벤트 문장에서 F-Measure 기준으로 약 2%의 성능향상을 보인다.

  • PDF

질의확장에 의한 단락검색의 성능 향상에 관한 연구 (A Study on the Improvement of Retrieval Performance Query Expansion in Passage-based Retrieval)

  • 박지연;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.143-148
    • /
    • 2001
  • 본 연구에서는 공기기반 질의-용어간 유사도를 이용한 질의확장을 통해 단락검색의 성능을 향상시키는 방안을 제시하고자 하였다 실험을 통해 전체 문헌집단에 출현한 용어들의 공기정보에 기반한 전역적 질의확장과 이용자의 피드백 없이 초기검색 결과 중 상위 10개 문헌에 출현한 용어들의 공기정보에 기반한 지역적 질의확장의 성능을 비교하고 각각의 성능을 향상시키는 방법을 모색하였다. 마지막으로 문헌집단의 전역 정보와 지역 정보를 함께 이용하는 방안을 제시하고 그 성능을 평가하였다.

  • PDF

한국어의 이중주어 분석 (Double Subject Analysis in Korean)

  • 김창현;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.158-162
    • /
    • 2003
  • 이중주어 문장이란 하나의 용언이 두 개의 주격조사를 취하는 경우를 말한다. 이러한 이중주어 현상은 영어권에서는 없는 현상으로, 한국어 분석 측면에서 어려움을 야기할 뿐 아니라, 자동 번역 측면에서도 반드시 고려되어야 하는 현상이다. 그러나 이중주어의 분석에 대한 기존 연구는 국어학 분야에서만 진행되었을 뿐 자연어 처리분야에서는 다루어진 적이 없다. 본 논문에서는 이중주어 현상에 대한 분석을 통해, 이중주어 현상이 한국어 문장에서 빈번히 발생하는 현상이며, 기존의 ‘명시-격조사-용언’으로 구성되는 공기정보만으로는 이중주어 문장을 올바로 분석할 수 없음을 보인다. 이를 해결하기 위해 본 논문에서는 이중주어의 특성을 파악하고, 이들 특성에 맞게 ‘명사-격조사-용어’ 공기정보뿐 아니라 명사들 간의 공기정보 및 관형형 용언과 명사 공기정보, 그리고 주격조사의 교체를 통한 이중주어 분석 방법을 제안한다.

  • PDF

공기정보와 패턴 정보의 Co-training에 의한 바이오 이벤트 추출 (Biomedical Event Extraction based on Co-training wi th Co-occurrence Informal ion and Patterns)

  • Chun, Hong-Woo;Hwang, Young-Sook;Rim, Hae-Chang
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.53-60
    • /
    • 2003
  • 생명과학 관련 문서에서의 이벤트 추출은 관련 연구자들의 연구에 많은 도움을 줄 수 있다. 기존의 연구에서는 주로 이벤트 동사에 대해 패턴을 정의한 후에 정의된 패턴에 의해서만 이벤트를 추출하고자하였다. 그러나 모든 패턴을 수동으로 정의하는 것은 너무 많은 비용이 들기 때문에 패턴을 자동 추출 또는 확장하는 방법이 필요하다. 또한 학습을 하기 위해서는 상당수의 학습 말뭉치가 있어야 하는데 그것 또한 충분하지 않은 실정이다. 본 논문에서는 초기 패턴에 의해 생성된 소량의 정답 이벤트로부터 학습한 후 공기정보와 패턴정보를 이용한 Co-training방법으로 패턴 확장 및 이벤트 추출을 시도하였다. 실험 결과, 이벤트 동사의 패턴 정보가 유용한 정보라는 것을 확인할 수 있었고, 후보 이벤트 내의 개체간 공기정보와 문법관계정보 또한 매우 중요한 정보라는 것을 새롭게 보일 수 있었다. GENIA 말뭉치에서 162개의 이벤트 동사에 대해 실험한 결과, 88.02%의 정확률, 79.25%의 재현율을 얻었다.

  • PDF

공기정보 벡터를 이용한 한국어 명사의 의미구분 (Word Sense Disambiguation Using of Cooccurrence Information Vectors)

  • 신사임;이주호;최용석;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.472-478
    • /
    • 2001
  • 본 논문은 문맥의 공기정보를 사용한 한국어 명사의 의미구분에 관한 연구이다. 대상 명사에 대한 문맥의 지엽적인 단어분포는 명사의 의미구분을 위한 의미적 특성을 표현하는데 충분하지 못하다. 본 논문은 의미별로 수집한 문맥 정보를 기저 벡터화 하는 방법을 제안한다. 정보의 중요도 측정을 통하여 의미구분에 불필요한 문맥정보는 제거하고, 남아있는 문맥의 단어들은 변별력 강화를 위하여 상의어 정보로 바꾸어 기저벡터에 사용한다. 상의어 정보는 단어의 형태와 사전 정의문의 패턴을 통해 추출한다. 의미 벡터를 통한 의미구분에 실패하였을 경우엔 훈련데이터에서 가장 많이 나타난 의미로 정답을 제시한다. 실험을 위해 본 논문에서는 SENSEVAL 실험집합을 사용하였으며, 제시한 방법으로 공기정보의 가공 없이 그대로 실험한 방법과 비교하여 최고 42% 정도의 정확률 향상을 나타내었다.

  • PDF

공기정보를 이용한 단어 의미 중의성 해결 방안 (Word Sense Disambiguation Method Using Co-occurrence Information)

  • 박요셉;김경임;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.177-178
    • /
    • 2010
  • 단어 의미 중의성은 자연언어처리 분야에서의 주요 관심 분야이다. 한국어에서의 단어 의미 중의성 문제는 다른 언어에 비하여 연구가 미흡한 상태이다. 기존 연구에서는 빈도 수에 기반한 공기 정보 벡터를 이용한 방법에서 처리되지 못하는 경우가 발생하였다. 또한 사전에 기반한 상위어 추출 시에 정형화된 형태가 아닌 경우에 어려움이 발생하였다. 본 논문에서는 상호정보량을 추가하여 공기 정보 처리 과정 시에 발생하는 오류를 최소화 하였다. 또한 대상 명사의 상위어 추출 문제를 해결하기 위해 어휘 지식 베이스를 적용하였다.

  • PDF

개념 기반 문서 분류를 위한 단어 애매성 해소 (Word Ambiguity Resolution for Concept-based Text Classification)

  • 강원석;황도삼
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.167-169
    • /
    • 2000
  • 문서 분류 시스템은 문서에 나타난 용어나 개념의 출현 정보를 이용한다. 개념 기반문서분류는 용어를 사용하지 않고 문서의 단어에 나타난 의미를 이용한다. 단어가 중의성을 가지는 경우 그 뜻을 정확히 가리지 않으면 문서에 출현하지 않은 의미를 이용하게 되므로 문서 분류 시스템의 성능이 저하된다. 본 논문은 개념 기반 문서분류를 위하여 단어 애매성 해소를 시도하였다. 문서에 출현된 의미 정보를 이용하여 의미들간의 공기정보를 구하고 이를 이용하여 단어의 애매성을 해소하였다. 단어의 의미정보는 시소러스 도구를 통해 획득하고 의미들간의 공기정보는 의미들간의 동시 출현 정보를 획득하여 구축하였다. 본 시스템은 문서 분류 등 자연어처리 분야에 이용할 수 있어 효용가치가 높다.

  • PDF