• 제목/요약/키워드: 어휘정보

검색결과 1,062건 처리시간 0.033초

술어-논항 구조의 어휘 패턴을 이용한 스트링 커널 기반 관계 추출 (String Kernel-based Relation Extraction using Lexical Patterns of Predicate-Argument Structure)

  • 정창후;최성필;전홍우;홍순찬;정한민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.327-329
    • /
    • 2012
  • 문서 내에 존재하는 중요한 개체들 간의 관계를 자동으로 추출할 때 개체와 개체 사이의 상호작용 표현에 중요하게 관여하는 핵심자질을 잘 선택할수록 빠르고 정확하게 관계 추출을 수행할 수 있다. 본 논문에서는 개체 쌍 사이에 존재하는 술어-논항 구조의 어휘 패턴 문자열을 정규화해서 스트링 커널에 적용하는 관계 추출 방법을 제안한다. 제안된 시스템의 성능 평가를 위해서 과학기술문헌에 존재하는 중요한 개체들 간의 연관관계 추출 성능 평가를 수행하는 테스트컬렉션을 자체적으로 구축하였으며 실험을 통하여 제안된 방법의 성능을 측정하였다. 정확도 실험 결과, 스트링 커널의 입력으로 문장 전체를 사용한 경우에는 55.0693%, 개체 쌍 사이의 문자열을 사용한 경우에는 61.0331%, 그리고 술어-논항 구조의 어휘 패턴 문자열을 사용한 경우에는 69.14%로, 술어-논항 구조의 어휘 패턴 문자열을 사용했을 때 성능이 가장 좋게 나타났다. 결론적으로 문장 내의 술어-논항 구조를 분석하여 정규화된 어휘 패턴을 생성하고 이렇게 생성된 문자열을 스트링 커널에 적용하는 방법이 관계 추출에 유용한 방법임을 알 수 있었다.

한국어 시각 단어 재인에서 음운, 철자이웃 크기 효과 (The Phonological and Orthographic Neighborhood Effect in Korean Visual Word Recognition : LDT study & fMRI study)

  • 권유안;박창수;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2006년도 춘계학술대회
    • /
    • pp.47-51
    • /
    • 2006
  • 본 실험은 한국어 심성어휘집의 표상 정보가 음운정보로 이루어져 있는지, 철자정보로 이루어져 있는지 알아보기 위해 실시되었다. 실험자극은 한국어의 2음절 단어 중 음운변화(자음동화)를 겪는 단어(예: 국민)를 사용하였으며, 각 조건은 철자이웃이 크며 음운 이웃이 큰 단어 조건(O+P+), 철자이웃이 크고 음운이웃은 작은 단어 조건(O+P-), 철자이웃은 작고 음운이웃이 큰 단어 조건(O-P+), 철자이웃과 음운이웃 모두가 작은 조건(O-P-)이었다 실험 1에서 어휘판단 과제를 실시한 결과, 음운이웃 크기와 철자이웃 크기간의 상호작용이 나타났다. 실험2는 동일한 실험자극을 사용한 fMRI 연구를 수행하였다. 실험2 결과 음운처리에 관련된 뇌영역의 활성화가 나타났다. 본 연구결과는 한국어의 경우 심성어휘집이 음운정보로 이루어져 있음을 시사한다.

  • PDF

다중 온톨로지를 활용한 워드넷 확장 (Wordnet Extension Using Multiple Ontology)

  • 박경국;김진환;구태완;김병관;정연진;이광모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.425-428
    • /
    • 2007
  • 웹에 대한 사용자의 다양한 요구와 더불어 웹 서비스에 관한 연구가 활발히 진행되고 있다. 그 중 사용자가 원하는 정보를 정확하게 제공하기 위한 의미기반의 검색방법이 중요한 이슈로 등장하였다. 사용자 질의에 대한 의미 분석 및 검색과 온톨로지 구축의 기반으로는 어휘망이 사용된다. 그러나 어휘망은 작성 시기와 그 내용이 일반적인 내용으로 구성되어 전문적인 의미 검색으로 사용하기에는 부족함이 있다. 따라서 본 논문에서는 다중 온톨로지를 이용한 어휘망 확장을 제안한다.

  • PDF

복합 커널을 사용한 한국어 종속절의 의존관계 분석 (Analyzing Dependencies of Korean Subordinate Clauses)

  • 김상수;박성배;이상조;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-98
    • /
    • 2007
  • 한국어에서 절들의 의존관계를 밝히는 작업은 구문 분석 작업에서 가장 어려운 작업들 중에 하나로 인식되고 있다. 절의 의존관계를 파악하는 일은 표면적으로 나타나는 정보만을 가지고 처리할 수 없고, 의미 정보 같은 추가적인 정보가 필요할 것으로 판단하고 처리해왔다. 본 논문에서는 추가적인 정보를 사용하지 않고, 문장에서 얻을 수 있는 표면적인 정보만을 사용하여 절들 간의 의존관계를 파악하는 방법을 제안한다. 문장에서 얻을 수 있는 표면적인 정보는 문장의 구문 정보(tree structure information)와 어휘 및 거리 정보를 가지고 있는 정적인 정보(static information)로 나누어 볼 수 있다. 본 논문에서는 절들 간의 의존 관계 파악을 위하여 구문 정보 및 어휘정보 등을 하나 이상의 커널의 결합해서 사용하는 복합 커널(composite kernel)을 제안하고, 이 커널에 맞는 다양한 인스턴스 공간의 설정을 제안한다. 실험 데이터는 구문 트리로 표현된 STEP 2000코퍼스를 사용하였다. 실험은 최적화된 인스턴스 공간을 절들 간의 의존관계 파악 및 문장 수준에서 성능을 검정하였다. 관계 인스턴스 공간은 절들 간의 연결을 기준으로 Path-enclosed Tree와 Flattened Path-enclosed Tree로, 하부절(관형절)의 표현 유무로 Complete Tree, Contex-sensitive Tree, Simple Tree로 나누어 각각의 조합으로 실험하여 결정하였다. 그리고 결정된 인스턴스 공간에서 복합커널을 사용한 방법이 좋은 성능을 발휘함을 보였다.

  • PDF

영어 SentiWordNet을 이용하여 구축한 한국어 감성어휘사전의 성능 평가와 한계 연구 (Performance and Limitations of a Korean Sentiment Lexicon Built on the English SentiWordNet)

  • 신동혁;김새롬;조동희;뉘엔 민디오;박순강;어건주;남지순
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.189-194
    • /
    • 2016
  • 본 연구는 다국어 감성사전 및 감성주석 코퍼스 구축 프로젝트인 MUSE 프로젝트의 일환으로 한국어 감성사전을 구축하기 위해 대표적인 영어 감성사전인 SentiWordNet을 이용하여 한국어 감성사전을 구축하는 방법의 의의와 한계점을 검토하는 것을 목적으로 한다. 우선 영어 SentiWordNet의 117,659개의 어휘중에서 긍정/부정 0.5 스코어 이상의 어휘를 추출하여 구글 번역기를 이용해 자동 번역하는 작업을 실시하였다. 그 중에서 번역이 되지 않거나, 중복되는 경우를 제거하고, 언어학 전문가들의 수작업으로 분류해낸 결과 3,665개의 감성어휘를 획득할 수 있었다. 그러나 이마저도 병명이나 순수 감성어휘로 보기 어려운 사례들이 상당수 포함되어 있어 실제 이를 코퍼스에 적용하여 감성어휘를 자동 판별했을 때에 맛집 코퍼스에서의 재현율(recall)이 긍정과 부정에서 각각 47.4%, 37.7%, IT 코퍼스에서 각각 55.2%, 32.4%에 불과하였다. 이와 더불어 F-measure의 경우, 맛집 코퍼스에서는 긍정과 부정의 값이 각각 62.3%, 38.5%였고, IT 코퍼스에서는 각각 65.5%, 44.6%의 낮은 수치를 보여주고 있어, SentiWordNet 기반의 감성사전은 감성사전으로서의 역할을 수행하기에 충분하지 않은 것으로 나타났다. 이를 통해 한국어 감성사전을 구축할 때에는 한국어의 언어적 속성을 고려한 체계적인 접근이 필요함을 역설하고, 현재 한국어 전자사전 DECO에 기반을 두어 보완 확장중인 SELEX 감성사전에 대해 소개한다.

  • PDF

공유모델 인식 성능 향상을 위한 효율적인 연속 어휘 군집화 모델링 (Efficient Continuous Vocabulary Clustering Modeling for Tying Model Recognition Performance Improvement)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권1호
    • /
    • pp.177-183
    • /
    • 2010
  • 연속 어휘 인식 시스템에서는 통계적 방법에 의한 어휘 인식을 수행하기 위하여 확률분포를 이용하며 이는 음소 단위의클러스터링을사용하여모델링하여샘플들을기반으로 확률 파라미터를 추정한다. 어휘 검색 시 추정된 확률 파라미터로부터 인식 결과를 나타내는데 미리 정의되지 않은 음소와 추가되어진 음소로부터 인식률이 저하되는 문제점이 발생하며, 하나의 클러스터링으로 모델링하므로 가우시안 모델이 정확성을 확보하지 못한다는 단점이 있다. 이를 개선하기 위하여 확률 분포의 혼합 가우시안 모델을 최적화하여 유사도를 기반으로 Euclidean과 Bhattacharyya 거리 측정 방법을 혼합한 군집화 모델을 제안하고, 군집화된 모델에서 음소 단위로 확률 모델을 탐색할 수 있는 시스템을 모델링하였다. 본 논문에서 제안한 시스템을 적용한 결과 시스템 성능에서 어휘 종속 인식률은 98.63%, 어휘 독립 인식률은 97.91%의 인식률을 나타내었다.

단어클러스터링 시스템을 이용한 어휘의미망의 활용평가 방안 (The Method of the Evaluation of Verbal Lexical-Semantic Network Using the Automatic Word Clustering System)

  • 김혜경;송미영
    • 한국한의학연구원논문집
    • /
    • 제12권3호통권18호
    • /
    • pp.1-15
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만, 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다. 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68,455,856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '[-하]동사류' 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 여부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론, 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

  • PDF

유사지명 인식시의 성능 개선 연구 (A study on the improvement of speech recognition for similar place names)

  • 백승권;양희식;한민수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2000년도 정기총회 및 학술대회
    • /
    • pp.49-53
    • /
    • 2000
  • 본 연구에서는 DAB(Digital Audio Broadcasting) 시스템의 교통정보 검색 서비스를 위하여 경부선 및 호남선의 톨게이트가 위치한 49 개의 지명을 대상으로 이를 인식하고자 할 때 인식 율을 개선하였다. 지명 어휘의 특성을 분석한 결과 전체 지명의 81.6%가 2 음절이었으며 동일한 음절을 포함하는 지명이 전체의 구성된 어휘가 61%로 조사되었다. 시스템에서 인식율을 개선하기 위하여 인식 대상어휘를 3개의 set로 재분류하고 인식 대상 어휘로 판정된 후보 어휘에 대하여 인식 성공여부에 핵심이 되는 음절의 위치에 따라 가중치 윈도우를 적용하였다. 그 결과 화자 독립의 인식율 테스트에서 남성의 경우 7.2%, 여성의 경우 5.1%의 인식율 향상을 보였다.

  • PDF

커뮤니티 주제 어휘의 상호운용에 관한 연구 (Interoperability of Community-Oriented Subject Vocabulary)

  • 이원숙
    • 한국도서관정보학회지
    • /
    • 제40권1호
    • /
    • pp.297-316
    • /
    • 2009
  • 본 연구에서는 최근 활발히 이용되고 있는 커뮤니티 주제 어휘의 특징을 선행연구인 ULIS-DL과 디지털오카야마 대백과(디지털강산대백과(デジタル岡山大百科))를 중심으로 알아보고, 이들 어휘들의 상호운용 모델을 일본의 동경도(東京都), 홋카이도(북해도(北海道)), 한국의 충청남도의 각 도청 홈페이지의 디렉토리 용어들을 이용하여 제안하였다. NDLSH(National Diet Library Subject Heading)와 NDC(Nippon Decimal Classification)를 스위칭 언어를 사용하여 다섯개의 어휘 매핑 모델을 제안하였다. 마지막으로, 각각의 모델들에 대한 평가 및 한계점에 관하여 매핑의 정확율과 재현율을 이용하여 논하였다.

  • PDF

단락 자동 구분을 통한 중요 문자 추출 (Setences Extraction System using Automatic Division of Paragraph)

  • 김계성;이현주;정영규;서연경;손기준;이상조
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.233-237
    • /
    • 2000
  • 본 논문은 단락의 자동 구분을 통한 중요 문장 추출 시스템을 제안한다. 먼저 어휘의 재출현 여부와 어휘의 일치도, 어휘의 역할 변화를 파악하여 재출현 어휘에 대한 양상을 분석하고 이를 통하여 문장 간의 긴밀도를 정량적으로 계산한다. 다음으로 측정된 문장 간 긴밀도를 이용하여 사용자의 추출 범위에 따라 단락을 구분하고, 각 단락의 대표 문장을 선정하여 최종 요약문을 생성한다. 제안한 방법은 문서 제목, 문장의 위치, 수사 구조 등의 정보를 이용하지 않으며, 단순히 어휘의 출현 빈도만을 이용하던 기존의 통계적인 방법보다 질높은 요약문을 생성할 수 있다. 또한 제안한 방법론은 본 논문이 대상으로 삼고 있는 신문기사의 영역뿐만 아니라 다른 영역으로의 적용이 가능하다.

  • PDF