• 제목/요약/키워드: lexical information

검색결과 324건 처리시간 0.023초

움직임 동사와 논항 연결, 재어나누기 (Argument Linking in Korean Motion Verb Constructions with Special Attention to Measuring Out)

  • 양정석
    • 한국언어정보학회지:언어와정보
    • /
    • 제3권1호
    • /
    • pp.39-63
    • /
    • 1999
  • Korean manner-of-motion verbs have different characteristics from locomotion verbs syntactically and semantically, and they are aptly encoded as having the primitive semantic element MOVE, not GO of Jackendoff(1990)'s Conceptual Semantics framework. This point is shown on the basis of their behavior, the inability to take the Goal 'NP-lo' phrases, the Purposive 'S-le' clauses, the 'NP-ey' phrases, and the atelic interpretation. It is further shown that the apparent locomotion verb behavior of some manner-of-motion verbs, 'exocentric' phenomenon in their meaning composition, is merely a transferred aspect of manner-of-motion verbs. Three kinds of strategies, transformational, quasi-transformational, and lexical ones, are examined to describe this phenomenon, and the lexical one is determined to be the most appropriate. The remaining part of this paper pursues the possibility of adopting Tenny's(1987, 1994) 'Aspectual Interface Hypothesis' in establishing an argument linking system with special attention to 'measuring-out', but concludes that the hypothesis can be accepted only in a restricted part of verbs, and with a modified notion of measuring-out like Jackendoff's(1996).

  • PDF

도메인 온톨로지에 기반한 XML 스키마의 통합 (Integration of XML Schemas Based on Domain Ontology)

  • 강혜란;이경호
    • 한국멀티미디어학회논문지
    • /
    • 제11권7호
    • /
    • pp.940-955
    • /
    • 2008
  • 동일한 도메인에 속하고 의미가 유사한 XML 문서들이라도 서로 다른 XML 스키마를 따르는 경우가 많다. 그러므로 XML 문서로부터 정보를 추출하고 통합하기 위해서는 의미가 유사한 XML 스키마들을 통합하는 방법이 필요하다. 본 논문은 동일한 도메인에서 사용되는 XML 스키마들을 의미를 정확하게 보존하면서 통합하는 방법을 제안한다. 제안된 방법은 사전과 함께 도메인 온톨로지를 이용하여 어휘 간 유의어 및 상하위어 관계를 검사하고 이를 스키마 통합 과정에 활용한다. 특히 본 논문은 엘리먼트 및 애트리뷰트가 갖고 있는 구조적 정보를 활용하여 유의어 및 상하위어 관계를 보다 정확하게 검사한다. 그리고 정교한 수준의 연산자 통합과 연산자 최적화 규칙을 제안한다. 제안된 방법의 성능을 평가하기 위해서 다양한 도메인의 XML 스키마를 대상으로 실험한 결과, 도메인 온톨로지와 제안된 방법의 어휘 간 구조적 관계를 이용할 경우 통합 스키마의 정확률과 재현율이 향상됨을 확인하였다.

  • PDF

의미기반 인덱스 추출과 퍼지검색 모델에 관한 연구 (A Study on Semantic Based Indexing and Fuzzy Relevance Model)

  • Kang, Bo-Yeong;Kim, Dae-Won;Gu, Sang-Ok;Lee, Sang-Jo
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.238-240
    • /
    • 2002
  • If there is an Information Retrieval system which comprehends the semantic content of documents and knows the preference of users. the system can search the information better on the Internet, or improve the IR performance. Therefore we propose the IR model which combines semantic based indexing and fuzzy relevance model. In addition to the statistical approach, we chose the semantic approach in indexing, lexical chains, because we assume it would improve the performance of the index term extraction. Furthermore, we combined the semantic based indexing with the fuzzy model, which finds out the exact relevance of the user preference and index terms. The proposed system works as follows: First, the presented system indexes documents by the efficient index term extraction method using lexical chains. And then, if a user tends to retrieve the information from the indexed document collection, the extended IR model calculates and ranks the relevance of user query. user preference and index terms by some metrics. When we experimented each module, semantic based indexing and extended fuzzy model. it gave noticeable results. The combination of these modules is expected to improve the information retrieval performance.

  • PDF

텍스트마이닝 기법을 이용한 제 2형 당뇨환자 온라인 담론의 어휘 및 구문구조 분석 (Lexical and Phrasal Analysis of Online Discourse of Type 2 Diabetes Patients based on Text-Mining)

  • 황문현;박정식
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.655-667
    • /
    • 2014
  • 본 연구는 질병과 관련한 온라인 포럼에서 추출한 언어 데이터를 통해 제 2형 당뇨병 환자의 질병에 대한 담론을 양적으로 분석하였다. 또한 환자 언어행위의 양적분석을 통해 환자들의 주요 관심사와 심리적 특징의 일반화가 가능한지에 대해 실증적으로 검증하였다. 분석방법으로는 기존의 인터뷰에 기반한 정성적 연구방법론과 달리 환자들의 담론 표본 전체를 파싱 (parsing)과 POS 태깅을 통해 언어학적으로 형태소 분류를 하였다. 주요 어휘빈도 추출과 N-gram을 통한 최빈도 구문구조 분석을 병행하여, 질병과 관련한 이슈의 주요 범주와 심리상태에 관한 언어적인 특징을 살펴보았다. 연구 결과 환자들의 자발적 대화는 주로 다이어트, 운동, 증상, 약물치료, 심리상태의 5가지 범주로 나타나고 있음을 확인하였고, 최빈도 구문구조 분석을 통해 질병치료와 식생활습관 개선 전반에 대한 부정적인 견해가 두드러진 것을 확인하였다. 결과적으로 의료진의 정확한 정보 전달과 전문가의 조언, 정서적 지원 등이 당뇨환자에 대한 심리적 상태에 중요한 만큼 심리치료 서비스이 개선이 필요할 것으로 보인다. 이런한 결과는 기존의 의료제도 안에서의 환자의 관심사와 심리적 특징이 온라인 상에서도 적절하게 투영되고 있음을 시사한다.

기계가독형사전에서 상위어 판별을 위한 규칙 학습 (Learning Rules for Identifying Hypernyms in Machine Readable Dictionaries)

  • 최선화;박혁로
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.171-178
    • /
    • 2006
  • 기계가독형사전(Machine Readable Dictionary)에서 단어의 정의문에 나타나는 항목 단어의 상위개념을 추출하는 대부분의 연구들은 전문가에 의해 작성된 어휘패턴을 사용하였다. 이 방법은 사람이 직접 패턴을 수집하므로 시간과 비용이 많이 소모될 뿐만 아니라, 자연언어에는 같은 의미를 가진 다앙한 표현들이 존재하므로 넓은 커버리지를 갖는 어휘패턴들을 수집하는 것이 매우 어렵다는 단점이 있다. 이런 문제점들을 해결하기 위하여, 본 논문에서는 구문적 특징만을 이용한 상위어 판별 규칙을 기계학습함으로써 기존에 사용되었던 어휘패턴의 지나친 어휘 의존성으로 인한 낮은 커버리지 및 패턴 수집의 문제를 해결하는 방법을 제안한다. 제안한 방법으로 기계학습된 규칙들을 상위어 자동추출과정에적용한 결과 정확도 92.37% 성능을 보였다. 이는 기존 연구들보다 향상된 성능으로 기계학습에 의해 수집된 판별규칙이 상위어 판별에 있어서 어휘패턴의 문제를 해결할 수 있다는 것을 입증하였다.

어휘정보를 이용한 문장작성에 관한 연구 (A Study on the Sentence Generation using Lexical Information)

  • 황인정;민홍기
    • 융합신호처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.198-204
    • /
    • 2004
  • 본 연구는 언어 장애를 가진 사용자의 언어생활을 돕기 위한 문장작성 방식을 제안한 것이다. 제안한 문장작성 방법은 통신보조기기에 적용할 수 있도록 시스템으로 구현해 보았다. 통신보조기기는 개인 휴대장치로서 필요한 문장을 작성하여 출력하는 기기이다. 언어장애인들의 대표적인 의사표현 수단인 수화는 일반인들과의 의사소통에는 불편하기 때문에 다른 표현 방법이 필요하다. 자모를 모두 입력하여 문장을 작성하는 방식은 키의 수가 많기 때문에 대화할 때 시간이 많이 소용되는 불편한 방식이다. 그러므로 언어장애인을 위한 문장 작성의 가장 중요한 목적은 적절한 장소와 상황에 맞는 단어가 배열된 통신보조기기를 이용하여 적은 키의 수로 문장을 작성하는 것이다. 본 연구의 문장 작성을 구현하기 위한 어휘정보는 사용자 영역을 정하고, 그 영역에 맞는 단어와 문장을 수집하고, 수집된 어휘의 특징을 추출하여 구축되었다. 그리고 제안한 문장 작성 방식의 효용을 측정하기 위해 시스템을 이용하여 문장 작성을 위한 키의 수와 키보드 입력에 의한 자모수를 비교하였다.

  • PDF

BiLSTM 모델과 형태소 자질을 이용한 서술어 인식 방법 (Predicate Recognition Method using BiLSTM Model and Morpheme Features)

  • 남충현;장경식
    • 한국정보통신학회논문지
    • /
    • 제26권1호
    • /
    • pp.24-29
    • /
    • 2022
  • 정보 추출 및 질의응답 시스템 등 다양한 자연어 처리 분야에서 사용되는 의미역 결정은 주어진 문장과 서술어에 대해 서술어와 연관성 있는 논항들의 관계를 파악하는 작업이다. 입력으로 사용되는 서술어는 형태소 분석과 같은 어휘적 분석 결과를 이용하여 추출하지만, 한국어 특성상 문장의 의미에 따라 다양한 패턴을 가질 수 있기 때문에 모든 언어학적 패턴을 만들 수 없다는 문제점이 있다. 본 논문에서는 사전에 언어학적 패턴을 정의하지 않고 신경망 모델과 사전 학습된 임베딩 모델 및 형태소 자질을 추가한 한국어 서술어를 인식하는 방법을 제안한다. 실험은 모델의 변경 가능한 파라미터에 대한 성능 비교, 임베딩 모델과 형태소 자질의 사용 유무에 따른 성능 비교를 하였으며, 그 결과 제안한 신경망 모델이 92.63%의 성능을 보였음을 확인하였다.

한국어 어휘의미망(UWordMap)을 이용한 동형이의어 분별 개선 (Improvement of Korean Homograph Disambiguation using Korean Lexical Semantic Network (UWordMap))

  • 신준철;옥철영
    • 정보과학회 논문지
    • /
    • 제43권1호
    • /
    • pp.71-79
    • /
    • 2016
  • 한국어처리 분야에서 동형이의어 분별은 의미처리를 위해서는 매우 중요하고 오랫동안 연구되어온 주제이다. 최근에 말뭉치를 학습하는 기계학습 방법이 정확률과 속도면에서 좋은 결과를 보이고 있으며, 미학습 어절을 처리하기 위해 어휘의미망을 이용한 지식기반 방법도 연구되고 있다. 본 논문은 말뭉치를 학습한 기계학습 방법에 어휘의미망과 함께 사용하는 방법을 제시한다. 이 방법의 기본 전략은 하위범주화 정보를 말뭉치화하여서 기존 말뭉치와 함께 학습시키고, 동형이의어 태깅 시점에서 분석 대상 명사의 상위어를 찾아서 학습정보와 같이 사용하는 것이다. 이 방법의 효과를 확인하기 위해 세종말뭉치와 UWordMap으로 실험을 하였으며, 정확률이 96.51%에서 96.52%로 미미하지만 상승하는 것을 확인하였다.

대용량 한글 텍스트 검색 엔진 HMG의 구현 (Implementation of Very Large Hangul Text Retrieval Engine HMG)

  • 박미란;나연묵
    • 한국멀티미디어학회논문지
    • /
    • 제1권2호
    • /
    • pp.162-172
    • /
    • 1998
  • 본 논문에서는 영문 텍스트 검색 엔진인 MG(Managing Gigabytes) 시스템과 한글 형태소 분석기 HAM (Hangul Analysis Module)을 이용하여 기가바이트 크기의 텍스트 데이타 처리가 가능한 한글 텍스트 검색 엔진 HMG(Hangul MG)를 구현하였다. 한글 처리를 위해 KSC 5601 완성형 코드를 사용하여 데이타베이스 구축 단계와 질의 처리 단계에서 사용하였다. HMG의 개발을 위해 MG 시스템의 렉시칼 분석기와 파서, 인텍스 구성 모률을 수정하였다. HMG 시스템의 유용성을 보이기 위해 웹에서 한글 소설을 검색할 수 있도록 하는 N NOD (Novel On Demand) 시스템올 구현하였다. HMG 시스템은 한글이 포함된 대규모 전문 검색 시스템의 구축에 활용될 수 있다.

  • PDF