• 제목/요약/키워드: 어휘 이질성

검색결과 6건 처리시간 0.024초

하천공간정보의 온톨로지 구축방안 연구 (Construction of Ontology for River GeoSpatial Information)

  • 신형진;신승희;황의호;채효석
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2015년도 학술발표회
    • /
    • pp.627-627
    • /
    • 2015
  • 기존 물관련 시스템들은 독자적인 DB 구조를 가지고 있고 검색 서비스는 자체 시스템의 DB를 직접 접근하여 사용자에게 결과를 제시하는 형식이다. 이러한 서비스의 단점은 사용자가 개별 시스템의 서비스에 대한 지식이 없으면 접근하기 어렵다는 점이다. 개별 시스템의 개별 서비스의 개념을 벗어나기 위하여 물관련 시스템에 있는 하천공간자료 검색 정보를 카탈로그 서버에 등록하고, 카탈로그 서버에 등록된 검색정보를 사용자가 검색하는 방식을 적용하고자 한다. 카탈로그 서버에 자료에 대한 정보를 등록할 때 자료의 정보를 어떻게 기술할 것인가의 문제가 발생한다. 개별 서버마다 등록하게 된다면 용어 및 문화에 의한 차이로 같은 개념을 다른 용어로 등록하게 되는 혼란이 발생할 소지가 있다. 예를 들어 강우자료에 대하여 "강우", "Precipitation", "Railfall", "비" 등으로 등록할 소지가 있다. 이러면 실제 자료가 존재하는 데도 등록 방법에 따라 자료의 검색이 어려워진다. 이러한 상황을 제어하기 위하여 검사어휘(Controlled Vocabulary)를 도입한다. 이는 포털의 운영자가 미리 용어의 개념과 용어의 분류체계를 설정하고 등록 자료의 검색어를 미리 설정하여 자료의 원천 소유자가 자료를 등록 시 검사어휘를 참고하여 등록하거나 또는 등록되지 않는 용어의 자료인 경우 이 용어를 포탈에 신규로 등록한다. 검색용어의 난립을 피하기 위하여 사용자의 신규등록은 포탈의 운영자가 어느 정도 제어할 필요가 있다. 검사어휘의 정립과 하천 관련된 분류체계는 하천공간정보 검색의 포탈을 위한 필수사항이다. 검사어휘의 정립의 주된 목적은 이질성의 극복이다. 이질성의 종류는 문법적 이질성, 데이터 형식과 구조 및 문맥적 이질성이 있다. 이 중에서 문맥적 이질성이 가장 넓고 어려운 문제이다. 단위는 분야마다 호칭이 다르고 채택하는 기준마다 다르다. 유사어는 전문용어라도 분야마다 다르다. 우리나라에서 서비스 인코딩시 국어와 영어를 어떻게 처리할 지에 대한 대책도 필요하다. 수문학의 시계열 자료를 다루는 CUAHSI/HIS의 온톨로지는 대 개념으로 물리학적, 화학적 및 생물학적인 분야로 분류하고 있다. 하천공간정보의 온톨로지 구축을 위해 데이터 분석 및 분류, 온톨로지 요소 설정, 온톨로지 데이터 테이블 작성, 클래스 생성 및 계층화, 클래스 계층화에 따른 속성 설정, 클래스에 적합한 개체 삽입, 논리 관계 확인 및 수정과 같은 과정으로 온톨로지 개발을 진행하고자 한다.

  • PDF

의미적 유사성과 그래프 컨볼루션 네트워크 기법을 활용한 엔티티 매칭 방법 (Entity Matching Method Using Semantic Similarity and Graph Convolutional Network Techniques)

  • 단홍조우;이용주
    • 한국전자통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.801-808
    • /
    • 2022
  • 대규모 링크드 데이터에 어떻게 지식을 임베딩하고, 엔티티 매칭을 위해 어떻게 신경망 모델을 적용할 것인가에 대한 연구는 상대적으로 많이 부족한 상황이다. 이에 대한 가장 근본적인 문제는 서로 다른 레이블이 어휘 이질성을 초래한다는 것이다. 본 논문에서는 이러한 어휘 이질성 문제를 해결하기 위해 재정렬 구조를 결합한 확장된 GCN(Graph Convolutional Network) 모델을 제안한다. 제안된 모델은 기존 임베디드 기반 MTransE 및 BootEA 모델과 비교하여 각각 53% 및 40% 성능이 향상되었으며, GCN 기반 RDGCN 모델과 비교하여 성능이 5.1% 향상되었다.

XMDR 기반 온톨로지 구축 방법에 대한 실험 및 평가 (Experiment and Evaluation of the XMDR-based Ontology Building Method)

  • 이석훈;정동원;김장원;백두권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.185-188
    • /
    • 2010
  • 온톨로지 간 이질성 문제를 해결하고 상호운용성을 향상시키기 위한 연구가 진행되어 왔으며, 최근 XMDR에 기반한 온톨로지 구축 방법이 제안되었으나 기존 연구와의 비교 평가가 부족하여 장점을 정확하게 보이지 못하였다. 따라서 이 논문에서는 XMDR 기반 온톨로지 구축 방법의 장점을 보다 명확하게 보이기 위해 정량적인 평가를 수행한다. 이를 위해 실제 온톨로지를 구축하고, 구축된 온톨로지는 온톨로지 참조 기반 온톨로지 구축 방법, 사전 참조 기반 온톨로지 구축 방법, 기존 방법론을 이용한 온톨로지 구축 방법을 평가 대상으로 하여 5가지 평가 지표로 분석된다. 평가 지표로는 구축된 온톨로지의 어휘 및 구조의 일관성 비교를 위하여 어휘 및 구조의 빈도수 평균과 엔트로피를 사용하고 구축 비용의 평가를 위하여 각 온톨로지의 구축 시간을 사용한다. 이러한 실험 및 평가의 결과로써, 온톨로지 참조 기반의 온톨로지 구축 방법은 다른 온톨로지 구축 방법들에 비해 온톨로지 어휘 및 구조가 일관적이고 효율적임을 보인다.

인간언어공학에의 활용을 위한 이종 개념체계 간 사상 -세종의미부류와 KorLexNoun 1.5- (Mapping Heterogenous Hierarchical Concept Classifications for the HLP Applications -A case of Sejong Semantic Classes and KorLexNoun 1.5-)

  • 배선미;임경업;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.6-13
    • /
    • 2009
  • 본 연구에서는 인간언어공학에서의 활용을 위해 세종전자사전의 의미부류와 KorLexNoun 1.5의 상위노드 간의 사상을 목표로 전문가의 수작업에 의한 세밀한 사상 방법론(fine-grained mapping method)을 제안한다. 또한 이질적인 두 이종 자원 간의 사상에 있어 각 의미체계의 이질성으로 인해 발생하는 여러 가지 문제점을 살펴보고, 그 해결방안을 제안한다. 본 연구는 세종의미부류체계가 밝히고자 했던 한국어의 의미구조와, Prinston WordNet을 참조로 하여 KorLexNoun에 여전히 영향을 미치고 있는 영어 의미구조를 비교함으로써 공통점과 차이점을 파악할 수 있고, 이를 바탕으로 언어 독립적인 개념체계를 구축하는 데 기여할 수 있다. 또한 향후 KorLex의 용언에 기술되어 있는 문형정보와 세종 전자사전의 용언의 격틀 정보를 통합 구축하여 구문분석에서 이용할 때, 세종 의미부류와 KorLexNoun의 상위노드를 통합 구축함으로써 논항의 일반화된 선택제약규칙의 기술에서 이용될 수 있다. 본 연구에서 제안된 사상방법론은 향후 이종 자원의 자동 사상 연구에서도 크게 기여할 것이다. 아울러 두 이종 자원의 사상을 통해 두 의미체계가 지닌 장점을 극대화하고, 동시에 단점을 상호 보완하여 보다 완전한 언어자원으로써 구문분석이나 의미분석에서 이용될 수 있다.

  • PDF

다양한 웹 데이터를 이용한 특정 유기체의 단백질 상호작용 데이터베이스 개발 (Development of an Organism-specific Protein Interaction Database with Supplementary Data from the Web Sources)

  • 황두성
    • 정보처리학회논문지D
    • /
    • 제9D권6호
    • /
    • pp.1091-1096
    • /
    • 2002
  • 이 논문은 단백질 상호작용 데이터베이스 개발에 관해 기술한다. 개발된 시스템의 특징으로서는 첫째, 생물학자들의 직접적인 실험을 통해 얻어진 단백질 상호작용 및 유전인자 데이터를 제공한다. 둘째, 생물학적으로 관련 있는 다양한 형식의 데이터를 wrapper를 통해 광범위하게 분포된 웹사이트들로부터 추출한다. 셋째, 다양한 웹 데이터들 간의 어휘적, 의미적 이질성을 완화하기 위해 wrapper-mediator에 의한 계층적 모듈 구조를 이용하여 추출된 데이터는 통합 과정을 거친 후, 데이터베이스 저장 및 검색을 가능하게 하였다. 현재까지, 주어진 약 11,500 단백질들에 대해, 생물적으로 의미 있는 데이터를 약 40% 정도 데이터베이스 화 했다. 본 개발된 시스템은 프로티오믹스 연구에서 데이터 분석에 유용할 것으로 기대된다.

인간언어공학에의 활용을 위한 이종 개념체계 간 사상 - 세종의미부류와 KorLexNoun 1.5 - (Mapping Heterogenous Ontologies for the HLP Applications - Sejong Semantic Classes and KorLexNoun 1.5 -)

  • 배선미;임경업;윤애선
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.95-126
    • /
    • 2010
  • 본 연구에서는 인간언어공학에서의 활용을 위해 매우 이질적인 세종전자사전의 의미부류(SJSC)와 KorLexNoun 1.5(KLN)의 상위노드 간의 사상을 목표로, '의미 입자(sense grain)가 작은 개념체계(fine-grained ontology)' 간 귀납적이며 상향적인 수동 사상 방법론을 제안하였다. 동시에 이종 자원 간의 사상에 있어 각 의미체계의 이질성 때문에 발생하는 여러 가지 문제점을 살펴보고, 그 해결방안도 제안하였다. 두 이종 개념체계 간의 사상 방법은 SJSC의 단말 노드와 KLN의 Least Upper Bound(LUB)를 기본단위로 하여, 첫째, 어휘 분포를 이용하여 사상 후보군을 결정하고, 둘째, 계층 관계와 정의문과 용례를 이용하여 후보군들 간의 정확한 의미구분을 하며, 셋째, 상 하위-자매노드에 SJSC의 적정술어 및 정의문을 적용하여 LUB의 단계를 결정하고, 넷째, 양 의미체계의 계층관계를 비교함으로써 SJSC의 단말 노드와의 사상 여부를 판단하며, 마지막으로 KLN의 오류 및 전문용어 후보군은 사상에서 제외하였다. 이와같이 본 연구에서는 단계별 사상 준거의 설정에 있어 각 의미체계에 기술되어 있는 다양한 언어정보를 적극 이용하였는데, 이는 세밀한 수동 사상의 장점이라 할 수 있다. 본 연구에서 제안한 방법으로 사상한 결과, SJSC의 474개의 단말 및 비단말 노드와 KLN의 신셋(synset) 간에는 중복을 제외하고 6,487개의 LUB가 사상되었으며, 각 LUB의 하위노드를 포함해서는 모두 88,255개의 KLN 신셋이 사상되어 전체적으로는 97.91%가 사상되었다. 본 연구의 결과는 정교한 한국어 통사 및 의미 분석에 활용될 수 있을 것이다.

  • PDF