• Title/Summary/Keyword: 어휘적 유사성

Search Result 86, Processing Time 0.025 seconds

Construction of Ontology for River GeoSpatial Information (하천공간정보의 온톨로지 구축방안 연구)

  • Shin, Hyung Jin;Shin, Seung Hee;Hwang, Eui Ho;Chae, Hyo Sok
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.627-627
    • /
    • 2015
  • 기존 물관련 시스템들은 독자적인 DB 구조를 가지고 있고 검색 서비스는 자체 시스템의 DB를 직접 접근하여 사용자에게 결과를 제시하는 형식이다. 이러한 서비스의 단점은 사용자가 개별 시스템의 서비스에 대한 지식이 없으면 접근하기 어렵다는 점이다. 개별 시스템의 개별 서비스의 개념을 벗어나기 위하여 물관련 시스템에 있는 하천공간자료 검색 정보를 카탈로그 서버에 등록하고, 카탈로그 서버에 등록된 검색정보를 사용자가 검색하는 방식을 적용하고자 한다. 카탈로그 서버에 자료에 대한 정보를 등록할 때 자료의 정보를 어떻게 기술할 것인가의 문제가 발생한다. 개별 서버마다 등록하게 된다면 용어 및 문화에 의한 차이로 같은 개념을 다른 용어로 등록하게 되는 혼란이 발생할 소지가 있다. 예를 들어 강우자료에 대하여 "강우", "Precipitation", "Railfall", "비" 등으로 등록할 소지가 있다. 이러면 실제 자료가 존재하는 데도 등록 방법에 따라 자료의 검색이 어려워진다. 이러한 상황을 제어하기 위하여 검사어휘(Controlled Vocabulary)를 도입한다. 이는 포털의 운영자가 미리 용어의 개념과 용어의 분류체계를 설정하고 등록 자료의 검색어를 미리 설정하여 자료의 원천 소유자가 자료를 등록 시 검사어휘를 참고하여 등록하거나 또는 등록되지 않는 용어의 자료인 경우 이 용어를 포탈에 신규로 등록한다. 검색용어의 난립을 피하기 위하여 사용자의 신규등록은 포탈의 운영자가 어느 정도 제어할 필요가 있다. 검사어휘의 정립과 하천 관련된 분류체계는 하천공간정보 검색의 포탈을 위한 필수사항이다. 검사어휘의 정립의 주된 목적은 이질성의 극복이다. 이질성의 종류는 문법적 이질성, 데이터 형식과 구조 및 문맥적 이질성이 있다. 이 중에서 문맥적 이질성이 가장 넓고 어려운 문제이다. 단위는 분야마다 호칭이 다르고 채택하는 기준마다 다르다. 유사어는 전문용어라도 분야마다 다르다. 우리나라에서 서비스 인코딩시 국어와 영어를 어떻게 처리할 지에 대한 대책도 필요하다. 수문학의 시계열 자료를 다루는 CUAHSI/HIS의 온톨로지는 대 개념으로 물리학적, 화학적 및 생물학적인 분야로 분류하고 있다. 하천공간정보의 온톨로지 구축을 위해 데이터 분석 및 분류, 온톨로지 요소 설정, 온톨로지 데이터 테이블 작성, 클래스 생성 및 계층화, 클래스 계층화에 따른 속성 설정, 클래스에 적합한 개체 삽입, 논리 관계 확인 및 수정과 같은 과정으로 온톨로지 개발을 진행하고자 한다.

  • PDF

A Korean Conjunctive Structure Analysis based on Sentence Segmentation (구간분할 기반 한국어 대등접속 구문분석 기법)

  • Jang, Jae-Chul;Park, Eui-Kyu;Ra, Dong-Yul
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.139-146
    • /
    • 2002
  • 본 논문에서는 한국어의 대등접속의 구문분석 문제를 다룬다. 이를 전체 문장의 구문분석 기법에 기반하도록 하여, 문장 전체에 대한 분석 결과를 가장 좋게 하는 대등접속 구조가 선정되도록 하였다. 본 기법의 특징으로는 구간 분할 기법에 기반하여 대등접속 구조 후보의 수의 감소가 가능하게 되기 때문에 구문분석의 안정화를 얻게 되었다. 또한 전체 구문분석기에서 한 부품으로 동작함으로써 전체 문장 구조가 올바른 대등구조를 선택할 수 있게 되어, 보다 전역적인 정보의 이용에 의한 분석이 되었다. 선접속부와 후접속부 간의 구조 및 어휘적 유사성, 평행연결의 이용 등은 본 기법의 또 다른 특징으로 볼 수 있다. 실험결과 정상적인 문장의 대등접속에 대한 분석에서 매우 효과적으로 동작함을 관찰하였다.

  • PDF

Reranking Clusters based on Query Term Position and Context (질의의 위치와 문맥을 반영한 클러스터 기반 재순위화)

  • Jo, Seung-Hyeon;Jang, Gye-Hun;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.471-474
    • /
    • 2010
  • 질의와 질의 주변에 나오는 어휘는 의미적으로 연관되어있다는 가정하에 질의뿐만 아니라 질의 주변에 나오는 문맥 어휘들도 가중치를 높여준다면 검색에 효율을 높일 수 있을 것이다. 본 논문에서는 질의와 질의 주변에 나오는 문맥 어휘들에게 가중치를 주어 질의 어휘의 위치 가중치를 반영한 문서를 표현하고, 위치 가중치가 반영된 문서 벡터들 사이의 유사도를 계산하여 클러스터 기반 재순위화를 하여 성능을 향상시키는 방법을 제안한다. 뉴스 집합인 TREC AP 문서를 이용하여 언어모델, 위치 가중치를 이용한 언어모델, 클러스터 기반 재순위화 모델의 비교실험을 통해 유효성을 검증한다.

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

  • Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

Analysis of Emotional Characteristics on Life Environmental Noise I: Structural Analysis of Noise Adjectives (생활공간음의 감성 특성 분석 : 소음 형용사에 대한 차원분석)

  • 민윤기;손진훈
    • Science of Emotion and Sensibility
    • /
    • v.2 no.1
    • /
    • pp.69-75
    • /
    • 1999
  • 본 연구는 우리말 형용사를 이용하여 각종 생활공간음에 대해 느끼는 사람들이 감성적 반응의 차원을 밝히기 위한 기초 연구로 수행되었다. 형용사 사전에서 추출된 어휘들에 대한 적합성 및 유사성 평가를 통해 14개의 형용사가 최종적으로 선정되었고, 이 형용사들의 유사성 점수에 대해 요인분석, 다차원 척도 분석 및 군집분석을 시행하였다. 연구 결과 생활공간음에 대한 사람들의 감성적 반응은 크게 3가지 차원, 즉 쾌-불쾌, 민감-둔감 및 지각된 크기가 추출되었고, 소음에 대해 느끼는 감성은 이들 차원 상에서 측정될 수 있는 것으로 나타났다. 이들 차원들은 서로 직선적인 관계가 있는 것으로 보인다. 즉, 소음에 대해 민감한 사람은 그 소음에 대해 불쾌하거나 짜증을 일으키기 쉽지만 소음에 대해 불쾌하거나 짜즈을 일으킨 사람이 소음에 대해 민감한 사람이라고 볼 수는 없을 것이다. 따라서 이들 차원간에 구체적인 통로분석이 이루어져야 할 것으로 보이며 이는 후속연구에서 밝혀질 것이다. 또한 실제 소음을 제시하여 각각의 소음을 평가하는 경험적 연구도 수행될 것이다.

  • PDF

Alignment of Hypernym-Hyponym Noun Pairs between Korean and English, Based on the EuroWordNet Approach (유로워드넷 방식에 기반한 한국어와 영어의 명사 상하위어 정렬)

  • Kim, Dong-Sung
    • Language and Information
    • /
    • v.12 no.1
    • /
    • pp.27-65
    • /
    • 2008
  • This paper presents a set of methodologies for aligning hypernym-hyponym noun pairs between Korean and English, based on the EuroWordNet approach. Following the methods conducted in EuroWordNet, our approach makes extensive use of WordNet in four steps of the building process: 1) Monolingual dictionaries have been used to extract proper hypernym-hyponym noun pairs, 2) bilingual dictionary has converted the extracted pairs, 3) Word Net has been used as a backbone of alignment criteria, and 4) WordNet has been used to select the most similar pair among the candidates. The importance of this study lies not only on enriching semantic links between two languages, but also on integrating lexical resources based on a language specific and dependent structure. Our approaches are aimed at building an accurate and detailed lexical resource with proper measures rather than at fast development of generic one using NLP technique.

  • PDF

Textbooks Analysis to Select Vocabulary for Mathematics Education: Focusing on 1st and 2nd Graders in the Elementary School (교과서 분석 기반 수학교육용 어휘 선정 연구: 초등학교 1~2학년을 중심으로)

  • Kwon, Misun
    • Communications of Mathematical Education
    • /
    • v.37 no.4
    • /
    • pp.675-695
    • /
    • 2023
  • To learn mathematics effectively, understanding vocabulary is essential. Accordingly, as a way to present vocabulary for mathematics education, high-frequency vocabulary was extracted from the 2009 revised 1st and 2nd grade mathematics textbooks and the 2015 revised 1st and 2nd grade mathematics textbooks. At this time, mathematics textbooks were analyzed by grade and semester, and vocabulary with a common frequency of 5 or more was extracted. In order to use it effectively in school settings, common vocabulary for each grade and intensive vocabulary for each semester were presented. As a result of the study, 61 vocabulary words for first grade education and 121 vocabulary words for second grade education were selected. As a result of analysis by vocabulary level, various levels of vocabulary from grades 1 to 5 were used. As a result of analysis by vocabulary type, the proportion of academic words increased similarly, but the proportion of technical words was found to be highest in the first semester of the second year. Based on these results, the extracted vocabulary for mathematics education is used as a resource for vocabulary instruction for students' mathematics education in each grade to help students learn mathematics.

Entity Matching Method Using Semantic Similarity and Graph Convolutional Network Techniques (의미적 유사성과 그래프 컨볼루션 네트워크 기법을 활용한 엔티티 매칭 방법)

  • Duan, Hongzhou;Lee, Yongju
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.17 no.5
    • /
    • pp.801-808
    • /
    • 2022
  • Research on how to embed knowledge in large-scale Linked Data and apply neural network models for entity matching is relatively scarce. The most fundamental problem with this is that different labels lead to lexical heterogeneity. In this paper, we propose an extended GCN (Graph Convolutional Network) model that combines re-align structure to solve this lexical heterogeneity problem. The proposed model improved the performance by 53% and 40%, respectively, compared to the existing embedded-based MTransE and BootEA models, and improved the performance by 5.1% compared to the GCN-based RDGCN model.

An analysis on streetscape using the Model of Emotion Evaluation (가로경관에 대한 감성평가모형 적용 분석 연구)

  • Lee, Jin-Sook;Kim, Ji-Hye
    • Science of Emotion and Sensibility
    • /
    • v.16 no.2
    • /
    • pp.149-156
    • /
    • 2013
  • In this study, the Model of Emotion Evaluation, an emotional analysis actively applied in environmental assessment, was divided into two parts, the abbreviated model and the inferential model, through pilot study and experiment. In addition, an analysis was conducted through the experiment on the attributes of the evaluation vocabularies of two additional types of representative models, the EPA Model and PAD Model, and the results show a huge difference in the development approach and lexical constitution of the two models. It was also identified through factor analysis that the vocabularies were abbreviated according to the respective models. Similarity relationships were analyzed using multidimensional scaling and the results show that mutual relationship was established to some degree. Based on this, we can conclude that, rather than a biased use of the Model of Emotion Evaluation in emotion evaluation, a more objective image analysis is possible by analyzing the characteristics of the model before applying it. In this study, the evaluation target was confined only to the environmental assessment of streetscape and continuous research on the Model of Emotion Evaluation that allows for the comparison of evaluation models in various areas is needed.

  • PDF

Selective Speech Feature Extraction using Channel Similarity in CHMM Vocabulary Recognition (CHMM 어휘인식에서 채널 유사성을 이용한 선택적 음성 특징 추출)

  • Oh, Sang Yeon
    • Journal of Digital Convergence
    • /
    • v.11 no.10
    • /
    • pp.453-458
    • /
    • 2013
  • HMM Speech recognition systems have a few weaknesses, including failure to recognize speech due to the mixing of environment noise other voices. In this paper, we propose a speech feature extraction methode using CHMM for extracting selected target voice from mixture of voices and noises. we make use of channel similarity and correlate relation for the selective speech extraction composes. This proposed method was validated by showing that the average distortion of separation of the technique decreased by 0.430 dB. It was shown that the performance of the selective feature extraction is better than another system.