• Title/Summary/Keyword: 동의어 사전

Search Result 31, Processing Time 0.03 seconds

A Synonym Dictionary Construction for Information Retrieval (정보 검색을 위한 동의어/유의어 사전 구축)

  • Lee, Tae-Woo;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.208-213
    • /
    • 2003
  • 본 논문에서는 많은 정보로부터 의미 있는 정보를 추출하기 위해 사용되는 정보 검색 시스템에서 이용이 가능한 동의어/유의어 사전을 구축하고 구축된 정보의 평가를 수행하였다. 사용한 자원으로는 미리 구축된 한-영 사전과 영-한사전을 이용하였다. 이들의 사용으로 다른 동의어사전과 달리 보다 많은 유의어 정보를 포함하는 이익을 얻었다. 본 논문의 시스템은 사전을 구축하기 위해 기본 자원을 이용하여 동의어/유의어 후보 목록들을 획득하고, 획득된 정보를 바탕으로 후보 목록의 빈도수와 사전의 위치 정보, 마지막으로 입력 명사 정보를 이용하여 동의어/유의어를 확정한다. 작성된 동의어/유의어사전은 한-영사전에 수록된 한국어 명사 64,630개를 대상으로 하였다. 작성된 사전을 문서 필터링 시스템에 추가하여 적용 전보다 성능이 향상됨을 확인하였다. 또한 질의 색인어 확장에 이용하여 보다 정답을 추출하는데 추가적으로 확장된 유의어 정보가 정답을 추출하는데 유용하게 사용됨을 확인하였다.

  • PDF

Development of Automatic Sign Language Translation System using Korean WordNet (한국어 어휘의미망을 이용한 자동 수화 번역 시스템의 개발)

  • Kim, Minho;Choi, Sung-Ki;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1358-1361
    • /
    • 2013
  • 한국어와 한국 수화 간 자동 번역을 위해서는 한국어-한국 수화 대역어 사전이 필요하지만, 현재 한국 수화 사전으로 가장 공신력 있는 한국 수화 사전은 등재 어휘 수가 약 12,000개에 불과하다. 이 때문에 한국어를 한국 수화로 자동 번역을 할 때 대치어가 없어 완벽하게 번역이 되지 않는다. 본 연구에서는 한국 수화 사전의 미등재어로 말미암은 번역률 저하를 최소화하고자 한국어 어휘의미망의 동의어와 상 하위어 정보를 이용한다. 또한, 자동 번역에서 빈번하게 발생하는 어의 중의성 문제도 한국어 어휘의미망의 정보를 이용하여 어의 중의성 해소 규칙을 일반화한다.

Natural Language Toolkit _ Korean (NLTKo 1.0: 한국어 언어처리 도구)

  • Hong, Seong-Tae;Cha, Jeong-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.554-557
    • /
    • 2021
  • NLTKo는 한국어 분석 도구들을 NLTK에 결합하여 사용할 수 있게 만든 도구이다. NLTKo는 전처리 도구, 토크나이저, 형태소 분석기, 세종 의미사전, 분류 및 기계번역 성능 평가 도구를 추가로 제공한다. 이들은 기존의 NLTK 함수와 동일한 방법으로 사용할 수 있도록 구현하였다. 또한 세종 의미사전을 제공하여 한국어 동의어/반의어, 상/하위어 등을 제공한다. NLTKo는 한국어 자연어처리를 위한 교육에 도움이 될 것으로 믿는다.

  • PDF

Design and Implementation of Keyword Extractor based on Synonyms and Related Terms (동의어와 유의어 개념에 기반 한 키워드 추출기의 설계 및 구현)

  • Park, Eun-Suk;Park, Hyun-Jin;Lee, Samuel Sang-Kon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.163-166
    • /
    • 2007
  • 인간은 문서를 읽고 그 내용을 머릿속에서 개념적으로 정리하여 몇 개의 명사를 이용하여 키워드로 인지한다. 본 논문은 이러한 점에 착안하여 문서를 대표하는 키워드를 추출하는 시스템을 설계하고 구현하였다. 본 논문에서는 단어의 개별적인 개념 정보를 동의어와 유의어 사전을 통해 주요 개념어를 추출하고, 추출된 개념어들 사이의 공기 관계를 계산하여 키워드로써의 중요도를 계산하고자 한다. 이를 통해 문서를 대표할 수 있는 키워드 후보를 생성하는 생성 규칙을 자동화하고 문서를 잘 대표할 수 있는 키워드 추출기를 제안하였다.

  • PDF

Color-related Query Processing for Intelligent E-Commerce Search (지능형 검색엔진을 위한 색상 질의 처리 방안)

  • Hong, Jung A;Koo, Kyo Jung;Cha, Ji Won;Seo, Ah Jeong;Yeo, Un Yeong;Kim, Jong Woo
    • Journal of Intelligence and Information Systems
    • /
    • v.25 no.1
    • /
    • pp.109-125
    • /
    • 2019
  • As interest on intelligent search engines increases, various studies have been conducted to extract and utilize the features related to products intelligencely. In particular, when users search for goods in e-commerce search engines, the 'color' of a product is an important feature that describes the product. Therefore, it is necessary to deal with the synonyms of color terms in order to produce accurate results to user's color-related queries. Previous studies have suggested dictionary-based approach to process synonyms for color features. However, the dictionary-based approach has a limitation that it cannot handle unregistered color-related terms in user queries. In order to overcome the limitation of the conventional methods, this research proposes a model which extracts RGB values from an internet search engine in real time, and outputs similar color names based on designated color information. At first, a color term dictionary was constructed which includes color names and R, G, B values of each color from Korean color standard digital palette program and the Wikipedia color list for the basic color search. The dictionary has been made more robust by adding 138 color names converted from English color names to foreign words in Korean, and with corresponding RGB values. Therefore, the fininal color dictionary includes a total of 671 color names and corresponding RGB values. The method proposed in this research starts by searching for a specific color which a user searched for. Then, the presence of the searched color in the built-in color dictionary is checked. If there exists the color in the dictionary, the RGB values of the color in the dictioanry are used as reference values of the retrieved color. If the searched color does not exist in the dictionary, the top-5 Google image search results of the searched color are crawled and average RGB values are extracted in certain middle area of each image. To extract the RGB values in images, a variety of different ways was attempted since there are limits to simply obtain the average of the RGB values of the center area of images. As a result, clustering RGB values in image's certain area and making average value of the cluster with the highest density as the reference values showed the best performance. Based on the reference RGB values of the searched color, the RGB values of all the colors in the color dictionary constructed aforetime are compared. Then a color list is created with colors within the range of ${\pm}50$ for each R value, G value, and B value. Finally, using the Euclidean distance between the above results and the reference RGB values of the searched color, the color with the highest similarity from up to five colors becomes the final outcome. In order to evaluate the usefulness of the proposed method, we performed an experiment. In the experiment, 300 color names and corresponding color RGB values by the questionnaires were obtained. They are used to compare the RGB values obtained from four different methods including the proposed method. The average euclidean distance of CIE-Lab using our method was about 13.85, which showed a relatively low distance compared to 3088 for the case using synonym dictionary only and 30.38 for the case using the dictionary with Korean synonym website WordNet. The case which didn't use clustering method of the proposed method showed 13.88 of average euclidean distance, which implies the DBSCAN clustering of the proposed method can reduce the Euclidean distance. This research suggests a new color synonym processing method based on RGB values that combines the dictionary method with the real time synonym processing method for new color names. This method enables to get rid of the limit of the dictionary-based approach which is a conventional synonym processing method. This research can contribute to improve the intelligence of e-commerce search systems especially on the color searching feature.

A Study on File Search Engine Based on DBMS (DBMS을 활용한 파일 검색엔진 연구)

  • Kim, HyoungSeuk;Yu, Heonchang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.548-551
    • /
    • 2016
  • 기존 그리드 기반의 전통적인 RDBMS는 비구조적 데이터에 대한 색인이 지원되지 않았다. 이러한 제약 조건들로 인해 파일 문서 및 비 구조화된 데이터의 검색 엔진으로는 부적합하였다. 최근에 다양한 검색 오픈소스(Solr, Lucene)등으로 검색 엔진이 개발되어 활용되고 있지만, 검색한 결과와 기존 데이터의 연동이 쉽지 않고 구조 변경이 어려우며, 사용자의 다양한 요구 사항 수용이 쉽지 않은 단점을 가지고 있다. 따라서 본 연구에서는 빠른 검색을 위한 색인 (index) 최적화와 대용량 데이터 처리를 위한 파티션 기반 데이터의 분할 및 정복 (divide and conquer) 처리, 이중화된 검색어 색인 기능을 구현하였다. 또한 동의어 사전을 구축하여 연관 관계 분석이 가능하도록 DB를 구축하여 검색어와 동의어의 상호 관계성을 유지하였으며 오픈 소스보다 발전한 형태의 검색 엔진을 개발하는 것을 목표로 하였다. 본 연구를 위해 약 400만건 이상의 다양한 포맷 (Ms-office, Hwp, Pdf, Text)등의 파일 문서를 샘플로 실험을 진행하였다.

Dynamic Expansion of Semantic Dictionary for Topic Extraction in Automatic Summarization (자동요약의 주제어 추출을 위한 의미사전의 동적 확장)

  • Choo, Kyo-Nam;Woo, Yo-Seob
    • Journal of IKEEE
    • /
    • v.13 no.2
    • /
    • pp.241-247
    • /
    • 2009
  • This paper suggests the expansion methods of semantic dictionary, taking Korean semantic features account. These methods will be used to extract a practical topic word in the automatic summarization. The first is the method which is constructed the synonym dictionary for improving the performance of semantic-marker analysis. The second is the method which is extracted the probabilistic information from the subcategorization dictionary for resolving the syntactic and semantic ambiguity. The third is the method which is predicted the subcategorization patterns of the unregistered predicate, for the resolution of an affix-derived predicate.

  • PDF

A Parser of Definitions in Korean Dictionary based on Probabilistic Grammar Rules (확률적 문법규칙에 기반한 국어사전의 뜻풀이말 구문분석기)

  • Lee, Su-Gwang;Ok, Cheol-Yeong
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.5
    • /
    • pp.48-460
    • /
    • 2001
  • 국어사전의 뜻풀이말은 표제어의 의미를 기술할 뿐만 아니라, 상위/하위개념, 부분-전체개념, 다의어, 동형이의어, 동의어, 반의어, 의미속성 등의 많은 의미정보를 내재하고 있다. 본 연구는 뜻풀이말에서 다양한 의미정보를 획득을 위한 기본적인 도구로서 국어사전의 뜻풀이말 구문분석기를 구현하는 것을 목적으로 한다. 이를 위해서 우선 국어사전의 뜻풀이말을 대상으로 일정한 수준의 품사 및 구문 부착 말 뭉치를 구축하고, 이 말뭉치들로부터 품사 태그 중의성 어절의 빈도 정보와 통계적 방법에 기반한 문법규칙과 확률정보를 자동으로 추출한다. 본 연구의 뜻풀이말 구문분석기는 이를 이용한 확률적 차트파서이다. 품사 태그 중의성 어절의 빈도 정보와 문법규칙 및 확률정보는 파싱 과정의 명사구 중의성을 해소한다. 또한, 파싱 과정에서 생성되는 노드의 수를 줄이고 수행 속도를 높이기 위한 방법으로 문법 Factoring, Best-First 탐색 그리고 Viterbi 탐색의 방법을 이용한다. 문법규칙의 확률과 왼쪽 우선 파싱 그리고 왼쪽 우선 탐색 방법을 사용하여 실험한 결과, 왼쪽 우선 탐색 방식과 문법확률을 혼용하는 방식이 가장 정확한 결과를 보였으며 비학습 문장에 대해 51.74%의 재현률과 87.47%의 정확률을 보였다.

  • PDF

Query Expansion Using Thesaurus for Korean to Chinese Cross- Language Text Retrieval (한.중 교차언어 검색에서 시소러스를 이용한 질의 확장)

  • Jin, Feng;Kang, In-Su;Lee, Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.538-540
    • /
    • 2003
  • 본 논문은 한.중 교차언어 검색을 위한 효과적인 질의 확장에 대해 기술하고 있다. 한.중 교차언어 검색은 한국어 질의로 중국어 문서를 검색하는 것이고 본 논문에서는 대역어 사전을 이용하여 한국어 질의를 중국어 질의로 변환하는 방식을 사용한다. 질의 확장을 위한 방법으로 중국어 시소러스인“동의사사림”을 사용하였다. 그리고 동의어들과 주변 단어간의 상호 정보를 비교함으로서 재현률과 정확률을 높였다. 실험을 통하여 검증한 결과 사전만 사용하여 변환하는 방법에 비하여 검색 성능이 향상되었다.

  • PDF

An Efficient Schema Matching Algorithm for An Automated Transformation of XML Documents (XML 문서의 자동변환을 위한 효율적인 스키마 매칭 알고리즘)

  • 이준승;이경호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.13-15
    • /
    • 2003
  • 본 논문에서는 XML 문서의 자동변환을 위해 2단계의 상향식 매칭 방법을 제안한다. 제안된 방법은 단말 노드 사이의 유사도 비교를 통해 임계값을 넘는 후보 매칭집합을 결정하고, 단말노드가 포함되어 있는 경로의 유사도 비교를 통해 적절한 일대일 매칭을 추출한다. 특히, 노드 사이의 유사도 비교를 위해 축약어 사전, 일반 동의어 사전, 도메인 온톨로지를 적용한다. 실제 전자상거래용 XML 스키마를 대상으로 실험한 결과 제안된 방법은 평균적으로 97%의 정확률을 보였다.

  • PDF