• Title/Summary/Keyword: 단어 검색

Search Result 558, Processing Time 0.026 seconds

Efficient Retrieval of Spatial Words in Social Database (소셜 데이터베이스에서 공간 단어의 효율적인 검색)

  • Yang, Pyoung Woo;Joe, Hyun Gu;Nam, Kwang Woo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2014.04a
    • /
    • pp.719-720
    • /
    • 2014
  • 공간 웹 객체는 문서상에 지리정보를 포함하는 문서를 말한다. Twitter 나 FaceBook 같은 경우 문서가 생성된 위치를 문서 안에 포함하고 있다. 최근에는 공간 웹 객체와 같은 공간정보와 문자를 요구하는 검색이 많이 요구되고 있다. 본 논문에서는 공간 웹 객체를 검색하기 위한 효율적인 검색 기법을 제안한다. 이를 위하여 문서를 단어별로 나누고 각 단어와 문서의 위치정보를 포함하는 공간 객체를 만들어 공간객체를 검색하기 위한 QP-tree 를 제안한다.

File Content Retrieval Program Using HashMap-based Trie (HashMap 기반의 트라이를 이용한 파일 내용 검색 프로그램)

  • Kim, Sung Wan;Lee, Woosoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2014.01a
    • /
    • pp.467-468
    • /
    • 2014
  • 본 논문에서는 파일 내용 기반 검색 프로그램을 설계하고 구현하였다. 역 인덱스 구조를 이용하여 설계하였으며 별도의 정보 검색 라이브러리 사용 없이 구현하였다. 인덱스 파일은 트라이 자료 구조를 직접 설계 및 구현 하였으며 자바 언어의 HashMap 구조를 중첩 형태로 구현하였다. 개발 시스템의 유용성을 테스트하기 위해 GRE 단어집에 수록된 약 3,300개의 단어를 사용하여 임의 생성한 텍스트 파일 집합을 사용하였다.

  • PDF

Development of tabooed words search system for Korea wave contents based on pronunciation (한류 콘텐츠를 위한 발음 기반 금기어 검색 시스템 개발)

  • Lee, JongSeol;Shin, Saim;Kim, Dahee;Jang, Dalwon;Jang, Sei-jin;LIm, Tae-Beom
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2014.06a
    • /
    • pp.114-115
    • /
    • 2014
  • 최근 한류(韓流) 콘텐츠의 글로벌화로 인해 콘텐츠가 전 세계로 수출됨에 따라 글로벌 환경에 적합한 콘텐츠에서의 단어 선택이 매우 중요하게 되었다. 멀티미디어 콘텐츠에서의 글로벌 단어 선택을 위해서는 각 나라의 비속어나 욕설 단어를 회피하고 오해하지 않을 말과 단어를 선택하는 것이 매우 중요하다. 이에 본 논문에서는 글로벌 콘텐츠를 위한 금기 언어 검색 시스템을 개발한다. 이를 위하여 한국어를 영어로 변환하기 위한 음소 변환 모델을 개발하고, 변환된 음소와 금기 언어 검색 데이터베이스를 개발하였다.

  • PDF

Word Sense Disambiguation using the Information Content and the Conceptual Density (정보량과 개념적 밀도를 이용한 단어 의미 중의성 해결)

  • Cho, Mi-Young;Kim, Pan-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.445-448
    • /
    • 2005
  • 기존의 정보 검색은 단순 키워드 매칭에 의한 패턴 매칭으로 의미적 정보 검색에는 한계가 있다. 이를 해결하기 위한 많은 연구가 이루어졌으나 질의 혹은 문서에 중의적 의미를 가진 단어를 포함하고 있는 경우에 검색시 문제가 되었다. 이에 본 논문에서는 WordNet기반의 단어 빈도수를 고려한 정보량과 단어 영역내 존재하는 노드 수를 고려한 개념적 밀도를 이용한 WSD(Word Sense Disambiguation)를 제안한다. SemCor를 이용하여 테스트한 결과 두 요소를 결합한 방법에 의해 WSD가 약 20% 향상되었다.

  • PDF

Binary Visual Word Generation Techniques for A Fast Image Search (고속 이미지 검색을 위한 2진 시각 단어 생성 기법)

  • Lee, Suwon
    • Journal of KIISE
    • /
    • v.44 no.12
    • /
    • pp.1313-1318
    • /
    • 2017
  • Aggregating local features in a single vector is a fundamental problem in an image search. In this process, the image search process can be speeded up if binary features which are extracted almost two order of magnitude faster than gradient-based features are utilized. However, in order to utilize the binary features in an image search, it is necessary to study the techniques for clustering binary features to generate binary visual words. This investigation is necessary because traditional clustering techniques for gradient-based features are not compatible with binary features. To this end, this paper studies the techniques for clustering binary features for the purpose of generating binary visual words. Through experiments, we analyze the trade-off between the accuracy and computational efficiency of an image search using binary features, and we then compare the proposed techniques. This research is expected to be applied to mobile applications, real-time applications, and web scale applications that require a fast image search.

Search Ranking System Using Modification Relation and Improved Search Engine Interface to Enhance Search Experience (수식 관계를 이용한 검색 결과 랭킹 시스템과 향상된 검색 엔진 인터페이스를 통한 검색 과정의 효율성 향상)

  • Moon, Ukseong;Choi, Joo-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.250-253
    • /
    • 2007
  • 본 논문에서는 현재 검색 엔진의 랭킹 방식의 문제점과 인터페이스의 문제점을 해결하기 위하여 노력하였다. 기존의 페이지간 링크와 같은 부가적 정보를 이용한 인기도 기반 랭킹의 문제점을 단어간의 수식 관계를 이용한 의미 기반 랭킹 알고리즘의 제시를 통해 해결하였다. 또한 검색어와 연관된 단어를 수식 관계를 이용하 계산, 시각화하여 제공함으로써 사용자가 잘못된 검색어로 검색을 시작하였더라도 항상 올바른 검색 결과를 얻을 수 있도록 도왔으며 각 검색 결과와 함께 원문을 요약해 제공함으로써 검색 결과를 일일이 클릭해 보지 않고도 내용을 쉽게 유추할 수 있도록 도왔다.

  • PDF

Term Weighting Using Date Information and Its Appliance in Automatic Text Classification (날짜 정보를 이용한 가중치 계산 방법을 적용한 자동 문서분류)

  • Shim, Bojun;Park, Jinwoo;Seo, Jungyun
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.169-173
    • /
    • 2007
  • 문장을 구성하는 단어들은 문장의 의미를 표출하는 데에 있어서 모두 같은 크기의 중요도를 갖지는 않는다. 따라서, 정보검색 분야에서는 오랫동안 단어에 부여할 서로 다른 가중치를 구하는 다양한 전략을 연구해 왔다. 매우 일반적인 기능어들은 불용어로 분류하여 고려 대상에서 제외하기도 하고, 개체명 추출기를 이용하여 고유명사에 높은 가중치를 부여하거나, TF-IDF와 같이 단어가 문서 집합에 출현하는 양상과 빈도를 고려하여 가중치를 구하는 전략을 사용하기도 한다. 이와 같은 연구들에서는 같은 단어라면 어떤 상황에서도 변하지 않는 가중치를 가지게 된다. 본 논문에서는 같은 단어라 할지라도 날짜에 따라서, 어떤 날짜에는 중요한 단어이므로 높은 가중치를 받지만, 다른 날짜에는 낮은 가중치를 부여하는 전략을 제안하고 있다. 이 방법은 모든 정보검색 작업에서 사용할 수 있는 범용적인 전략이다. 본 연구에서는 특히, 문서분류 작업에 제안 방법을 적용했을 때, 제안 방법을 적용하지 않은 기본 시스템보다 분류 정확성이 더 향상되는 것을 실험을 통해서 확인하였다.

  • PDF

Korean Language Clustering using Word2Vec (Word2Vec를 이용한 한국어 단어 군집화 기법)

  • Heu, Jee-Uk
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.18 no.5
    • /
    • pp.25-30
    • /
    • 2018
  • Recently with the development of Internet technology, a lot of research area such as retrieval and extracting data have getting important for providing the information efficiently and quickly. Especially, the technique of analyzing and finding the semantic similar words for given korean word such as compound words or generated newly is necessary because it is not easy to catch the meaning or semantic about them. To handle of this problem, word clustering is one of the technique which is grouping the similar words of given word. In this paper, we proposed the korean language clustering technique that clusters the similar words by embedding the words using Word2Vec from the given documents.

Image-based Retrieval of Printed Korean Words using Wavelets (웨이브렛을 이용한 영상기반 인쇄 한글 단어 검색)

  • Kim, Hye-Geum;Yang, Jin-Ho;Lee, Jin-Seok;O, Il-Seok
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.2
    • /
    • pp.91-103
    • /
    • 2001
  • 내용-기반 문서 검색의 필요성이 급속히 증가하고 있다. 기존의 OCR-기반 텍스트 변환 방법은 명백한 한계를 갖고 있기 때문에 영상-기반 매칭 방법이 대안으로서 인기를 얻고 있다. 새로운 매칭방법은 빠른 속도와 좋은 검색 성능의 두 가지 요구사항을 충족해야 한다. 이 논문은 웨이브렛의 좋은 특성을 기반으로 개발된 한글 단어에 대한 영상-기반 매칭 알고리즘을 제안한다. 실험은 고품질과 저품질 단어 영상을 가지고 수행하였으며, 실험 결과 제안한 알고리즘이 검색 성능과 속도 면에서 우수함을 확인하였다.

  • PDF

Efficient Method for Image Representation Using Topic Modeling (토픽 모델링을 이용한 이미지의 효율적인 표현방법)

  • Lee, Ba-Do;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06c
    • /
    • pp.319-322
    • /
    • 2011
  • 시각 피처를 사용한 이미지 표현은 이미지 검색 분야에서 이미 광범위하게 사용되고 있다. 특히 이미지 자체에 태깅이 되어있지 않거나 다른 추가 정보가 없는 경우에는 이미지 콘텐츠자체의 정보만으로 검색하기 위해서는 이러한 전처리가 필수적이다. 이미지로 부터 얻어진 시각적 피처들이 시각 단어로 사용되기 위해서는 k-means 와 같은 군집 알고리즘을 통한 시각적 피처의 양자화를 위한 전처리가 필요한데, 시각 단어의 개수 k를 정하는데 모호함이 있다. 본 논문에서는 임의의 k를 사용하더라도, 대표적 토픽 모델링 기법인 LDA (Latent Dirichlet Allocation)를 사용하여 데이터의 차원을 줄이게 되면 여러개의 시각적 단어들의 조합을 각각의 토픽이 나타낼 수 있게 됨을 이미지 검색 성능으로써 확인해 보고, 이러한 방법을 사용하면 표현형의 사이즈를 줄일 수 있고, 검색에 있어서도 이미지의 유사성을 더욱 효과적으로 표현할 수 있음을 확인해 본다.