• 제목/요약/키워드: word-net

검색결과 258건 처리시간 0.025초

워드넷을 이용한 검색 질의어의 모호성 해결 (Resolving Ambiquity in search query by using the WordNet)

  • 김형일;김준태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.75-77
    • /
    • 2000
  • 방대한 웹에서의 자신이 원하는 정보를 정확히 얻어내기란 매우 어렵다. 현존하는 대부분의 검색엔진들은 내용기반 방식을 이용하므로, 검색 질의어의 모호성에 적절한 대응을 하지 못하고 있다. 다시 말하면 일반 사용자들이 사용하는 질의어들은 다의어로 표현되는 것이 빈번히 나타나지만, 사용자가 나타내고 싶어하는 질의어의 정확한 의미에 대하여서는 검색엔진 자체로써는 해결할 수 없다. 특히, 빈번히 사용되지 않는 어휘의 의미를 가지고 검색엔진에 질의를 할 경우, 질의어의 형태만 같고 일반적으로 널리 사용되고 있는 어휘의 의미와 관련 있는 웹 페이지들만을 사용자에게 보여주게 된다. 이러한 점을 보완하기 위하여 본 논문에서는 사용자의 명시적 반응을 받아들이는 사용자 인터페이스와 워드넷(WordNet)을 이용하여 질의어의 모호성 해결하였다.

  • PDF

어휘의미망을 이용한 중국어 비감독 어의 중의성 해소 (Chinese Unsupervised Word Sense Disambiguation using WordNet)

  • 롄광저;김민호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.365-368
    • /
    • 2012
  • 어의 중의성 해소는 자연어처리에서 중요한 역할을 한다. 감독 중의성 해소 방법은 비감독 중의성 해소 방법보다 높은 성능을 나타내지만, 구축비용이 큰 대규모 의미부착 말뭉치가 필요하다. 본 논문에서는 중국어 어휘의미망(HowNet)과 의미 미부착 말뭉치를 이용한 중국어 비감독 어의 중의성 해소 방법을 제안한다. 의미 미부착 말뭉치에서 통계정보를 추출하고, 중국어 어휘 의미망에서 중의성 어휘의 의미별 형제어를 추출하여 중의성 어휘의 주변 문맥에 나타나는 어휘와 카이제곱검정(${\chi}^2$-test)에 의한 독립성 검정을 통해 어휘 간 연관성을 판단하고 중의성 해소를 한다. 본 논문에서 제안한 중의성 해소방법의 성능을 SemEval-2007 평가데이터에서 측정한 결과 명사와 동사에서 각각 64.7%, 49.4%를 나타냈다. 이는 SemEval-2007 중국어 비감독 중의성 해소에서 가장 높은 성능을 나타낸 시스템보다 13.1%, 13.9% 높은 성능이다.

전문검색엔진을 위한 개념망의 개발 (Development of a Concept Network Useful for Specialized Search Engines)

  • 주정은;구상회
    • Journal of Information Technology Applications and Management
    • /
    • 제10권2호
    • /
    • pp.33-41
    • /
    • 2003
  • It is not easy to find desired information in the world wide web. In this research, we introduce a notion of concept network that is useful in finding information if it is used in search engines that are specialized in domains such as medicine, law or engineering. The concept network that we propose is a network in which nodes represent significant concepts in the domain, and links represent relationships between the concepts. We may use the concept network constructor as a preprocessor to speci-alized search engines. When user enters a target word to find information, our system generates and displays a concept network in which nodes are con-cepts that are closely related with the target word. By reviewing the network, user may confirm that the target word is properly selected for his intention, otherwise he may replace the target word with better ones discovered in the network. In this research, we propose a detailed method to construct concept net-work, implemented a prototypical system that constructs concept networks, and illustrate its usefulness by demonstrating a practical case.

  • PDF

Unknown Word Lexical Dictionary의 자동 생성 방법 (Automatic Construction Method of Unknown Word Lexical Dictionary)

  • 황명권;윤병수;정일용;김판구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.3-6
    • /
    • 2008
  • 본 연구는 의미적 정보 검색을 위한 연구 중의 하나로, 현재까지의 의미적 문서 검색에서 큰 걸림돌이었던 사전에 정의되지 않은 단어(Unknown Word)들의 어휘 사전(Lexical Dictionary)을 자동으로 생성하기 위한 것이다. 이를 위해 UW를 기존의 영어 어휘 사전인 워드넷(WordNet)에 정의되지 않은 단어로 간주하고, 웹 문서의 입력을 통하여 UW와 관련된 단어들을 추출하여 의미적 관련 정도를 확률적, 의미적 방법으로 측정한다. 본 논문에서는 UW Lexical Dictionary를 자동으로 구축하기 위한 방법에 대해서만 기술하였고, 정량적이고 객관적인 평가는 포함하지 않고 있다. 하지만 본 연구의 효용성을 확인하기 위한 몇 가지 문서로부터 추출된 결과는 본 연구가 상당히 의미적이며 가치가 높을 것으로 기대되고 있다.

워드넷 의미정보로 선별된 우선 태그와 이를 이용한 웹 이미지의 검색 (Web Image Retrieval using Prior Tags based on WordNet Semantic Information)

  • 권대현;홍준혁;조수선
    • 한국멀티미디어학회논문지
    • /
    • 제12권7호
    • /
    • pp.1032-1042
    • /
    • 2009
  • 본 연구는 태깅된 웹 이미지의 검색에서 태그들의 의미정보를 미리 추출하여 검색 시에 이용하고자 하는 것이다. 일반적으로 웹 이미지의 태그들은 사용자들에 의해 순서 구분 없이 무작위로 매겨지며 많게는 그 수가 100여개에 이른다. 본 논문에서는 이 태그들 간에 의미정보가 많이 공유된 것일수록 해당 이미지를 설명하는 중요 태그가 될 것임에 착안하여 이미지와 태그 정보가 업 로드되는 시점에 중요도에 따른 우선 태그를 결정하고 이를 검색에 활용하는 방법을 소개한다 제안된 방법은 워드넷에 기반하여 태그의 연관성점수를 계산하고 이를 이용하여 다단계 검색으로 태징된 웹 이미지를 검색한다. 평가를 위하여 제안된 방법으로 검색된 결과와 검색어와 태그의 단순 비교방식인 기존의 검색을 비교하였으며 실험 결과, 정확도와 재현율에서 본 시스템의 우수함을 확인할 수 있었다.

  • PDF

이산 푸리에 변환을 적용한 텍스트 패턴 분석에 관한 연구 - 표절 문장 탐색 중심으로 - (A Study on Text Pattern Analysis Applying Discrete Fourier Transform - Focusing on Sentence Plagiarism Detection -)

  • 이정송;박순철
    • 한국산업정보학회논문지
    • /
    • 제22권2호
    • /
    • pp.43-52
    • /
    • 2017
  • 패턴 분석은 신호 및 영상 처리와 텍스트 마이닝 분야에서 가장 중요한 기술 중 하나이다. 이산 푸리에 변환(Discrete Fourier Transform: DFT)은 일반적으로 신호와 영상의 패턴을 분석하는데 사용된다. 본 논문에서는 DFT가 텍스트 패턴 분석에도 적용될 수 있음을 가정하고 문서의 텍스트 패턴이 다른 문서에서도 존재하는지를 탐색하는 표절 문장 탐색에 세계 최초로 적용하였다. 이를 위해 텍스트를 ASCII 코드로 변환하여 신호화하고 복사/붙여넣기, 용어의 재배치 등 단순한 표절 형태의 탐색은 Cross-Correlation(상호상관)을 이용하였다. 또한 유의어를 사용하거나 번역 및 요약 등의 표절 형태를 탐색하기 위해 워드넷(WordNet) 유사도를 사용하였다. 실험을 위해 표절 탐색 분야의 저명한 워크숍인 PAN에서 제공하는 공식적인 데이터 셋(2013 Corpus)을 사용하였으며, 실험 결과 11개의 표절 문장 탐색 기법 중 4번째로 우수한 성능을 보였다.

스피치 요약을 위한 태그의미분석과 잠재의미분석간의 비교 연구 (Comparing the Use of Semantic Relations between Tags Versus Latent Semantic Analysis for Speech Summarization)

  • 김현희
    • 한국문헌정보학회지
    • /
    • 제47권3호
    • /
    • pp.343-361
    • /
    • 2013
  • 본 연구는 스피치 요약을 위해서 태그를 확장하고 또한 태그 간의 의미적 관계 정보를 이용할 수 있는 태그의미분석 방법을 제안하고 평가하였다. 이를 위해서, 먼저 비디오 태그를 확장하고 태그 간의 의미적 관계를 분석하는데 있어서 플리커의 태그 클러스터와 워드넷의 동의어 정보가 얼마나 효과적으로 이용될 수 있는가 조사해 보았다. 그런 다음 태그의미분석 방법의 특성과 효율성을 조사해 보기 위해서 제안한 방법을 잠재의미분석(Latent Semantic Analysis) 방법과 비교해 보았다. 분석 결과, 플리커의 태그 클러스터는 효과적으로 이용되었지만 워드넷은 효과적으로 이용되지 못한 것으로 나타났다. F측정을 사용하여 두 방법의 효율성을 비교한 결과, 제안한 방법의 F값(0.27)이 잠재의미분석 방법의 F값(0.22)보다 높게 나타났다.

혼합 커널을 활용한 과학기술분야 용어간 관계 추출 (Extraction of Relationships between Scientific Terms based on Composite Kernels)

  • 최성필;최윤수;정창후;맹성현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권12호
    • /
    • pp.988-992
    • /
    • 2009
  • 본 논문에서는 합성곱 구문 트리 커널(convolution parse tree kernel)과, 한 문장에서 나타나는 두 개체 간의 관계를 가장 잘 설명하는 동사 상당어구에 대한 개념화를 통해 생성되는 워드넷 신셋 벡터(WordNet synsets vector) 커널을 활용하여 과학기술분야 전문용어 간의 관계 추출을 시도하였다. 본 논문에서 적용한 모델의 성능 평가를 위해서 세 가지 검증 컬렉션을 활용하였으며, 각각의 컬렉션 마다 기존의 접근 방법론 보다 우수한 성능을 보여주었다. 특히 KREC 2008 컬렉션을 대상으로 한 성능 실험에서는, 기존의 합성곱 구문 트리 커널과 동사 신셋 벡터(verb synsets vector)를 함께 적용한 합성 커널이 비교적 높은 성능 향상(8% F1)을 나타내고 있다. 이는 성능을 높이기 위해서 관계 추출에서 많이 활용하였던 개체 자질 정보와 더불어 개체 주변에 존재하는 주변 문맥 정보(동사 및 동사 상당어구)도 매우 유용한 정보임을 입증하고 있다.

태그 기반 토픽맵 생성 시스템의 설계 및 구현 (Design and Implementation of Topic Map Generation System based Tag)

  • 이시화;이만형;황대훈
    • 한국멀티미디어학회논문지
    • /
    • 제13권5호
    • /
    • pp.730-739
    • /
    • 2010
  • 웹2.0환경에서의 핵심적인 기술은 태깅이며, 현재 블로그와 같은 웹 문서에서부터 이미지, 동영상 등과 같은 멀티미디어 데이터에 이르기까지 폭넓게 적용되고 있다. 그러나 태깅에 사용된 태그가 정보 검색에 재사용되어 검색의 효율성을 극대화 시킬 것이라는 기대와는 달리 실제로는 태그가 가지는 근본적인 한계들로 인해 만족스럽지 못한 검색결과가 나타나고 있다. 이에 본 연구에서는 태그 클러스터링을 통한 이미지 검색에 대한 선행연구를 기반으로 의미론적 지식체계인 토픽맵 생성 시스템을 설계 및 구현하였다. 구현 결과 클러스터 내의 태그 정보들은 토픽맵에서의 토픽으로 자동 생성되었으며, 생성된 토픽맵의 토픽들 간에는 WordNet을 적용하여 의미연관관계를 부여하였다. 또한 토픽 쌍에 적합한 어커런스 정보들을 추출하여 토픽들에 부여함으로서 의미론적 지식체계인 토픽맵을 생성하였다. 이와 같이 생성된 토픽맵은 사용자의 정보검색 요구에 대한 시맨틱 내비게이션의 제공을 가능하게 할 뿐만 아니라 풍부한 정보제공이 가능하다.

인스타그램 이미지와 텍스트 분석을 통한 사용자 감정 분류 (A User Sentiment Classification Using Instagram image and text Analysis)

  • 홍택은;김정인;신주현
    • 스마트미디어저널
    • /
    • 제5권1호
    • /
    • pp.61-68
    • /
    • 2016
  • 최근 스마트폰과 태블릿 PC 등의 스마트 기기들의 발전으로 인해 SNS(Social Network Service) 사용자가 증가함에 따라 SNS 정보를 이용한 사용자 감정 분류 방법에 대한 기법들이 활발하게 연구되고 있다. 사용자 감정 분류는 SNS 게시글의 텍스트, 이미지 등을 이용하여 감정을 분류하는 것을 말한다. 본 논문에서는 텍스트에서 대표 형용사를 추출하고 이미지에서 Canny 알고리즘과 삼각함수를 이용해 대표 도형에 대한 값을 추출하여 사용자의 감정을 분류하는 방법을 제안한다. 텍스트에서 추출한 대표 형용사는 텍스트에서 추출한 형용사 중에 빈도수가 가장 높은 형용사로 선정하였으며, 영어 감정어휘 사전인 SentiWordNet을 이용하여 긍정-부정의 수치를 측정했다. 이미지에서 추출되는 도형에서 삼각형, 사각형, 원중에 추출되는 도형을 대표 도형으로 선정했으며, 대표 도형의 종류와 기울기에 따라 쾌-불쾌 수치를 측정하여 사용자의 감정을 분류했다. 최종적으로 Plutchik의 감정 바퀴를 긍정-부정과 쾌-불쾌의 수치를 나타내는 x축과 y축을 갖는 좌표평면으로 재정의하고 대표 형용사와 대표 도형의 값을 재정의한 Plutchik의 감정 바퀴의 좌표 평면에 나타내어 사용자의 감정 분류를 수행한다.