• 제목/요약/키워드: 검색어 추출

검색결과 328건 처리시간 0.033초

한국어 어휘의미망에 기반을 둔 어의 중의성 해소 시스템의 구현 (Implementation of Word Sense Disambiguation System based on Korean WordNet)

  • 김민호;황명진;신종훈;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.96-102
    • /
    • 2008
  • 자연언어처리에서 어휘의 의미를 구분하는 것은 기계번역이나 정보검색과 같은 여러 응용 분야에서 매우 중요한 역할을 한다. 국내에서도 여러 어의 중의성 해소 시스템이 소개되었으나 대부분 시스템이 의미 부착 말뭉치를 이용한 감독 학습 방식을 기반으로 두고 있다. 본 논문은 한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 시스템을 소개한다. 일반적으로 감독어의 중의성 해소 시스템은 비감독 어의 중의성 해소 시스템보다 성능은 좋으나 대규모의 의미 부착 말뭉치가 있어야 한다. 그러나 본 시스템은 한국어 어휘의미망과 의미 미부착 말뭉치에서 추출한 어휘 통계정보를 이용해, 의미 부착 말뭉치에서 추출한 의미별 통계 정보를 이용하는 감독 중의성 해소 방법과 같은 효과를 낸다. 본 시스템과 타 시스템의 성능 비교를 위해 'SENSEVAL-2' 평가 대회의 한국어 평가 데이터를 이용하였다. 실험 결과는 추출된 통계 정보를 바탕으로 우도비를 이용하였을 때 정확도 72.09%, 관계어 가중치를 추가로 이용하였을 때 정확도 77.02%로 감독 중의성 해소 시스템보다 높은 성능을 보였다.

  • PDF

분야연상어를 이용한 화제의 계속성과 전환성을 추적하는 단락분할 방법 (Passage Retrieval based on Tracing Topic Continuity and Transition by Using Field-Associated Term)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 복수의 화제가 혼합되어 있는 문서에서 각 화제의 경계부분을 구분하여 결정하는 기술을 단락분할이라 한다. 이 기술은 정보검색의 분야에만 한정되지 않고 다양한 분야에서 중요한 역할을 담당할 기술이다. 잘 정의된 분야체계에 따라 구축된 분야연상어를 이용하여 단락분할을 시도한다. 분야연상어란 특정한 분야를 정확하게 연상할 수 있는 단어로서 잘 분류된 문서 컬렉션에서 구축할 수 있다. 이 분야연상어를 이용하여 문서를 관련된 분야별로 추출하여 의미기반 단락추출 방법을 제안한다. 화제의 계속성에 주목하여 분야연상어의 수준(범위)이나 연속출현성에 의해 계산된 계속도에 의해 화제의 실마리를 추적하고, 화제의 전환성을 고려한 방법을 제안한다. 문서 내 각 화제의 단락구분을 명확히 하여, 단락을 화제분야별로 추출하는 방법을 제안한다. 일본어 50문서를 실험한 결과 82%의 정확율과 63%의 재현율을 얻어 실용성을 기대할 수 있었고, 한국어에 적용하여도 좋을 것으로 예상한다.

자동색인에서 단어의 품사와 빈도를 이용한 색인후보어 발췌 (Extraction of the Latent Index Terms Using the Word Frequency and Part of Speech in Automatic Indexing)

  • 이태영;남궁황
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.181-184
    • /
    • 2001
  • 본 논문에서는 적합한 색인어를 자동으로 추출해 내기 위해 잘 알려진 통계적 기법과 구문분석적 기법을 혼용하였다. 적용결과를 검색효율로 나타내지 않고 각 방법에 따라 추출된 단어들을 실증적으로 보여주어 성능에 대한 판단을 유도하였다. 빈도나 품사가 단독으로 사용된 것보다 동시에 적용된 것이 보다 좋은 결과를 가져왔다.

  • PDF

Q&A 커뮤니티 기반 전문영역 검색을 위한 프레임워크 (A Framework for Q&A Community based Vertical Search)

  • 정옥란;오제환;이은석
    • 한국전자거래학회지
    • /
    • 제16권2호
    • /
    • pp.143-158
    • /
    • 2011
  • 본 연구는 Q&A(question and answer:질문-답변) 커뮤니티 사이트에서 집단지성의 특성을 추출하고, 이를 이용한 전문지식이나 정보 검색을 위한 전문영역 검색(vertical search) 을 위한 프레임워크를 제안한다, 많은 Q&A 사이트로부터 얻은 정보는 하나의 집단지성의 형태로 볼 수 있으며, 전문영역 검색은 특정 전문 분야 검색에 초점을 맞춘 검색 방법이다. 제안된 프레임워크는 사용자가 검색하고자 하는 질의어와 연관되어 있는 질문(question)과 답변(answer) 정보를 이용하여 관련어를 확장한 후, 이를 기반으로 전문지식을 요구하는 특정 도메인분야에 적용하게 된다. 이를 통해 일반 검색 엔진을 통해 검색된 검색 결과보다 유용한 정보와 전문적인 상세정보까지 제공해 줄 수 있다.

검색 언어가 웹 정보검색행위에 미치는 영향에 관한 연구 - 웹 정보검색행위의 양상 차이를 중심으로 - (A Study on the Effects of Search Language on Web Searching Behavior: Focused on the Differences of Web Searching Pattern)

  • 변제연
    • 한국문헌정보학회지
    • /
    • 제52권3호
    • /
    • pp.289-334
    • /
    • 2018
  • 웹상에서 영어 이외의 언어들로 이루어진 정보가 빠르게 증가하고 있지만, 여전히 영어 정보가 가장 큰 비중을 차지함에 따라 공통어(lingua franca)로서의 지배적인 영향을 미치고 있다. 따라서 영어가 비모어인 이용자들이 보다 다양하고 풍부한 정보를 획득할 수 있도록 하기 위해서는 비영어권 화자의 모어 정보검색행위와 영어 정보검색행위에 대한 조사를 통해 주요 특징 및 차이점을 살펴볼 필요가 있다. 본 연구에서는 국내 한 사립대학의 대학생 24명을 대상으로 동시적 사고구술 기법을 적용한 정보검색 실험을 실시해 한글 정보검색행위 및 영어 정보검색행위와 인지과정을 조사하였다. 관찰데이터 및 사고구술데이터의 정성적 데이터를 기반으로, 검색 언어에 따른 웹 정보검색행위의 양상 차이에 대한 빈도분석을 실시하였다. 연구 결과, 한글 검색에서 능동적이고 적극적이며 독립적인 특성의 양상이, 영어 검색에서 수동적이고 소극적이며 의존적인 특성의 양상이 나타났다. 한글 검색에서는 이용자, 태스크, 시스템 등 다양한 출처에서 용어를 추출 조합한 검색어 구성, 여러 수준에서의 검색범위 조정, 검색엔진 검색결과페이지 내 탐색대상 아이템의 선택과 관련한 원활한 필터링, 다수 아이템의 탐색 및 비교, 웹 페이지의 전체 내용 브라우징 등이 주요 특징으로 확인되었다. 반면, 영어 검색에서는 주로 태스크 추출 용어 중심 검색어 구성, 제한된 검색범위 선호, 카테고리나 링크 등 아이템과 아이템 간 관련성에 의존한 탐색 대상 아이템 선택, 동일 아이템의 반복적 탐색, 웹 페이지의 일부 내용 브라우징, 그리고 사전 및 번역기와 같은 언어지원도구의 빈번한 사용 등이 두드러진 특징으로 파악되었다.

관계성 확률을 이용한 XML 태그의 가중치 결정 (Weight decision of the XML Tag using Relationship Probability)

  • 정혜진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.699-702
    • /
    • 2007
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하거나 HTML 문서 태그의 중요도 결정에 관한 연구들이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그의 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 인용된 문서간의 관계를 알아보고 서로 연관이 있을 확률을 계산하여 그 기대치만큼 색인어에 대한 가중치에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

  • PDF

웹 검색을 활용한 기사 표절 탐지 시스템 (A Plagiarism Detection System for Newspaper Articles by using Web Search)

  • 조정현;김유섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.420-424
    • /
    • 2008
  • 최근 문서 저작권에 대한 관심과 중요도가 높아지고 있고 문서 표절에 관한 연구도 지속적으로 이루어지고 있다. 최근 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있다. 현재까지의 문서 표절 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수 많은 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 자동으로 탐지해 내는 시스템을 제안한다. 제안하는 시스템은 하나의 원본 기사에서 5개의 문장을 랜덤으로 추출하고 각각의 문장을 검색어(query)로 사용해 연동된 OpenAPI를 사용하여 웹에서 기사를 검색한다. 또한 5번의 검색에서 추출되는 URL의 검색 빈도를 계산하여 해당 기사의 표절 가능성을 사용자가 쉽게 예측 할 수 있도록 하였다.

  • PDF

주제 유사성 기반 클러스터링을 이용한 블로그 검색기법 연구 (Study for Blog Clustering Method Based on Similarity of Titles)

  • 이기준;이명진;김우주
    • 지능정보연구
    • /
    • 제15권2호
    • /
    • pp.61-74
    • /
    • 2009
  • 웹 2.0에 기반한 정보화 사회에 있어 참여를 통한 자료의 축적 속도는 더욱 더 가속화 되어가고 있다. 이러한 현상속에서, 웹 2.0으로 인해 정보의 저장 및 공유 형태 역시 단순 웹 페이지에서 블로그로 나아가 포드캐스팅, 비디오 등의 다양한 모습으로 분화되어가고 있는 실정인데, 이는 웹 상의 정보에 대한 통합적이고 효율적인 접근을 오히려 방해할 수 있는 요소이기에 보다 효과적인 정보 검색 방법을 요구하게 된다. 본 연구에서는 특히 블로그 검색에 초점을 맞추어 기존 웹 검색 방식의 문제점을 도출, 해결하고자 한다. 논문에서 제안하고자 바는 특정 검색어에 대해 블로그 검색을 수행한 후, 검색 결과에서 주요 주제들을 효과적으로 추출하고, 주제별로 결과물들을 클러스터링하여 순위별로 제공하고자 하는 것이다. 이를 통해 블로그 검색에의 정보 추출에서 사용자에게 특정 검색어에 대해 보다 동적인 추가 주제 카탈로그를 제시함으로써 대량의 의미 없는 정보들을 단순 브라이징하는 방식을 벗어날 수 있으며, 빠르게 검색 의도에 유의한 자료들에 접근할 수 있도록 할 수 있다.

  • PDF

퍼지 추론에 의한 자연언어 정보 검색 (Natural Language Information Retrieval by Fuzzy Inference)

  • 박현규;오종훈;김명호;최기선;이광형
    • 정보처리학회논문지B
    • /
    • 제8B권3호
    • /
    • pp.243-250
    • /
    • 2001
  • 인터넷 전자 상거래 시스템에서 주로 일어나는 정보 검색은 사용자의 상품정보 요구라고 할 수 있다. 이와 같이 사용자가 원하는 상품 정보를 웹 환경에서 검색하기 위해서는 편리한 검색 환경의 제공뿐만 아니라, 검색 성능의 효율성 또한 우수해야 한다. 인터넷 인구와 온라인 쇼핑몰의 급격한 증가로 인해 다양한 조건 검색에 의한 상품검색 요구가 증대되고 있다. 또한, 이러한 상품의 검색 결과는 사용자의 의도와 의미상으로 밀접한 관계를 가져야 한다. 자연언어 정보검색은 이러한 요구의 중요한 대안으로 대두되고 있으나, 자연언어 자체가 가지는 애매한 의미의 해석 등으로 인하여 상용 시스템에 적용하는데 많은 어려움이 있다. 본 논문에서는 이러한 문제점을 해결하기 위하여 퍼지추론을 이용한다. 입력된 자연언어 질의에서 형태소 분석을 통하여 데이터베이스 질의에 사용될 수 있는 의미어(content word)를 추출한 후, 의미어들을 재구성하여 템플릿을 작성한다. 작성된 템플릿은 퍼지 추론을 통하여 의미의 애매성을 해소하고 데이터베이스 질의로 변환하여 사용자의 질의 의도와 부합되는 검색 결과를 제시한다.

  • PDF

WordNet기반 주석확장을 이용한 이미지 검색 (Image Retrieval using Annotation Expansion based on WordNet)

  • 황광수;김판구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.165-168
    • /
    • 2007
  • 이미지 데이터를 의미적으로 검색하기 위한 가장 중요한 요소는 이미지의 정보를 표현하고 있는 주석이라고 할 수 있다. 이미지의 주석은 관리자가 사용자 입장에서 검색이 가능한 이미지를 표현할 수 있는 키워드를 선별하여 데이터화한 것이다. 그러다보니 이미지내 의미를 모두 표현하기위해 주석에 수는 증가되고, 증가된 주석은 각각에 이미지에서 차지하고 있는 의미량을 고려하지않고 동일한 크기를 가지게 된다. 이러한 경우 실제적으로 검색하였을 때 의미량에 상관없이 질의어와 주석이 일치한 모든 이미지를 검색하므로 사용자가 검색 결과에서 의미량이 큰 이미지를 다시 재검색하거나 주석입력자와 사용자와 어휘 표현에 차이 때문에 검색에 재검색해야한다. 따라서 본 논문에서는 의미량을 이용하여 효율적인 이미지 검색을 하기 위해 각 키워드 간에 의미적인 관계를 어휘 온톨로지인 WordNet을 이용하여 유사도 측정을 하고, 측정한 데이터를 이용하여 전체 이미지 의미량에서 해당 키워드가 갖는 의미량을 측정한다. 의미량은 이미지 검색시 질의어가 이미지에서 차지하고 있는 비율을 비교하여 가장 높은 의미량을 갖는 이미지를 우선 검색하고 의미량이 가장 큰 키워드를 대표키워드로 추출하여 WordNet상에서 동일한 의미를 갖는 계층에 단어들로 주석을 확장한다.