• Title/Summary/Keyword: 검색어 추출

Search Result 328, Processing Time 0.02 seconds

Index Extraction Using Syntactic Morpheme (구문형태소를 이용한 색인어 추출)

  • 황이규;이근용;김남수;이용석
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

Index Extraction Using Syntactic Morpheme (구문형태소를 이용한 색인어 추출)

  • Hwang, Y.G.;Lee, K.Y.;Kim, N.S.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

A Study on Keyword Extraction and Expansion for Web Text Retrieval (웹 문서 검색을 위한 검색어 추출과 확장에 관한 연구)

  • Yoon, Sung-Hee
    • Journal of the Korea Computer Industry Society
    • /
    • v.5 no.9
    • /
    • pp.1111-1118
    • /
    • 2004
  • Natural language query is the best user interface for the users of web text retrieval systems. This paper proposes a retrieval system with expanded keyword from syntactically-analyzed structures of user's natural language query based on natural language processing technique. Through the steps combining or splitting the compound nouns based on syntactic tree traversal, and expanding the other-formed or shorten-formed keyword into multiple keyword, it shows that precision and correctness of the retrieval system was enhanced.

  • PDF

Improving Query Translation by Extracting Parallel Sentences from Wikipedia for Cross-Language Information Retrieval (위키피디아로부터의 자동 병렬 문장 추출 기법을 이용한 영어-한국어 교차언어 정보검색의 번역 성능 개선)

  • Cheon, Juryong;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.35-40
    • /
    • 2015
  • 본 논문은 영어-한국어 교차언어 정보검색의 질의어 번역에 대한 중요한 자원으로 활용되는 병렬 말뭉치의 품질 향상을 위해서, 위키피디아의 비교 말뭉치로부터 자동으로 병렬 문장을 추출하여 활용하는 기법을 제안한다. 기존 연구에서 질의어 번역을 위해 위키피디아의 이중 어휘 사전 및 동의어, 다의어 정보를 구축하고, 기 기축된 병렬 말뭉치와 함께 활용하여 여러 의미를 가진 번역 후보 단어들 중, 최적의 단어를 선택하는 방법을 이용하고 있다. 여기서 활용되는 병렬 말뭉치는 질의어 번역에서 가장 중요한 자원이다. 하지만, 기 구축된 병렬 말뭉치는 양이 적거나, 특정 영역을 중심으로 구성되어 있는 문제가 있다. 이러한 문제를 해결하기 위해, 본 논문은 위키피디아로부터 자동 병렬 문장 추출 기법을 이용, 대량의 영어-한국어 간 병렬 말뭉치를 구축하고, 이를 교차언어 정보검색을 위한 질의어 번역에 적용하여 개선을 보인다. 실험의 성능 비교를 위해서 NTCIR-5 데이터를 이용하였으며 기 구축된 세종 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 31.5%, R-P 33.0%에서, 새롭게 구축한 위키피디아 병렬 말뭉치를 활용한 질의어 번역의 성능이 MAP 34.6%, R-P 34.6%로, 각각 MAP 3.1%와 R-P 1.6%의 성능 향상을 보였다.

  • PDF

A Design of Efficient Automatic Indexing based on Dictionary Information (사전 정보에 기반한 효율적인 자동색인기 설계)

  • Jin, Joung-Hwan;Kim, Tae-Wan
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10a
    • /
    • pp.547-550
    • /
    • 2001
  • 웹상에 공유되어진 문서의 내용을 대표하는 색인어 추출은 정보 검색 시스템의 질을 좌우한다. 한국어의 자유로운 복합명사나 띄어쓰기 규약, 사전 미등록 어휘 등으로 색인어 추출시 질의어와 색인어 사이의 형태상의 불일치(Syntactic Term Mismatch)가 발생하여 검색성능을 저하시키는 경우가 많다. 따라서 본 논문에서는 사전을 통한 형태소 해석을 통해 단위명사(Unit Noun)로 색인어를 추출하고 사전 미등륵어는 N-gram 기반 색인 방법을 이용하여 질의어와 색인어 사이의 부분 일치된 문서도 추출될 수 있는 방법을 제안하였으며, 색인어와 질의어 사이의 유사도 계산을 통해 문서의 우선순위를 정함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

A Study on Providing Relative Keyword using The Social Network Analysis Technique in Academic Database (학술DB에서 SNA(Social Network Analysis) 기법을 이용한 연관검색어 제공방안 연구)

  • Kim, Kyoung-Yong;Seo, Jung-Yun;Seon, Choong-Nyoung
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.79-82
    • /
    • 2011
  • 본 논문은 다양한 주제 분야의 연구 성과물을 제공하는 학술DB에서 주제어(Keyword) 정보를 바탕으로 SNA(Social Network Analysis)기법을 적용해 검색어와 연관도가 높은 연관검색어를 제공하는 것을 그 목적으로 한다. 이를 위해 주제어들 간의 가중치(Weight)를 계산한 뒤 Ego Network 분석을 통해 검색어와 연관된 연관주제어를 추출하고 이를 기존 학술DB에서 제공한 연관검색어와 비교 정리하였다. 그리고 정리된 결과를 연관규칙 마이닝기법, 유사계수를 적용해 연관도측면에서 비교 평가하였다.

  • PDF

Efficient Storing and SPARQL Search Scheme for Large Scale RDF Data (대용량 RDF 데이터의 효율적인 저장방법과 SPARQL 기반 검색방안 연구)

  • Oh, Sangyoon;Park, Ji-Hoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.07a
    • /
    • pp.195-197
    • /
    • 2016
  • 시멘틱웹을 구축하는 표준언어인 RDF (Resource Description Framework)는 언어의 그래프 기반 특성으로 인해 일반적인 방식들로는 효과적인 저장과 추출이 어렵다. 더욱이 대용량 RDF 데이터의 저장과 추출에는 성능문제가 더욱 커지므로 많은 연구들이 이루어지고 있다. 본 논문에서는 SPARQL을 지원하면서 RDF 파일들을 효과적으로 저장하고 검색할 수 있는 저장방식에 대해 연구한 결과를 제시한다. RDF 데이터를 전처리를 통해 RDF의 트리플(주어:subject, 술어:property, 목적어:Object)에서 중복되는 주어(S)나 목적어(O)를 묶고, 사용자가 SPARQL 형식으로 검색했을 때 이용자가 주어부분을 변수로 두었는지 아니면 서술어 부분을 변수로 두어 찾는지에 따라 검색어와 유사한 단어 클러스터를 찾아준다. 동일 단어에 대해 여러 번 검색되던 부분을 한 번 검색으로 처리할 수 있기 때문에 효율이 높아진다.

  • PDF

A Synonym Dictionary Construction for Information Retrieval (정보 검색을 위한 동의어/유의어 사전 구축)

  • Lee, Tae-Woo;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.208-213
    • /
    • 2003
  • 본 논문에서는 많은 정보로부터 의미 있는 정보를 추출하기 위해 사용되는 정보 검색 시스템에서 이용이 가능한 동의어/유의어 사전을 구축하고 구축된 정보의 평가를 수행하였다. 사용한 자원으로는 미리 구축된 한-영 사전과 영-한사전을 이용하였다. 이들의 사용으로 다른 동의어사전과 달리 보다 많은 유의어 정보를 포함하는 이익을 얻었다. 본 논문의 시스템은 사전을 구축하기 위해 기본 자원을 이용하여 동의어/유의어 후보 목록들을 획득하고, 획득된 정보를 바탕으로 후보 목록의 빈도수와 사전의 위치 정보, 마지막으로 입력 명사 정보를 이용하여 동의어/유의어를 확정한다. 작성된 동의어/유의어사전은 한-영사전에 수록된 한국어 명사 64,630개를 대상으로 하였다. 작성된 사전을 문서 필터링 시스템에 추가하여 적용 전보다 성능이 향상됨을 확인하였다. 또한 질의 색인어 확장에 이용하여 보다 정답을 추출하는데 추가적으로 확장된 유의어 정보가 정답을 추출하는데 유용하게 사용됨을 확인하였다.

  • PDF

A Relation Analysis between NDSL User Queries and Technical Terms (NDSL 검색 질의어와 기술용어간의 관계에 대한 분석적 연구)

  • Kang, Nam-Gyu;Cho, Min-Hee;Kwon, Oh-Seok
    • Journal of Information Management
    • /
    • v.39 no.3
    • /
    • pp.163-177
    • /
    • 2008
  • In this paper, we analyzed the relationship between user query keywords that is used to search NDSL and technical terms extracted from NDSL journals. For the analysis, we extracted about 833,000 query keywords from NDSL search logs during nearly 17 months and approximately 41,000,000 technical terms from NDSL, INSPEC, FSTA journals. And we used only the English noun phrase in extracted those and then we did an experiment on analysis of equality, relationship analysis and frequency analysis.

Query Related Issue Detection using Related Term Extraction (연관 어휘 추출을 통한 질의어 관련 이슈 탐지)

  • Kim, Je-Sang;Kim, Dong-Sung;Jo, Hyo-Geun;Lee, Hyun-Ah
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.133-136
    • /
    • 2013
  • 근래 트위터와 페이스북 등의 SNS(Social Network Service)에서 일반 대중의 관심사나 트렌드 등의 이슈를 탐지하는 많은 연구가 이루어지고 있다. 본 논문에서는 검색어에 대한 연관 어휘 추출을 통해 검색어에 연관된 이슈나 화제를 트위터에서 추출하기 위한 방법을 제안한다. 본 논문에서는 연관성이 높은 단어는 서로 가깝게 발생할 것으로 기대하고, 단어 간 거리가 가까울수록, 공기빈도가 높을수록 커지는 단어연관도 계산법을 제안한다. 연관도 값이 임계치를 넘는 어휘를 연관 어휘로 보고 네트워크의 형태로 관련 이슈를 제시한다.

  • PDF