• Title/Summary/Keyword: 의존구조 검색

검색결과 53건 처리시간 0.025초

의존 구문 구조 관점으로 본 서브토픽 마이닝 (Subtopic Mining from the View of Dependency Structure)

  • 김세종;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.294-296
    • /
    • 2012
  • 본 논문은 일본어 웹 문서 말뭉치로부터 의존 구문 구조 관점으로 바라본 단어들의 동시발생(co-occurrence) 정보를 사용하여 서브토픽 마이닝(subtopic mining)을 수행하는 방법론을 제안한다. 우리는 의존 구문 구조를 반영하는 간단한 패턴들을 사용하여 서브토픽들을 추출 및 생성하고, 제안한 수식을 바탕으로 순위화한다. 본 방법론은 기존의 주요 상용 검색 서비스에서 제공하는 연관 검색어 및 추천 검색어를 사용한 방법론보다 좋은 성능을 보였다.

의존관계 패턴에 기반한 한국어 명사구의 추출 (The Extraction of Korean Noun Phrases based on Dependency Patterns)

  • 강승식;이상모;이민행
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.615-617
    • /
    • 2023
  • 이 연구는 한국어 명사구를 말뭉치로부터 추출하는 방법의 하나로 의존관계 패턴에 기반한 접근방법을 제안하는 것을 목적으로 한다. 이 방법론을 활용한 경우에 명사구 추출의 정확성을 높일 수 있다. 이 논문에서는 한국어 법령 의존 말뭉치를 구축하는 단계부터 상위 명사구 목록을 생성하기 까지 거치는 5단계에 대해 상세하게 논의하는 한편, 의존구조 검색시스템을 통해 의존관계 패턴을 추출하는 절차에 대해 기술하고 이 작업을 수행하기 위한 검색식들의 특성들에 대해 검토한다.

  • PDF

자연어 인터페이스를 위한 관계에 대한 자연어 표현 자동 수집 방법 (Automatic Collecting of Natural Language Expressions of Relations for Natural Language Interface)

  • 한용진;박세영;박성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(A)
    • /
    • pp.221-224
    • /
    • 2011
  • 관계에 대한 다양한 자연어 표현을 다루는 것은 구조 정보에 대한 자연어 질의 인터페이스 연구의 중요한 문제 중에 하나이다. 이러한 문제를 해결하기 위한 기존의 연구들은 자연어 질의 인터페이스를 대상 분야에 적합하게 구축하기 위한 수작업에 의존하였다. 이러한 접근은 소규모 구조 정보에 대한 자연어 질의 인터페이스 구축 시 효율적으로 적용될 수 있다. 하지만 최근에는 RDF와 OWL과 같은 그래프 구조 정보가 다양한 분야에서 대량으로 생성되고 있다. 수작업에 의존하는 접근을 통해 이러한 대량의 그래프 구조 정보에 대한 자연어 인터페이스를 구축하기에는 어려움이 있다. 본 논문은 자연어 인터페이스에 대한 자연어 표현의 다양성 문제를 해결하기 위해 자동으로 관계에 대한 자연어 표현을 수집하는 방법을 제안한다. 그래프 구조 정보에서 관계는 두 객체를 연결하는 유일한 에지(edge)로 표현된다. 제안한 방법은 주어진 에지로 연결되는 서로 다른 객체 쌍을 말뭉치(corpus)에서 검색하고 검색된 객체 쌍 주변에서 빈번하게 등장하는 자연어 표현을 수집한다. 자동으로 수집한 자연어 질의 표현을 자연어 인터페이스에 적용한 결과 수작업에 의존하는 기존 연구들과 비교할 만한 실험 결과를 보였다.

XML 링크의 의미 속성을 이용한 개선된 검색 시스템을 위한 색인 기법에 대한 연구 (A Study on Indexing Method for Advanced Retrieval System using Semantics Attributes in XML Links)

  • 김은정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1855-1858
    • /
    • 2002
  • XML 문서에 대한 검색은 문서내 색인어 발생 빈도에 의한 내용 검색과 문서내 특정 엘리먼트에 의한 구조 검색 그리고 내용과 구조를 모두 검색하는 혼합 검색 등이 있다. 본 논문에서는 사용자의 질의에 대하여 문서에 의존하는 것이 아니라, 링크를 검색하여 특정 색인어에 대하여 가장 많은 링크를 설정 받은 문서 또는 특정 엘리먼트를 검색하는 새로운 검색 시스템을 설계한다. 이를 위해 XML 문서를 저장할 때 구조 정보와 함께 링크 정보를 저장하고 XML 링크에서 의미 속성인 ROLE, TITLE을 색인한다. 제안된 색인 모델에서는 정보를 찾는 사용자들의 질의를 보다 다양한 시각에서 검색할 수 있으며, 따라서 이러한 사용자들의 질의 유형과 그 처리 과정을 설명하고 의미를 분서한다.

  • PDF

T*-트리:주기억 데이터베이스에서의 효율적인 색인기법 (T*-tree:An Efficient Indexing Technique for Main Memory Database)

  • 최공림;김기룡;김경창
    • 한국통신학회논문지
    • /
    • 제21권10호
    • /
    • pp.2597-2604
    • /
    • 1996
  • 본 논문에서는 주기억 데이터베이스 시스템에서의 효율적인 데이터 처리를 위하여 T*-트리라는 새로운 색인구조를 제시한다. T*-트리 색인구조는 기존의 디스크를 기반으로 하는 색인기법과 달리 모든 데이터가 주기억장치에 적재되어 있는 시스템에서 보다 빠른 데이터 접근과 메모리 공간의 효율적인 사용을 위해 주기억 데이터베이스 시스템에서 주로 사용되고 있는 T*-트리색인구조의 장점은 그대로 계승하면서 단점을 보완한 인덱스 구조이다. 본 논문에서 제시하는 T*-트리는 데이터 아이템에 대한 검색과 저장공간의 활용면에서는 T*-트리와 대동소이한 성능을 가지고 있으나, 범위 질의에서와 데이터 아이템에 대한 검색과 삭제시 중간노드에서의 노드간의 순회경로를 줄임으로써 보다 향상된 성능을 보여준다. 또한 T*-트리와 스레드 이진트리를 조합하는 경우에는 순회경로가 다소 단축되지만 중간노드에서 자신보다 높은 레벨의 후속 노드로의 순회는 기존의 인오더 트리 순회에 의존하지만, T*-트리에서는 후위포인터를 이용하므로 직접순회가 가능하게 된다. 본 논문에서는 제안된 T*-트리의 구조와 T*-트리의 검색, 삽입 및 삭제 연산을 위한 알고리즘을 설명한 후, 기존의 T*-트리와 성능분석을 실시하고 그 결과를 제시한다. 성능 분석결과 T*-트리는 데이터 검색의 경우 기존의 T*-트리와 거의 동일한 성능을 보였으며, 삽입과 식제등 색인구조의 변경시는 약간의 성능향상을 보였으나, 범위질의와 순차질의에서는 매우 향상된 성능을 나타냈다.

  • PDF

문서의 의미적 구조정보를 이용한 특허 문서 분류 (Patent Document Categorization based on Semantic Structural Information)

  • 김재호;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-34
    • /
    • 2005
  • 특허 검색은 수많은 특허 문서 중에서 특정 해당분야의 문서 집합 내에서 검색을 수행하기 때문에 정확한 특허 분류에 크게 의존하게 된다. 이러한 특허 분류의 중요성에 덧붙여, 특허 문서의 수가 빠르게 증가하게 되면서 특허를 자동으로 분류하려는 요구가 더욱 필요하게 되었다. 특허문서는 일반문서와는 달리 구조화되어 있기 때문에 특허분류를 하기 위해서는 이러한 점이 고려되어야 한다. 본 논문에서는 k-NN 방법을 이용하여 일본어 특허 문서를 자동으로 분류하는 방법을 제안한다. 훈련집합으로부터 유사문서를 검색할 때, 구조화되어 있는 특허 문서의 특징을 이용한다. 문서 전체가 아닌 (기존 기술), (응용 분야), (해결하고자 하는 문제), (문제를 해결하려는 방법) 등의 세분화된 요소끼리 비교하여 유사성을 계산한다. 특허 문서에는 사용자가 정의한 많은 의미 요소가 있기 때문에 먼저 이들을 군집화한 후에 이용한다. 실험 결과 제안한 방법이 특허문서를 그대로 이용하는 것보다는 74%, 특허문서에 나타난 <요약>, <청구항>, <상세한 설명>의 큰 구조 정보를 이용하는 것보다는 4%의 성능 향상을 가져왔다.

  • PDF

지식기반 의미 메타 검색엔진 (Knowledge-based Semantic Meta-Search Engine)

  • 이인근;손세호;권순학
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.737-744
    • /
    • 2004
  • 웹으로부터 사용자가 원하는 정보에 잘 부응하는 정보를 추출하는 것은 검색엔진이 갖추어야 할 기본적 요소라 할 수 있다. 그러나 질의어와의 패턴 매칭 방식에 의존하는 기존의 대부분의 검색엔진은 질의어가 갖는 애매성으로 인하여 사용자의 요구에 부합하는 검색결과를 제공하기가 쉽지 않다는 단점을 지니고 있다. 이를 극복하기 위하여 본 논문에서는 다음과 같은 5가지 과정, 즉, (i) 질의어 형성, (ii) 질의어 확장, (iii) 검색, (iv) 순위 재생성 및 (v) 지식베이스로 구성되는 지식기반 의미 메타 검색엔진의 기본 구조를 제안한다 영어로 구현된 웹 문서에 대한 모의실험을 통하여 본 논문에서 제안된 지식기반 의미 메타 검색엔진이 기존의 검색엔진(구글)을 사용하여 얻은 결과보다 좋은 결과를 보임을 확인할 수 있었다.

세종 의존명사/대명사/수사 전자사전의 정보표상 구조 (The Representational Structure of Lexical Informations of Korean non-autonomous nouns in the Sejong Electronic Dictionary)

  • 방성원;호정은;김종인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.341-347
    • /
    • 2001
  • 세종전자사전이 궁극적으로 범용전자사전을 지향한다는 점에 비추어 볼 때, 텍스트 자동 분석과 생성, 정보 검색 및 자동 번역 등에 활용될 데이터베이스로서의 전자사전은 자연 언어 어휘의 내적 구조와 기능방식에 관한 정보들, 가령 음운 통사 의미 화용적 가치와 실현 조건 등에 관한 정보들을 체계적이고도 정교하게 담고 있어야만 한다. 의존명사, 대명사, 수사 범주에 속하는 언어 단위들은 단일 명사와 구별되는 어휘 통사적 속성들을 지니며, 사전의 기술 구조에는 그 정보 값들을 체계적으로 명시화할 수 있는 정보 항목과 표상 구조가 설정되어야 한다. 가령 의존명사처럼 통사 의미적 자율성을 지니지 않는 언어 요소의 경우, 어휘 관계 정보보다는 인접하는 여타 언어 단위들과의 호응관계나 결합제약 조건들이 더 중요한 정보일 수 있다. 본 사전이 체언사전의 하위사전으로 별도로 구축되는 것은 단일어 사전에서 그러한 정보들을 효과적으로 표상하기 어렵기 때문이다. 그러나 본 사전은 실제적으로는 체언사전에 통합되어 운영된다는 점에서 이중적 지위를 누린다고 하겠다.

  • PDF

정보검색관리시스템 KRISTAL-2001 (Information Retrieval Management System KRISTAL-2001)

  • 진두석;서정현;최윤수;최성필;김광영
    • 지식정보인프라
    • /
    • 통권7호
    • /
    • pp.32-43
    • /
    • 2001
  • 정보화사회에 있어서 인간의 지적 활동에 필수적인 요소는 과학기술에 의존한 정보의 수집과 축적 및 검색과 이용이라고 할 수 있다. 이러한 요구에 따른 다양한 형태의 정보나 데이터를 효율적으로 구축, 유지, 운영할 수 있는 정보 검색시스템 개발의 중요성이 점차 증가하고있다. 특히, 웹과 컴퓨터의 보급이 확산됨에 따라 수많은 전자문서들이 생산되면서 기존의 검색시스템의 기능, 즉 정형적인 텍스트문서에 대한 단순한 불리언질의만으로는 사용자의 요구를 충족시킬 수 없게되었다. 따라서, 본 논문에서는 이러한 사용자 요구를 빠르고 정확하게 처리하기 위해 기존의 정보 검색시스템인 "KRISTAL-2001"의 특징은 저장엔진, 시스템제어기, 검색기, 색인기, 분산엔진 모듈이 각각 서버 역활을하며 통신을 통하여 상호간의 정보를 전달한다. 따라서 분산검색을 통한 빠른 질의처리가 가능하다는 장점을 가지고 있다. 그리고 문서 또는 문서그룹단위의 트랜잭션처리를 지원하기 때문에 데이터의 안정적인 저장 및 수정을 보장한다. 또한 구조문서, 멀티미디어 데이터등 다양한 형태의 데이터를 관리할 수 있기 특징을 가지고 있다. KRISTAL-2001은 순수 국내기술로 개발된 대용량 데이터를 위한 차세대 정보검색시스템으로서 국제 경쟁력 향상에 중요한 역할을 수행할 것으로 기대된다.

  • PDF

빅데이터 분석 시스템을 활용한 온라인 검색 광고 플랫폼 설계 및 개발에 관한 연구 (A Study on Design and Development for Online Search Advertisement Platform using Big Data Analysis System)

  • 노선택;홍승형;김경수;송영기;김환철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.187-190
    • /
    • 2012
  • 온라인 검색 광고는 인터넷 사용자의 증가, 그리고 온라인 광고 수요의 규모가 커짐에 따라 광고 시장에서 보조적인 역할에서 벗어나 주도적인 위치로 변화하고 있다. 지속적인 규모성장과 수요 증가에도 불구하고 기존의 관계형 데이터베이스에 의존한 온라인 검색 광고 플랫폼은 구조적인 한계로 인해 유연한 자원 확장이나 분석속도의 보장성을 유지할 수 없다. 본 논문에서는 빅데이터 분석 시스템을 이용하여 온라인 검색 광고 플랫폼을 설계 및 구현함으로써, 데이터 저장 공간을 유연하게 확장할 수 있으며, 일정한 시간으로 수렴할 수 있는 안정적인 분석 속도를 유지하는 시스템을 제안한다.