• 제목/요약/키워드: 개념색인

검색결과 112건 처리시간 0.023초

개념 기반 키워드 정보를 이용한 웹 문서의 자동 분류 (Automatic Classification of Web Documents Using Concept-Based Keyword Information)

  • 박사준;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.151-153
    • /
    • 2003
  • 본 연구에서는 웹 문서를 분류하기 위해서 분류하고자 하는 영역(category)에 대한 개념 지식을 이용한다. 먼저, 영역별 개념 지식을 기구축된 웹 문서의 집합으로부터 제목과 하이퍼링크에 기반한 앵커 텍스트를 이용하여 개념을 보유한 키워드를 추출한다. 추출된 키워드를 형태소 분석을 통해 색인어로 추출한다. 추출된 색인어에 대해 TFIDF를 확장한 영역 적용 색인 가중치 TFIDFc를 적용하여 영역별 개념 기반 색인어와 색인를 구축한다. 색인은 TFIDF를 영역별로 확장하여 구축한다. 구축된 영역별 개념 기반 색인을 이용하여 새로운 웹 문서에 대해서 어떤 영역에 해당하는 가를 결정하는 자동 분류 알고리즘을 수행한다. 자동 분류 알고리즘에 의해 수행된 문서는 영역별로 정리되며, 또한, 분류된 웹 문서의 색인어는 새로운 개념 기반 키워드로 추출되어 개념 기반 영역 지식을 구축한다.

  • PDF

지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구 (An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI))

  • 이지혜;정영미
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.451-462
    • /
    • 2009
  • 본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

시맨틱 웹 응용 서비스에서의 텍스트 처리 기술 적용 (Use of Text Processing Technologies in a Semantic Web Application)

  • 정한민;강인수;구희관;이승우;김평;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-196
    • /
    • 2006
  • 본 논문은 시맨틱 웹 응용 서비스를 구현함에 있어 필수적으로 요구되는 온톨로지 인스턴스 구축을 효율적으로 처리하는 데 있어 텍스트 처리 기술이 어떤 역할을 수행할 수 있는 가를 $OntoFrame-K^{(R)}$라는 시맨틱 웹 기반 정보 유통 체계에의 적용 사례를 통해 살펴본다. 본 논문에서 소개하는 텍스트 처리 기술은 개체 확인물 통한 개념 사례화, 주제 분야 할당을 통한 메타데이터 확장에, 그리고 인용 정보 추출 및 인용 관계 구축을 통한 객체 관계속성 구축에 적용된다. 개체 확인에서는 메타데이터 비교 잊 병합을 사용하였으며 이를 기반으로 한 수작업 구축을 통해 8,543명의 인력 URI를 확보하였다. 주제 및 분야 할당에서는 색인어와 분야분류명이 매핑된 시소러스 개념어의 매칭을 통해 색인어 별 TF (Term Frequency), 색인어와 매칭된 개념어 별 TF, 색인어와 매칭된 개념어 별 시소러스에서의 깊이, 색인어와 매칭된 개념어 별 개념 패싯, 색인어와 매칭된 각 개념어에 부착된 분야분류명 목록 등 할당을 위한 다양한 자질을 확보 적용하였다. 인용 정보 추출과 인용 관계 구축에서는 객체 URI와 인력 URI를 기반으로 하여 자동 추출된 인용 정보를 반영하는 방식으로 7,237개 문헌으로부터 총 135개의 인용 네트워크 그룹을 자동으로 확보하였다. 본 연구를 통해 제시된 텍스트 처리 기술의 활용 방안이 향후 시맨틱 웹 응용 서비스 및 인프라 구현에서 다각적으로 활용될 수 있기를 기대한다.

  • PDF

구문분석과 공기정보를 이용한 개념 기반 명사구 색인 방법 (Concept-Based Method for Noun Phrase Indexing Using Syntactic Analysis and Co-occurence Information)

  • 이현아;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 1995
  • 한국어에서의 명사구 색인을 위한 기존의 방법들은 주로 간단한 규칙을 이용하여 왔고 그 결과 문장에 존재하는 모든 명사구를 추출하지 못했다. 이를 해결하기 위하여 본 논문에서는 개념 기반 명사구 색인 방법을 제안한다. 하나의 문장은 하나 이상의 개념으로 이루어져 있으므로, 명사구 추출은 개념을 고려하여 이루어져야 바람직하다 문장은 구문적으로 하나 이상의 내포문으로 이루어져 있다. 일반적으로 내포문 단위 내의 용어들이 나타내는 각각의 개념들은 서로 높은 연관성을 가진다. 그러므로 문장이 가지는 개념의 상이성을 내포문의 개념 상이성으로 축소할 수 있다. 문장을 내포문 단위로 분할하기 위하여 의존 문법을 기반한 구문분석과 공기정보를 이용한다. 특히 공기정보는 원거리 의존관계(long distance dependency)를 결정하여 한 내포문에 속함을 밝혀내는 데 도움을 준다. 이러한 내포문 내의 의존관계를 이용하여 명사구를 추출한다.

  • PDF

XML 데이터베이스를 위한 다차원 중포 엘리먼트 색인구조의 운용과 할당 (Operations And Assignments Of Multidimensional Nested Element Indexs For XML Databases)

  • 이정아;이종학
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.401-404
    • /
    • 2006
  • 최근 XML 데이터베이스는 웹의 발전과 더불어 광범위한 인터넷의 자원 공유에 크게 기여하고 있다. XML로 작성된 문서를 저장하고 검색하기 위해 XML 문서의 저장, 질의언어, 질의처리 등에 대한 분야가 활발히 연구되고 있다. 특히 그 중 질의처리의 처리비용을 줄이기 위한 데이터 질의 최적화 기법에 관한 연구가 중요한 과제이다. 증포된 엘리먼트에 대한 기존의 색인기법들은 일차원 색인구조를 이용함으로써 XML Schema가 가지는 타입상속 개념을 고려한 XML 질의들에 대한 처리를 효율적으로 지원하지 못하는 문제점을 가지고 있다. 따라서 본 논문에서는 XML Schema가 가지는 타입상속 개념을 고려한 XML 질의들에 대한 처리를 효율적으로 지원할 수 있는 다차원 증포 엘리먼트 색인구조와 다차원 경로 엘리먼트 색인구조의 운용법을 제시한다. 또한 효과적인 질의 처리를 하기 위한 XML 데이터베이스 색인구조의 유지비용을 줄이기 위하여 저장 공간 및 갱신 유지 비용을 최소화할 수 있는 효과적인 색인할당 방법을 제시한다.

  • PDF

에지 디스크립션 템플릿을 이용한 개념기반 이미지 검색 (A Concept-Based Image Retrieval with Edge Description Templates)

  • 최재훈;박성희;박수준;강희범
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.130-132
    • /
    • 2002
  • 본 논문에서는 에지 디스크립션 템플릿을 이용한 개념기반 이미지 검색 모델을 제안한다. 이 모델은 하나의 개념과 관련된 여러 형태의 이미지 템플릿들을 명시한 지식베이스를 채용한다. 여기서, 이미지 템플릿은MPEG-7국제 표준으로 채택된 에지 히스토그램 디스크립션 방법으로 표현된다 따라서, 하나의 이미지는 자신의 에지 히스토그램과 유사한 템플릿를 가지는 개념으로 색인될 수 있기 때문에 이 모델은 방대한 이미지에 대한 자동 색인과 개념기반 검색을 지 인할 수 있다.

  • PDF

연관색인법(聯關索引法)의 이론(理論)과 실제(實際) (Relational indexing: theory and practice)

  • 김태수
    • 정보관리학회지
    • /
    • 제1권1호
    • /
    • pp.25-42
    • /
    • 1984
  • 정보(情報)의 축적(蓄積)과 검색(檢索)을 위한 개념(槪念) 조직과정(組織過程)에서는 개념(槪念) 뿐만 아니라 이들 개념간(槪念間)의 상관관계(相關關係)가 명확히 표현되어야 하며 이를 위해서는 인간(人間)의 사고과정(思考科程)에 기초해야 한다. 연관색인법(聯關索引法)에서는 9개의 연관기호(聯關記號)를 통하여 문신 중에서 각 개념간의 관계표현이 가능하며 이들 개념을 순열(順列)시키므로써 주제색인(主題索引)으로서의 기능을 수행할 수 있으며 기존의 색인(索引)시스템에 비해 검색효율의 개선(改善)을 초래할 수 있을 것이다.

  • PDF

시계열 데이터베이스에서 단일 색인을 사용한 정규화 변환 지원 서브시퀀스 매칭 (A Single Index Approach for Subsequence Matching that Supports Normalization Transform in Time-Series Databases)

  • 문양세;김진호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.157-159
    • /
    • 2005
  • 본 논문에서는 단일 색인을 사용하는 정규화 변환 지원 서브시퀀스 매칭 방법을 제안한다. 기존의 정규화 변환 지원 서브시퀀스 매칭 방법은 질의 시퀀스 길이가 커질수록 성능이 저하되고, 이를 해결하기 위하여 여러개의 색인을 사용하는 방법을 취하였다. 본 논문에서는 하나의 색인을 사용하면서도 다양한 길이의 정규화 변환 지원 서브시퀀스 매칭을 수행하는 효율적인 방법을 제시한다. 이를 위하여, 본 논문에서는 정규화 변환의 정의를 확장하여 일반화 정규화 변환 개념을 제시한다. 또한, 이러한 일반화 정규화 변환 개념을 기존 서브시퀀스 매칭 방법들에 적용하는 방안에 대한 이론적 근거를 각각의 정리로서 제시하고 증명하였다. 그리고, 이들 방안을 구현하기 위한 색인 구성 알고리즘 및 서브시퀀스 매칭 알고리즘을 각각 제시하였다. 본 논문에서 제안한 정규화 변환 지원 서브시퀀스 매칭은 다른 변환을 지원하는 서브시퀀스 매칭으로 일반화 될 수 있는 우수한 연구결과라 사료된다.

  • PDF

공간 데이터웨어하우스에서 통합된 다차원 개념 계층 지원을 위한 데이터 큐브 색인 (Data Cude Index to Support Integrated Multi-dimensional Concept Hierarchies in Spatial Data Warehouse)

  • 이동욱;백성하;김경배;배해영
    • 한국멀티미디어학회논문지
    • /
    • 제12권10호
    • /
    • pp.1386-1396
    • /
    • 2009
  • 공간 데이터 웨어하우스에서 의사 결정 지원을 위한 공간 데이터 큐브는 크기가 방대하기 때문에 이를 효율적으로 관리하고 질의 처리의 수행 속도를 높이기 위한 공간 데이터 큐브 색인 기법이 요구된다. 제안된 데이터 큐브 색인 기법들 중 Hierarchical Dwarf는 사실 테이블의 튜플 필드 값의 중복을 이용하여 큐브를 압축하여 저장 비용과 질의응답 속도 면에서는 우수하지만 공간 차원을 지원하지 않으며, OLAP-favored Search 기법은 R-tree기반으로 공간 차원에 대한 계층적 집계 값을 제공하고 공간 OLAP 연산을 지원하지만 공간 및 비공간 차원들을 통합한 의사결정을 지원하지 못한다. 본 논문에서는 통합된 다차원 개념 계층지원을 위한 데이터 큐브 색인을 제안한다. 이는 개념 계층에 대한 정보와 사실 테이블에 지장된 튜플들을 참조하여 각각의 차원에 대해 생성된 개념 계층 트리들이 연결되어 통합된 색인이다. 이 때, 중복되는 개념계층 트리가 존재할 경우 이를 공유함으로써 저장 비용을 줄인다. 특히 제안 기법은 공간 및 비공간 차원이 통합된 개념 계층 트리들을 사용하므로, 공간 및 비공간 차원에 대한 OLAP 연산 비용이 감소한다.

  • PDF

개념 속성 기반 정보 검색 (Concept and Attribute based Answer Retrieval)

  • 윤보현;서창호
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권3호
    • /
    • pp.1-10
    • /
    • 2005
  • 본 연구에서는 지식검색을 위해 개념 속성을 이용하여 사용자 질의에 가장 적합한 정답 문장들을 검색 할 수 있는 정답검색 시스템을 설계하고 평가한다. 이 시스템은 먼저 사용자 질의를 개념 속성에 대한 불리언 연산으로 분석한 다음, 정답 문서 색인 집합에서 해당 문서들을 검색한다. 사용자는 이 검색된 문서들로부터 자신이 요구한 정답 문장들을 검색할 수 있으며, 또한 특정한 문서를 선택함으로써 그 문서에 포함된 정답 문장들을 검색할 수 있다. 이를 위해서 개념어와 속성어의 색인 단위로 색인된 정답 문서들은 각각의 문장들로 분할되어 색인된다. 그래서 분할된 문장들은 개념어와 속성어 형태로 분석되어 문서 색인 단위와의 관련 정도를 평가함으로써 정답 문장들의 위치를 색인한다. 마지막으로, 100개의 사용자 질의에 대해 정답 검색 시스템의 성능을 다양한 방법으로 평가한다.

  • PDF