• 제목/요약/키워드: Concept-based Information Retrieval

검색결과 116건 처리시간 0.029초

과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용 (Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval)

  • 최용석;최기선
    • 인지과학
    • /
    • 제14권1호
    • /
    • pp.29-40
    • /
    • 2003
  • 교차언어 정보검색은 다국어 정보검색의 일부분으로 질의어에서 사용하는 언어와 검색대상인 문서의 언어가 서로 다른 경우의 정보검색을 의미한다. 교차언어 정보검색의 성능 향상을 위해서는 양질의 언어자원이 대량으로 필요한 경우가 많기 때문에 이를 해결하기 쉽지 않다. 본 논문에서는 사전에 기반한 대역어 후보 선정 시, 가중치를 부여해 질의어를 변환하는 방식을 제안한다. 가중치 계산에 이용되는 의미거리는 영어 명사와 한국어 명사를 같은 벡터 공간에 표현하고, 두 벡터간의 관계를 이용해 거리를 계산한다. 서로 다른 두 언어의 명사를 한 공간에 표현하기 위해 "공통 기반축"의 개념을 제시하고, 구축 방법을 제안한다. 고급 자원인 온톨로지를 확보하지 않고, 제안하는 방법으로 우수한 정보검색 결과를 얻을 수 있다는 것을 실험을 통해 보여준다.을 통해 보여준다.

  • PDF

시소러스 통합을 위한 개념기반 패싯 프레임워크 구축 (Construction of the Concept-Based Faceted Framework for Thesaurus Integration)

  • 이승민
    • 한국도서관정보학회지
    • /
    • 제41권3호
    • /
    • pp.269-290
    • /
    • 2010
  • 각각의 시소러스가 지닌 고유한 특성 및 상이한 구축목적으로 인해서, 하나의 시소러스를 이용하여 특정 도메인의 정보를 조직하고 검색하는데 여러 가지 문제가 나타나고 있다. 시소러스의 통합은 이러한 문제를 해결하기 위한 한 가지 방법이 될 수 있다. 본 연구에서는 물리학 분야에서 널리 사용되고 있는 시소러스인 PACS와 PIRA를 선정하여 이들 시소러스를 개념적으로 통합할 수 있는 패싯 프레임워크를 구축하였다. 이들 두 시소러스를 연결하기 위해 물리학 분야 전체를 다룰 수 있는 계층구조를 구축하였고, 이 계층구조에 패싯분석을 적용함으로써 각각의 주제 사이의 관계를 설정할 수 있는 하나의 지식기반을 제공하고 있다. 또한, 이 개념기반 패싯 프레임워크를 통해 보다 효율적으로 정보를 조직하고 검색할 수 있는 접근방법을 제안하고 있다.

  • PDF

다중점 적합성 피드백방법을 이용한 영역기반 이미지 유사성 검색 (Region Based Image Similarity Search using Multi-point Relevance Feedback)

  • 김덕환;이주홍;송재원
    • 정보처리학회논문지D
    • /
    • 제13D권7호
    • /
    • pp.857-866
    • /
    • 2006
  • 질의 이미지의 시각적 특징이 사용자의 상위 수준 개념을 잘 표현하지 못하기 때문에 이미지 검색 시스템의 성능은 보통 매우 낮다. 의미적으로 유사한 이미지들이 매우 다른 시각적 특징을 보일 수도 있으며 따라서 여러 개의 군집에 분산될 수 있다. 본 논문에서는 영역기반 이미지 검색과 군집-합병을 이용한 새로운 적합성 피드백 방법을 결합한 내용기반 이미지 검색 방법을 제안한다. 주요 목표는 의미적 차이를 줄이기 위해 의미적으로 관련된 군집들을 찾는 것이다. 제안된 방법은 영역기반 군집 과정과 군집-합병 과정으로 이루어진다. 적합한 이미지들의 모든 분할된 영역들을 의미적으로 관련된 계층적인 군집으로 구성한다. 잠재된 군집의 개수를 결정하고 근접한 군집들을 합병한 후 최종 군집의 대표점들로 다중 질의를 표현한다. 군집-합병 과정에서 군집의 개수를 찾고 고차원에서 특이점 문제를 해결하기 위하여 호텔링의 $T^2$ 대신에 v개의 주성분을 이용하는 $T_v^2$를 적용하였으며 $T^2$의 성능과 $T_v^2$의 성능의 차이가 없음을 보인다. 실험 결과는 제안된 방법이 내용기반 이미지 검색 시스템의 성능을 개선하는 데 효율적임을 보여준다.

WWW상에서의 온라인 정보통신표준 개발 시스템 설계 및 구현 (Design and Implementation of On-line Standards Development System on the World Wide Web)

  • 구경철;김형준;박기식;송기평;조인준;정회경
    • 한국정보통신학회논문지
    • /
    • 제2권4호
    • /
    • pp.559-573
    • /
    • 1998
  • 정보통신 표준화 기구들은 최근 동 분야가 국가 및 시장 경쟁력제고에 있어 전략적 수단으로 부상됨에 따라 더 많은 새롭고 복잡한 표준들을 보다 짧은 시간 내에 개발해야 한다는 문제에 직면하고 있으며, 이러한 문제 의 해결을 위해 이들은 표준개발절차의 많은 부분들을 전자화 시킨 소위 전자적 표준개발시스템 혹은 전자적 문서처리시스템의 구현을 꾀하고 있다. 본 논문에서는 이러한 정보통신분야의 환경변화에 효율적으로 대처하기 위해 국내 표준화 환경 및 표준화 순기(표준(안)연구개발표준(안)제안의견수렴표준화위원회 승인표준(안)확정)에 따른 Workflow기반 표준(안) 개발 환경을 WWW상에서 설계 구현한 표준정보유통망(SICN : Standards Information Cooperation Network) 시스템을 소개한다 구현된 온라인 표준개발 시스템은 기존의 인터라넷(Intranet)기반의 시스템과는 달리 개념적으로 인터넷의 제3물결이라 할 수 있는 엑스트라넷(Extranet) 개념의 Workflow 기반 시스템이라 할 수 있으며, 이는 향후 '가 상 표준 개발망(VSDN : Virtual Standards Development Network)'으로 확장 구현될 예정이다.

  • PDF

온톨로지기반 추론을 이용한 시맨틱 검색 시스템 (Semantic Search System using Ontology-based Inference)

  • 하상범;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권3호
    • /
    • pp.202-214
    • /
    • 2005
  • 시맨틱 웹은 단순한 문서들의 링크가 아닌 문서들의 의미와 관계를 표현하는 웹으로 소프트웨어 에이전트가 이해할 수 있도록 구성되어 있다 본 논문에서 제안하는 검색방식은 온톨로지기반의 추론을 통한 시맨틱 검색방법으로 다음과 같은 특징을 갖는다. 첫째, 검색키워드와 문서의 키워드가 다르더라도 의미적으로 같으면 온톨로지의 추론을 통해 검색이 가능하게 한다. 둘째, 규칙기반의 변환기가 서로 다른 온톨로지의 컨셉을 정확한 매치(exact match)가 아니어도 유사한 컨셉으로 추론할 수 있게 한다. 셋째, 온톨로지가 검색 키워드의 의미를 뚜렷하게 정의할 수 있으므로 단순한 키워드 매칭과 빈도만으로 검색하는 것 보다 정확한 검색이 가능하도록 한다. 넷째, 최적화된 질의문 자동 생성이 도메인 온톨로지를 통해 가능하므로 자연어와 유사한 검색영역과 정확성을 갖게 한다. 다섯째, 에이전트가 단순히 키워드가 포함된 문서만을 찾는 것이 아니라 온톨로지에 표현되어 있는 정보를 토대로 사용자가 원하는 정보와 지식을 자동적으로 찾게 한다. 이러한 방식은 데이타베이스의 질의문을 사용하거나 일반적인 키워드기반의 정보검색 기법을 사용하여 자료를 검색하는 기존의 검색 시스템보다 정화한 검색을 가능하게 한다. 본 논문에서는 온톨로지를 기반으로 추론을 적용한 시맨틱 검색시스템에 대하여 문서검색에 초점을 맞추어 연구 결과를 제안한다.

에이전트 기반의 객체지향 소프트웨어 테스트 도구인 TAS의 구현 및 분석 (Implementation and Analysis of the Agent based Object-Oriented Software Test Tool, TAS)

  • 최정은;최병주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권10호
    • /
    • pp.732-742
    • /
    • 2001
  • 컴퓨터 분야에서 에이전트의 개념의 전자 상거래, 정보 검색과 같은 많은 어플리케이션에 응용되어 중요시되고 있지만, 소프트웨어 테스트 분야에 에이전트의 개념이 적용되는 것은 드문 일이었다. 테스트 에이전트 시트템 (TAS)은 에이전트 개념을 소프트웨어 테스트 분야에 적용한 새로운 도구로, 'User Interface Agent', 'Test Case Selection & Testing Agent'그리고'Regression Test Agent'로 구성되어 있다. 이들 세개의 에이전트들은 각각 지능성을 나타내는 규칙들을 가지고 객체 지향 프로세스를 딸라 자율적으로 테스트를 진행한다. 이 시스템은 두 가지 측면에서 장점을 가지고 있다. 첫째는 자율적으로 테스트 진행시켜 테스터의 간섭을 최소화한다는 것이고 둘째는 지능적으로 중복이 없고 일관성이 있는 효율적인 테스트케이스를 선택하여 테스트 시간을 감소시키면서 오류검출능력은 향상된다는 것이다. 본 논문에서는 사례를 중심으로 실행과정을 기술하여 TAS를 구성하는 세 개의 에이전트들의 자율적인 행동으로 테스트가 진행되는 것을 보여 TAS가 테스트의 간섭을 최소화한다는 것을 보인다. 그리고 4가지유형의 실험을 수행하여 테스트 시간의 단축과 오류 검출 효과향상을 기술한다.

  • PDF

구조적 문서의 효율적인 구조 질의 처리 및 검색을 위한 알고리즘의 설계 (Design of Algorithm for Efficient Retrieve Pure Structure-Based Query Processing and Retrieve in Structured Document)

  • 김현주
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권8호
    • /
    • pp.1089-1098
    • /
    • 2001
  • 구조적 문서가 가지는 구조 정보는 문서로의 다양한 접근경로를 나타내는데 사용될 수 있다. 이러한 구조적 문서가 가지는 구조 정보를 활용하기 위해서는 문서의 구조에 대해서 색인을 해야 한다. 이때 내용색인뿐만 아니라 문서마다 구조정보를 저장하므로 색인에 필요한 공간이 커진다. 그러므로, 색인공간 오버헤드를 최소화시키면서도 엘리먼트간의 포함관계나 순서 등 문서의 순수 구조에 바탕을 둔 순수 구조 질의를 처리할 수 있어야 한다. 본 논문에서는 색인공간 오버헤드를 최소화하면서도 여러 유형의 구조 관련 질의를 효율적으로 처리할 수 있는 구조 색인 구조와 GDIT자료구조를 제시한다. 제안하는 구조 색인 구조는 문서에 존재하는 가장 하위 엘리먼트만을 색인대상으로 하며, 검색엘리먼트가 존재하는 문서개수에 영향을 받지 않는다. 그리고 이 색인구조를 바탕으로 순수 구조에 대한 질의 처리과정을 보이고 색인공간에 대해 그 성능을 평가한다. 제안된 색인 구조는 GDIT개념[2]에 바탕을 두고, GDIT기반의 색인기법을 사용한다.

  • PDF

워드넷을 이용한 문서내에서 단어 사이의 의미적 유사도 측정 (Semantic Similarity Measures Between Words within a Document using WordNet)

  • 강석훈;박종민
    • 한국산학기술학회논문지
    • /
    • 제16권11호
    • /
    • pp.7718-7728
    • /
    • 2015
  • 단어 사이의 의미적 유사성은 많은 분야에 적용 될 수 있다. 예를 들면 컴퓨터 언어학, 인공지능, 정보처리 분야이다. 본 논문에서 우리는 단어 사이의 의미적 유사성을 측정하는 문서 내의 단어 가중치 적용 방법을 제시한다. 이 방법은 워드넷의 간선의 거리와 깊이를 고려한다. 그리고 문서 내의 정보를 기반으로 단어 사이의 의미적 유사성을 구한다. 문서 내의 정보는 단어의 빈도수와 단어의 의미 빈도수를 사용한다. 문서 내에서 단어 마다 단어 빈도수와 의미 빈도수를 통해 각 단어의 가중치를 구한다. 본 방법은 단어 사이의 거리, 깊이, 그리고 문서 내의 단어 가중치 3가지를 혼합한 유사도 측정 방법이다. 실험을 통하여 기존의 다른 방법과 성능을 비교하였다. 그 결과 기존 방법에 대비하여 성능의 향상을 가져왔다. 이를 통해 문서 내에서 단어의 가중치를 문서 마다 구할 수 있다. 단순한 최단거리 기반의 방법들과 깊이를 고려한 기존의 방법들은, 정보에 대한 특성을 제대로 표현하지 못했거나 다른 정보를 제대로 융합하지 못했다. 본 논문에서는 최단거리와 깊이 그리고 문서 내에서 단어의 정보량까지 고려하였고, 성능의 개선을 보였다.

시맨틱웹 기술과 활용방안 (The SemanticWeb Technology and its Applications)

  • 오삼균
    • 정보관리학회지
    • /
    • 제19권4호
    • /
    • pp.298-319
    • /
    • 2002
  • 시맨틱웹은 기계가독형 정의에 기반한 정보의 연계를 통해 웹 자원을 지식화함으로써 정보의 효율적 검색, 통합, 재사용을 도모하는 새로운 기술이다. 시맨틱웹의 구축은 자원에 불변 고유식별자를 부과하는 URI 체제, 각 정보기관에서 생성되는 요소와 속성의 의미 충돌을 방지하는 XML 네임스페이스, 메타데이터 스키마를 활용한 호환적 자원기술을 가능하게 하는 RDF, 메타 데이터 요소 및 이와 연관된 클래스와 속성 관계 정의의 기반이 되는 RDF 스키마, 그리고 RDF 스키마 위에 논리적 추론과 표현력을 강화한 웹 온톨로지 언어 DAML+OIL 및 그 건조자 (constructors)를 삭제 또는 수정 보완한 OWL (Web Ontology Language) 등의 여러 핵심 개념과 기술을 필요로 하는 작업이다. 이 논문은 이러한 개념과 기술의 점진적 발전 양상을 개괄 설명하고, XML/RDF 스키마를 기반으로 메타데이터 요소들을 정의할 경우 도출할 수 있는 상호운용성과 온톨로지의 다양한 활용 방안 등을 고찰한다.

링크드 오픈 데이터에서 TF-IDF를 이용한 새로운 시맨틱 거리 측정 기법 (A New Semantic Distance Measurement Method using TF-IDF in Linked Open Data)

  • 조정길
    • 한국융합학회논문지
    • /
    • 제11권10호
    • /
    • pp.89-96
    • /
    • 2020
  • 링크드 데이터는 다양한 영역의 데이터세트를 서로 연결할 수 있는 표준 방식의 구조화된 데이터를 가능하게 한다. 그리고 링크드 오픈 데이터(LOD)의 급속한 발전에 따라 연구자들은 시맨틱 유사도 평가와 같은 특정 문제를 해결하기 위해 LOD를 이용하고 있다. 이 논문에서는 LOD-기반 추천 시스템에서 사용될 수 있는 자원 간의 링크드 데이터 시맨틱 거리를 계산하기위한 방법을 제안한다. 이 논문에서 제안된 시맨틱 거리 측정 모델은 LOD-기반 시맨틱 거리와 정보 검색 분야에서 잘 알려진 TF-IDF를 이용한 새로운 링크 가중치를 결합한 유사도 측정을 기반으로 한다. 이 논문의 접근방식의 효과성을 검증하기 위하여 DBpedia와 MovieLens의 혼합 데이터를 사용하여 LOD-기반 추천 시스템의 맥락에서 성능을 평가하였다. 실험 결과는 제안된 방법이 다른 유사한 방법과 비교하여 더 높은 정확도를 나타내었다. 또한 시맨틱 거리 계산의 범위를 넓혀서 추천 시스템의 정확도 향상에 기여하였다.