• 제목/요약/키워드: User Vocabulary

검색결과 70건 처리시간 0.02초

분산 생물정보 DB 에 대한 GO 기반의 통합 시맨틱 질의 기법 (Integrated Semantic Querying on Distributed Bioinformatics Databases Based on GO)

  • 박형우;정준원;김형주
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제12권4호
    • /
    • pp.219-228
    • /
    • 2006
  • 최근 여러 생물학 연구 집단들은 연구의 효율 향상을 위해 그들의 연구 결과를 서로 공유하기 위한 노력을 하고 있다. 뿐만 아니라, 공통의 어휘를 이용하여 유전자의 기능을 기술하기 위해 통제된 어휘들로 이루어진 Gene Ontology(GO) 라는 온툴로지를 구축하였다. 하지만 현재까지도 각 연구 집단들의 데이타는 분산되어 있고, 기존의 시스템들은 이처럼 분산된 데이타들에 대한 통합 질의를 지원하지 않고 있을 뿐 아니라, 각 연구 집단의 독자적인 어휘들과 GO 와의 대응 관계에 대한 의미가 명확하게 기술되어 있지 않아 통합 시맨틱 질의가 근본적으로 불가능한 상태이다. 본 논문에서는 대응 관계의 의미를 결정하는 기법과, 통합 시맨틱 질의를 지원하는 인터페이스를 제안하였다. 먼저, 문자열 규칙과 다중도 분석 등을 통해 이러한 대응 관계의 의미를 반자동으로 결정해 주고 이렇게 결정된 대응 관계의 의미를 GO 와 통합하여 통합 온톨로지를 생성해 주는 AutoGOA 시스템을 제안하였다. 또한, 대표적인 메타데이타 기술 모델인 RDF 모델을 이용하여 여러 데이타들을 통합하고 이렇게 생성된 통합 온툴로지를 이용하여 통합 시맨틱 질의를 지원하는 인터페이스인 GOGuide II 를 제안하였다.

VAE를 이용한 의미적 연결 관계 기반 다중 문서 요약 기법 (Multi-Document Summarization Method Based on Semantic Relationship using VAE)

  • 백수진
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.341-347
    • /
    • 2017
  • 많은 양의 문서 데이터가 증가됨에 따라 사용자는 해당 문서를 이해하기 위한 요약된 정보를 필요로 한다. 그러나, 기존 문서 요약 연구 방법들은 지나치게 단순한 통계에 의존함으로써 문장의 모호성 및 의미 있는 문장 생성을 위한 다중 문서 요약 연구가 미흡한 실정이다. 본 논문에서는 의미적 연결 관계에 대한 파악 및 불필요한 정보를 처리하기 위한 전처리 과정을 거치며, 어휘 의미 패턴 정보를 기반으로 VAE를 이용하여 문장 간의 의미적 연결성을 높인 다중 문서 요약 기법을 제안하였다. 문장을 이루고 있는 단어 벡터들을 이용하여, 잠재된 변수로 생성된 압축된 정보와 속성 판별기로부터 학습을 한 후 문장을 재구성함으로써 의미적 연결 처리가 자연스러운 요약문을 생성하였다. 제안된 방법과 다른 문서 요약 방법을 비교했을 시 미세하지만 더 향상된 성능을 나타냈으며, 이는 의미적 문장 생성 및 연결성을 높일 수 있음을 증명하였다. 앞으로, 다양한 속성 설정 값을 가지고 실험하여 의미적 연결 관계를 확장할 수 있는 방법을 연구하고자 한다.

유비쿼터스 환경에서 콘텐츠 적응화를 위한 CC/PP 기반의 유비쿼터스 프로파일 및 운영 아키텍쳐 설계 (A Design of Management Architecture and Ubiquitous Profile Based on CC/PP for Content Adaptation in Ubiquitous Environment)

  • 김경식;이재동
    • 정보처리학회논문지C
    • /
    • 제13C권4호
    • /
    • pp.491-500
    • /
    • 2006
  • 본 논문에서는 유비쿼터스 환경에서 콘텐츠 적응화를 위한 CC/PP 기반의 유비쿼터스 프로파일 및 운영 아키텍쳐를 설계한다. 유비쿼터스 프로파일의 컴포넌트와 속성들은 유비쿼터스 환경에서 콘텐츠 적응화 서비스 시나리오를 기반으로 정의하였다. 유비쿼터스 프로파일 설계 시 유비쿼터스 환경에서 효율적으로 사용하기 위해서 RDF, RDF Schema, CC/PP Structure, 표준 어휘 등의 기법들을 적용하였다. 또한, 유비쿼터스 프로파일의 효율적인 운영을 위해 게이트웨이 중심의 운영 방법, 저장소를 이용한 메타데이터 구성 방법, 동적 구성 방법 등의 아이디어들을 기반으로 운영 아키텍쳐를 제안하고 설계하였다. 제안한 운영 아키텍쳐에 대한 성능 평가 결과 기존의 프로파일 운영 방법 보다 더 효율적이었다. 제안된 유비쿼터스 프로파일 및 운영 아키텍쳐는 유비쿼터스 환경에서 사용자에게 적응화된 콘텐츠를 서비스를 위한 연구의 기반을 마련해 주었다.

Word Embeddings-Based Pseudo Relevance Feedback Using Deep Averaging Networks for Arabic Document Retrieval

  • Farhan, Yasir Hadi;Noah, Shahrul Azman Mohd;Mohd, Masnizah;Atwan, Jaffar
    • Journal of Information Science Theory and Practice
    • /
    • 제9권2호
    • /
    • pp.1-17
    • /
    • 2021
  • Pseudo relevance feedback (PRF) is a powerful query expansion (QE) technique that prepares queries using the top k pseudorelevant documents and choosing expansion elements. Traditional PRF frameworks have robustly handled vocabulary mismatch corresponding to user queries and pertinent documents; nevertheless, expansion elements are chosen, disregarding similarity to the original query's elements. Word embedding (WE) schemes comprise techniques of significant interest concerning QE, that falls within the information retrieval domain. Deep averaging networks (DANs) defines a framework relying on average word presence passed through multiple linear layers. The complete query is understandably represented using the average vector comprising the query terms. The vector may be employed for determining expansion elements pertinent to the entire query. In this study, we suggest a DANs-based technique that augments PRF frameworks by integrating WE similarities to facilitate Arabic information retrieval. The technique is based on the fundamental that the top pseudo-relevant document set is assessed to determine candidate element distribution and select expansion terms appropriately, considering their similarity to the average vector representing the initial query elements. The Word2Vec model is selected for executing the experiments on a standard Arabic TREC 2001/2002 set. The majority of the evaluations indicate that the PRF implementation in the present study offers a significant performance improvement compared to that of the baseline PRF frameworks.

공공 서비스 수출 플랫폼을 위한 온톨로지 모형 (An Ontology Model for Public Service Export Platform)

  • 이광원;박세권;류승완;신동천
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.149-161
    • /
    • 2014
  • 공공 서비스의 수출의 경우 수출 절차와 대상 선정에 따른 다양한 문제가 발생하며, 공공 서비스 수출 플랫폼은 이러한 문제점들을 해결하기 위하여 사용자 중심의 유연하고, 개방형 구조의 디지털 생태계를 조성할 수 있도록 구현되어야 한다. 또한 공공서비스의 수출은 다수의 이해당사자가 참여하고 여러 단계의 과정을 거쳐야 하므로 사용자의 이해 종류와 탐색 컨설팅 협상 계약 등 수출 프로세스 단계별로 맞춤형 플랫폼 서비스 제공이 필수적이다. 이를 위해서 플랫폼 구조는 도메인과 정보의 정의 및 공유는 물론 지식화를 지원할 수 있어야 한다. 본 논문에서는 공공서비스 수출을 지원하는 플랫폼을 위한 온톨로지 모형을 제안한다. 서비스 플랫폼의 핵심 엔진은 시뮬레이터 모듈이며 시뮬레이터 모듈에서는 온톨로지를 사용하여 수출 비즈니스의 여러 컨텍스트들을 파악하고 정의하여 다른 모듈들과 공유하게 된다. 온톨로지는 공유 어휘를 통하여 개념들과 그들 간의 관계를 표현할 수 있으므로 특정 영역에서 구조적인 틀을 개발하기 위한 메타 정보를 구성하는 효과적인 도구로 잘 알려져 있다. 공공서비스 수출 플랫폼을 위한 온톨로지는 서비스, 요구사항, 환경, 기업, 국가 등 5가지 카테고리로 구성되며 각각의 온톨로지는 요구분석과 사례 분석을 통하여 용어를 추출하고 온톨로지의 식별과 개념적 특성을 반영하는 구조로 설계한다. 서비스 온톨로지는 목적효과, 요구조건, 활동, 서비스 분류 등으로 구성되며, 요구사항 온톨로지는 비즈니스, 기술, 제약으로 구성 된다. 환경 온톨로지는 사용자, 요구조건, 활동으로, 기업 온톨로지는 활동, 조직, 전략, 마케팅, 시간으로 구성되며, 국가 온톨로지는 경제, 사회기반시설, 법, 제도, 관습, 인프라, 인구, 위치, 국가전략 등으로 구성된다. 수출 대상 서비스와 국가의 우선순위 리스트가 생성되면 갭(gap) 분석과 매칭 알고리즘 등의 시뮬레이터를 통하여 수출기업과 수출지원 프로그램과의 시스템적 연계가 이루어진다. 제안하는 온톨로지 모형 기반의 공공서비스 수출지원 플랫폼이 구현되면 이해당사자 모두에게 도움이 되며 특히 정보 인프라와 수출경험이 부족한 중소기업에게 상대적으로 더 큰 도움이 될 것이다. 또한 개방형 디지털 생태계를 통하여 이해당사자들이 정보교환, 협업, 신사업 기획 등의 기회를 만들 수 있을 것으로 기대한다.

문서분류를 위한 의미적 주제선정방법 (Semantic Topic Selection Method of Document for Classification)

  • 고광섭;김판구;이창훈;황명권
    • 한국정보통신학회논문지
    • /
    • 제11권1호
    • /
    • pp.163-172
    • /
    • 2007
  • 웹은 전세계 규모의 네트워크로써 문자, 화상, 음성 등의 미디어 정보들을 페이지 단위로 관리되며, 링크를 이용하여 분산된 정보들을 연결하고 있다. 이러한 웹의 지속적인 발전으로 무수한 정보들을 축적하고 있으며, 그 중 텍스트로 구성된 문서들이 주를 이룬다. 사용자는 이렇게 많은 정보들 중에서 자신이 원하는 특정 정보를 찾기 위해 웹을 사용한다. 그래서 웹은 사용자 요구에 적합한 정보를 검색해 주기 위해 계속적인 시도와 많은 연구들로 발전되고 있다. 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등 기존의 방법들은 문서의 의미적인 주제나 특징을 정확하게 처리 할 수 없어 사용자는 재검색을 해야 하는 문제점을 갖는다. 특히, 국내 문서 분류를 위한 연구는 많이 이루어지지 않아 검색에 더욱 어렵다. 이러한 문제점을 보완하기 위해 본 논문에서는 국내문서의 효율적이고 의미적인 분류를 위해 출현 개념의 TF(Term Frequency)와 주변 개념들과의 관계된 정도(RV : Relation Value)를 추출한다. 그리고 추출된 키워드들을 국내 어휘 사전인 U-WIN에 매핑하여 문서의 주제를 선택하고 본문에서 제 시하는 분류방법에 의해 웹 문서를 분류한다. 이는 문서 내 개념들의 관계를 이용하여 문서의 주제를 선정하고 문서의 의미적인 분류를 가능하게 한다.

감성분석 결과와 사용자 만족도와의 관계 -기상청 사례를 중심으로- (Relationship between Result of Sentiment Analysis and User Satisfaction -The case of Korean Meteorological Administration-)

  • 김인겸;김혜민;임병환;이기광
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.393-402
    • /
    • 2016
  • 기상청에서 현재 시행되고 있는 만족도 설문조사의 한계를 보완하기 위해 SNS를 통한 감성분석이 활용될 수 있다. 감성분석은 2011~2014년 동안 '기상청'을 언급한 트위터를 수집하여 나이브 베이즈 방법으로 긍정, 부정, 중립 감성을 분류하였다. 기본적인 나이브 베이즈 방법에 긍정, 부정, 중립의 각 감성에서만 출현한 형태소들로 추가사전을 만들어 감성분석의 정확도를 향상시키는 방법을 제안하였다. 분석결과 기본적인 나이브 베이즈 방법으로 감성을 분류할 경우 약 75%의 정확도로 학습데이터를 재현한데 반해 추가 사전을 적용할 경우 약 97%의 정확성을 보였다. 추가사전을 활용하여 검증자료의 감성을 분류한 결과 약 75%의 분류 정확도를 보였다. 낮은 분류 정확도는 향후 기상 관련의 다양한 키워드를 포함시켜 학습데이터 양을 늘려 감성사전의 질을 높임과 동시에 상시적인 사전의 업데이트를 통해 개선될 수 있을 것이다. 한편, 개별 어휘의 사전적 의미에 기반한 감성분석과 달리 문장의 의미에 기반하여 감성을 분류할 경우 부정적 감성 비율의 증가와 만족도 변화 추이를 설명할 수 있을 것으로 보여 향후 설문조사를 보완할 수 있는 좋은 수단으로 SNS를 통한 감성분석이 활용될 수 있을 것으로 사료된다.

LOD 클라우드에서의 연결정책 기반 동일개체 심층검색 및 정제 시스템 구현 (Implementation of Policy based In-depth Searching for Identical Entities and Cleansing System in LOD Cloud)

  • 김광민;손용락
    • 인터넷정보학회논문지
    • /
    • 제19권3호
    • /
    • pp.67-77
    • /
    • 2018
  • 본 연구에서는 동일연결트리플들을 생성하는 대신 각 LOD마다 연결정책을 수립, 공개하고 검색 시점에서 참조하는 방식으로 개체간의 동일성을 파악하는 방안과 이러한 연결정책을 명세하기 위한 어휘를 제안하였다. 또한, 연졀정책이 운영되는 환경에서 여러 LOD들에 걸친 심층검색이 실질적으로 진행되는 것을 확인하기 위하여 PISC(Policy based In-depth Searching and Cleansing)을 구현하였으며 이를 Github에 공개하였다. LOD 클라우드는 여러 LOD들의 자발적인 참여로 이루어짐에 따라 검색된 개체들의 동일성에 대한 평가가 필요하다. 이에, PISC는 개체간 동일성 평가를 통하여 사용자가 요구한 동일수준 이상의 개체들로 정제된 검색결과를 제공한다. 검색결과로는 RDF로 모델링된 개체별 상세 검색내용과 이에 대한 의미적 구조인 온톨로지를 함께 제공된다. PISC에 대한 실험은 DBpedia의 5개 LOD를 대상으로 진행하였으며 소스와 타겟 RDF 트리플 목적어의 유사도를 0.9 정도로 요구할 경우 검색결과가 적절한 확장률과 포함률을 가지는 것으로 확인하였다. 또한, 연결정책에는 3개 이상의 타겟LOD를 명세할 경우 동일성이 충분히 검증된 개체들을 확보할 수 있는 것으로 확인하였다.

RDA 자원유형의 KCR4 적용에 관한 연구 (A Study on Application of Resource Types of RDA to KCR4)

  • 이미화
    • 정보관리학회지
    • /
    • 제28권3호
    • /
    • pp.103-121
    • /
    • 2011
  • 본 연구는 RDA 자원유형을 KCR4에 적용하기 위한 방안을 모색하기 위한 것이다. KCR4의 GMD는 내용과 용기의 용어가 혼합되어 적합한 용어를 선정하기 어렵고, FRBR 개념모형 구현도 용이하지 않다. SMD도 이용자의 요구에 맞는 최신의 용어가 포함되지 않아 변경이 필요한 실정이다. 기 개발된 RDA 자원유형은 AACR2 GMD의 한계를 극복하기 위해 다양한 용어의 측면을 고려하였고, 앞으로 목록분야에 많은 영향을 줄 수 있다. 따라서 국내 목록환경에 RDA 자원유형의 적용가능성이 모색되어야 할 것이다. 이를 위해 사례조사, 설문조사를 실시하였으며, 사례조사는 국내 대학도서관 한 개 기관을 대상으로 GMD 기술의 전수조사를 실시하여 용어의 변경 및 사서 및 이용자가 원하는 용어의 방향을 파악하였다. 설문조사에서는 국내 대학도서관 사서를 대상으로 자원유형 기술의 현황과 문제점 및 RDA 자원유형 이해정도를 파악하였다. 조사결과 자원유형 용어는 검색과 기술을 위해 구체적이고 이용자가 이해하기 쉬운 용어로 변경이 필요하였다. RDA 적용 테스트에서는 자원유형에 따라 정답률에 차이가 있었다. 조사를 바탕으로 RDA 내용유형에 컴퓨터게임을, 용기유형에 DVD, CD-ROM, Blu-Ray, 컴퓨터파일을 추가하여 KCR4의 자원유형을 제안하였다. 기술방식과 화면출력에서도 RDA의 방식을 제안하였다. 본 연구는 RDA 자원유형의 국내 적용가능성을 모색하여, KCR4 자원유형 개정의 기반을 마련하였다.

IPTV환경에서 온톨로지와 k-medoids기법을 이용한 개인화 시스템 (Personalized Recommendation System for IPTV using Ontology and K-medoids)

  • 윤병대;김종우;조용석;강상길
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.147-161
    • /
    • 2010
  • 최근 방송과 통신의 융합으로 TV에 통신이라는 기술이 접목되면서, TV 시청 형태에 많은 변화를 가져왔다. 이러한 형태의 TV 시청 변화는 서비스 선택의 폭을 넓혀주지만 프로그램을 선택을 위해 많은 시간을 투자해야 한다. 이러한 단점을 개선하기 위해서 본 논문에서는 IPTV환경에서 사용자의 다양한 콘텐츠를 제공하는 방송 환경에서 고객의 시청 정보를 바탕으로 고객 사용정보 온톨로지를 구축하고 그에 따라 고객을 k-medoids 방법을 이용해서 클러스터링 한다. 이를 바탕으로 고객이 선호하는 콘텐츠를 추천 하는 방법을 제안하였다. 실험부분에서 본 제안방법의 우수성을 기존의 방법과 비교하여 보여준다.