• 제목/요약/키워드: 색인화

검색결과 272건 처리시간 0.022초

관계형 데이터베이스 기반 색인을 이용한 XML 테이터의 저장 기법 (Ordered Indexing Technique for Storing XML Data Using Relational Databases)

  • 손대준;정병수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.205-207
    • /
    • 2004
  • 인터넷의 급속한 발전으로 인해 다양한 종류의 데이터들이 증가하게 되었으며 이러한 데이터의 표현과 데이터 교환을 위해 XML이 사실상의 표준으로 빠르게 자리 잡아 가고 있다. XML문서를 데이터로 저장 시 오랜 기간에 걸쳐서 성숙된 RDBMS를 사용하여 XML데이터를 RDBMS로 저장 시 발생할 수 있는 단편화 방지와 XML질의의 효과적인 질의 처리에 대한 많은 연구들이 제안되었다. 본 논문에서는 XML 문서를 관계형 데이터베이스 스키마로 저장 시 발생할 수 XML문서내의 엘리먼트의 관계에 대한 정보를 저장하기 위해서 추가적으로 발생하는 정보의 수를 줄이고 엘리먼트간의 관계를 효과적으로 저장할 수 있는 방법에 대해서 연구한다.

  • PDF

인권 시소러스 구축에 관한 연구 (A Study on Construction of Human Rights Thesaurus)

  • 심민석;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2004년도 제11회 학술대회 논문집
    • /
    • pp.57-60
    • /
    • 2004
  • 인권 시소러스는 인권 관련 색인어 작성시 특정성 및 일관성을 유지하고, 다양한 이용자 계층의 정보 검색의 효율성을 증진시키고자 하는 일반적인 목적과 함께, 모호하게 사용되고 있는 인권 용어의 개념화를 통해 전문가 뿐 아니라 일반인들도 손쉽게 인권 전문정보에 접근할 수 있는 토대를 마련하고자 하였다. 이를 위해 본 연구에서는 인권 관련어로 유의미하게 사용되는 용어군을 수집한 후 실험대상군을 설정하여 어느 정도의 관련성을 가지는가를 실험한 것이다.

  • PDF

국제학술지(SSCI)에 등재된 논문을 통한 국내 문헌정보학자들의 연구동향 분석 연구 (A Study on the research patterns of domestic library & information professors through analysis of articles covered by SSCI)

  • 최희곤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2000년도 제7회 학술대회 논문집
    • /
    • pp.215-218
    • /
    • 2000
  • 본 연구는 계량서지학적 측정을 통해 국내 문헌정보학자들의 연구동향을 규명하기 위하여, 국제적으로 가장 영향력 있는 사회과학분야 학술지에 대한 대표적인 인용색인 데이터베이스인 SSCI에 게재된 논문을 대상으로 다양한 관점, 즉 저자별, 주제별, 저널별. 출신학교별, 소속대학별, 연도별, 연령별, 핵심전공주제별, 핵심저자별 및 핵심저널별로 분석하였다. 본 연구는 향후 국내 문헌정보학의 국제화 및 이에 따른 연구방향을 제시하는데 유용할 것으로 본다.

  • PDF

자연어처리를 이용한 시소러스 자동생성 (Automatic construction of thesaurus using natural language processing)

  • 남영준;이두영
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1994년도 제1회 학술대회 논문집
    • /
    • pp.89-92
    • /
    • 1994
  • 시소러스를 구축하기 위해서는 해당분야의 심도깊은 이해와 지식이 필요하다. 특히, 디스크립터의 선정과 디스크립터의 관계설정은 시소러스 개발자의 주관적인 판단에 따라 이루어지게 된다. 그러나 디스크립터의 선정은 자동색인분야의 연구로서 어느 정도 객관화가 가능하지만, 디스크립터개념간의 관계설정은 개발자의 주관에 전적으로 의존하게 된다. 본 논문은 자연어처리방법과 문헌내 용어출현빈도를 근거로 기계를 이용한 디스크립터간의 관계 설정방안을 제시하고 그 가능성을 조사하였다.

  • PDF

영역 정보를 이용한 비디오 데이터의 카메라 모션 검출 및 대표 프레임 선택 방법 (Camera Motion Detection and Key-Frame Selection from Region-Based Video Data)

  • 이용현;강행봉;박용진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.315-317
    • /
    • 1998
  • 많은 양의 비디오 데이터가 디지털화 되면서 사용자가 쉽게 자신이 원하는 비디오 데이터를 검색할 수 있는 내용 기반 검색이 필요하게 되었다. 내용 기반 검색을 위해서는 비디오 데이터를 연속된 카메라 모션으로 구성된 셧으로 나누고, 셧의 내용을 대표 할 수 있는 대표 프레임을 찾아야 한다. 대표 프레임은 비디오 데이터의 요약과 색인의 중요한 수단이다. 본 논문에서는 셧의 내용 기반으로 대표 프레임을 찾기 위해서 프레임에 존재하는 영역 정보를 바탕으로 셧의 내용을 알 수 있는 핵심 정보인 카메라 모션을 검출 하고, 이를 기반으로 대표 프레임을 선택하는 방법을 제안한다.

  • PDF

음소단위 코드북간의 확률적 전이 모델을 이용한 한국어 숫자음 인식에 관한 연구 (Isolated Korean Digits Recognition Using Stochasitc Transition Models With Phoneme-based VQ Codebooks)

  • 최환진;오영환
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.149-157
    • /
    • 1993
  • 음성인식을 위해 다양한 방법들이 제안되어 있다. 본 연구에서는 음소단위 각각의 벡터 양자화된 코드북의 색인을 학습하는 HMM을 이용하여 한국어 숫자음을 대상으로 인식 실험을 수행하였다. 실험결과, 기존의 단어단위 HMM과 음소단위로 이루어진 유한상태기계(FSM)구조의 인식기에 비해 높은 인식율을 보였다.

  • PDF

문서 구조 정보에 기반한 웹 페이지 범주화 모델 (A Web Page Categorization Model Based on Document Structural Information)

  • 정성화;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.91-96
    • /
    • 1998
  • 본 논문에서는 주제범주 체계를 이용한 웹 검색이 가지는 장점을 이용 할 수 있도록 인터넷 웹 페이지들을 주제범주 체계에 따라 자동으로 분류하는 모델을 제시한다. 특히 웹 페이지 작성자들의 의도를 범주화에 반영할 수 있는 방법으로 HTML 태그를 이용한다. 즉 웹 페이지의 표현에 있어서 벡터 스페이스 모델에서의 색인어 빈도 가중치에 태그 가중치를 추가 하여 보다 좋은 성능을 얻도록 하였다. 그리고 주제범주를 표현하는데 사용되는 자질의 선정에는 기대상호정보, 상호정보 척도를, 문서간 유사도 비교에는 최근린법을 사용하였다. 전북대에서 정보탐정용으로 분류한 웹 페이지를 대상으로 실험하였으며, 기본 모델 대비 약 7%의 정확도 향상을 얻을 수 있었다.

  • PDF

Hitting Set 문제를 이용한 Next Generation Sequencing Read의 효율적인 처리 (Efficient Processing of Next Generation Sequencing Reads Using Hitting Set Problem)

  • 박태원;김소라;최석문;조환규;이도훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(B)
    • /
    • pp.466-469
    • /
    • 2011
  • 최근에 등장한 Next Generation Sequencing(NGS)은 전통적인 방법에 비해 빠르고 저비용으로 대용량의 시퀀스 데이터를 이용한 차세대 시퀀싱 기술을 말한다. 이렇게 얻은 NGS 데이터를 분석하는 단계 중에서 alignment 단계는 시퀀서에서 얻은 대량의 read를 참조 염기서열에 맵핑하는 단계로 NGS 데이터 분석의 가장 기본이면서 핵심인 단계이다. alignment 도구는 긴 참조 염기서열을 색인화해서 짧은 read를 빠르게 맵핑하는 용도로 사용된다. 현재 많이 사용되고 있는 일반적인 alignment 도구들은 입력데이터에 대한 별도의 전처리 과정이 없으며 나열된 read를 순차적으로 맵핑하는 단순한 구조를 가지고 있다. 본 논문은 NGS 데이터의 특징 중에 특히 read간의 중복성이 존재하고 이를 이용한 read의 효율적 공통부분 서열을 찾는다. 중복이 가능한 read의 공통부분서열과 read의 관계를 그래프 이론의 Hitting Set 문제로 모델링하고 여러 read가 포함하는 공통 부분서열을 사용해서 alignment 단계의 효율을 높일 수 방법을 제안한다.

시맨틱 웹 환경에서 적합한 문장을 제공하는 이야기 쓰기 도우미에 관한 연구 (A Study of Retrieval Model Providing Relevant Sentences in Storytelling on Semantic Web)

  • 이태영
    • 정보관리학회지
    • /
    • 제26권4호
    • /
    • pp.7-34
    • /
    • 2009
  • 이야기 쓰기를 돕는 본문 및 문장 검색시스템의 구축을 위해서 (1) 이야기와 단락 및 문장의 구조를 분석하고 (2) 색인작성과 탐색 질문에 적용되는 언어 추론을 연구하였다. 이야기 쓰기에 필요한 이야기, 단락, 그리고 문장으로 구성된 사항 데이터베이스와 필요한 추론규칙으로 이루어진 지식베이스와 온톨로 지가 고안되었다. 추론의 기초인 실례(實例) 파일들은 시맨틱 웹 환경에서 작동될 마크업 언어 형식으로 만들어졌다. 시맨틱 웹 환경에서 실용적인 시스템이 되려면 단락과 문장을 정확히 대변하는 색인 방법론과 이를 정밀하게 지식베이스화 할 수 있는 마크업 언어의 창조가 필수적이라 사료된다.

PCA에 기반한 압축영역에서의 MPEG Video 검색기법 (PCA-Based MPEG Video Retrieval in Compressed Domain)

  • 이경화;강대성
    • 대한전자공학회논문지SP
    • /
    • 제40권1호
    • /
    • pp.28-33
    • /
    • 2003
  • 본 논문에서는 동영상 압축 부호화에 대한 표준안인 MPEG 기반의 압축 비디오 스트림으로부터 DCT DC 계수를 추출하구 이들로 구성된 DE 영상으로부터 장면 전환 검출을 수행한 후 대표 프레임을 추출한다. 또한 추출된 대표 프레임을 PCA(Principal Component Analysis) 방법을 이용하여 데이터베이스의 색인 정보로 저장한 후 입력된 질의 영상과 가장 유사한 대표 영상들을 검색하는 방법에 대해 제안한다. 즉, 추출된 대표 프레임에 대해 주성분해석 기법을 적용하여 통계적인 특성을 가진 데이터를 특징으로 추출함으로써 코드워드의 수에 따른 코드북을 생성하고 이를 데이터베이스의 색인 정보로 저장한다. 실험 결과 제안된 방법이 검색에 있어 우수한 성능을 나타내고 또한 통계적인 데이터의 특성을 이용하기 때문에 처리 시간과 상당한 양의 메모리 공간을 줄일 수 있음을 확인하였다.