• 제목/요약/키워드: Text Databases

검색결과 192건 처리시간 0.027초

An Automatic Tagging System and Environments for Construction of Korean Text Database

  • Lee, Woon-Jae;Choi, Key-Sun;Lim, Yun-Ja;Lee, Yong-Ju;Kwon, Oh-Woog;Kim, Hiong-Geun;Park, Young-Chan
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.1082-1087
    • /
    • 1994
  • A set of text database is indispensable to the probabilistic models for speech recognition, linguistic model, and machine translation. We introduce an environment to canstruct text databases : an automatic tagging system and a set of tools for lexical knowledge acquisition, which provides the facilities of automatic part of speech recognition and guessing.

  • PDF

정보검색 발전사 (The Historical Development of Information Retrieval Systems)

  • 사공철;서경주
    • 정보관리학회지
    • /
    • 제13권2호
    • /
    • pp.19-37
    • /
    • 1996
  • 1950년대에서 1990년대까지의 정보검색 발전사를 연대별로 기술하였다. 1950년대에서는 후조합색인법과 KWIC방식을, 1960년대에서는 오프라인 시스템과 실험용 온라인시스템, 1970년대에서는 온라인시스템, 1980년대에서는 전문데이터베이스 온라인 인터페이스, 해외 데이터베이스의 이용 및 국내 온라인 시스템, 그리고 1990년대에서는 CD-ROM, 멀티미디어 및 하이퍼텍스트, 인터넷 등의 발전에 관하여 각각 기술하고 장래에 관하여 전망하였다.

  • PDF

상용(商用) 데이터베이스 : 요점(要點)과 활용(活用)(3) - 잡지(雜誌).도서(圖書) - (Commercial Databases : The Keypoints and Practical Use(3) - Journal Articles and Books -)

  • 조재호
    • 정보관리연구
    • /
    • 제24권4호
    • /
    • pp.58-77
    • /
    • 1993
  • 잡지(雜誌) 도서(圖書)의 데이터베이스에는 서지정보(書誌情報)의 데이터베이스와 원자료(原資料)의 소재정보(所在情報) 데이터베이스가 있다. 이용자의 최종 목적은 원자료의 입수(入手)에 있으나, 소재정보에는 상용화(商用化)되어 있는 것이 적다는 등의 문제가 있다. 온라인으로 복사가 신청되는 서비스나 전문(全文)의 데이터베이스도 작성되어 있으나, 데이터베이스만으로는 충분한 정보의 수집(蒐集)에 한계가 있다. 본고(本稿)에서는 잡지나 도서의 매체별(媒體別)로 주요한 데이터베이스 서비스와 이용 방법에 관하여 해설하였다. 또한 데이터베이스를 활용한 미래형 정보 센터의 자세에 관해서도 논하였다.

  • PDF

데이터베이스통합이 유용성과 이용자선호도에 미치는 영향 (User Access and Preferences to Full-text Databases When Searching Individual and Integrated Databases)

  • 박소연
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1999년도 제6회 학술대회 논문집
    • /
    • pp.157-162
    • /
    • 1999
  • 본 연구는 분산환경에서 이용자가 다수의 데이터베이스를 개별적으로 검색할 매와 통합적으로 검색할 때에 유용성과 이용자선호도, 이용자 만족도를 비교 분석하였다. 본 연구에는 럿거스대학 School of Communication, Information, and Library Studies에 재학중인 28명의 대학원생들이 참가하였다. 두 시스템에 대한 이용자선호도와 만족도에는 통계적으로 유의한 차이가 있는 것으로 나타났다. 즉, 많은 참가자들이 통합인터페이스보다 분리인터페이스를 선호하였고, 분리인터페이스의 검색결과에 더 만족하였다. 통합인터페이스의 편리함과 능률성에도 불구하고 참가자들이 분리인터페이스를 선호한 주된 이유중의 하나는 데이터베이스를 이용자 스스로 선택하고 통제할 수 있기 때문인 것으로 나타났다.

  • PDF

학회 학술정보시스템 구축에 관한 연구 (A Study on Building Society Research Information System)

  • 조현양;최선희
    • 한국도서관정보학회지
    • /
    • 제30권3호
    • /
    • pp.405-426
    • /
    • 1999
  • Academic societies in the field of science and technology are major producers of domestic research information. These information are very important sources to researchers, students and so on. KORDIC built an integrated information system which facilitates the progress of building databases and promotes users easy access to databases. In order to build efficient society research information system, we investigated former cases and analyzed requirement of each society. We identified principal information sources and built an integrated information service system using internet homepage and information retrieval system(KRISTAL-II). In the future we will expand participating societies and focus on text-based information.

  • PDF

데이터베이스 분산을 통한 소용량 문자-음성 합성 단말기 구현 (Implementation of text to speech terminal system by distributed database)

  • 김영길;박창현;양윤기
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.2431-2434
    • /
    • 2003
  • In this research, our goal is to realize Korean Distribute TTS system with server/client function in wireless network. The speech databases and some routines of TTS system is stuck with the server which has strong functions and we made Korean speech databases and accomplished research about DB which is suitable for distributed TTS. We designed a terminal has the minimum setting which operate this TTS and designed proper protocol so we will check action of Distributed TTS.

  • PDF

분산 멀티미디어 데이터베이스에 대한 수집 융합 알고리즘 (Collection Fusion Algorithm in Distributed Multimedia Databases)

  • 김덕환;이주흥;이석룡;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권3호
    • /
    • pp.406-417
    • /
    • 2001
  • 웹에서의 멀티미디어 데이터베이스가 발달함에 따라 분산 멀티미디어 데이터에 대한 검색 기능의 필요성이 높아지고 있다. 그러나 지금까지는 주로 웹상에 분산된 텍스트 데이터베이스를 선택하고 선택된 텍스트 데이터베이스에 대해소 질의 결과를 결합하는 연구가 이루어졌을 뿐 멀티미디어 데이터베이스에 대해서는 연구가 미진하였다. 웹상의 멀티미디어 데이터베이스는 자율적이고 이질적인 특성을 가지고 있고 주로 내용 기반으로 검색된다. 멀티미디어 데이터베이스에서의 수집 융합 문제는 웹상의 이질적인 멀티미디어 데이터베이스에서 내용 기반 검색으로 검색된 경과를 병합하는 것을 다룬다. 이 문제는 분산 멀티미디어 데이터베이스의 검색에 매우 중요하지만 아직까지 연구된 바가 없다. 본 논문은 웹상에서 이질적인 멀티미디어 데이터베이스의 수집 융합을 처리하는 새로운 알고리즘을 제안한다. 본 논문은 데이터베이스에서 검색할 객체의 개수를 추정하는 휴리스틱 방법과 선형 회귀분석을 이용한 알고리즘을 사용한다. 그리고 실험에 의해서 이 알고리즘들의 효율성을 보였다. 이 알고리즘들은 향후 웹상의 멀티미디어 데이터베이스들에 대한 분산 내용 기반 검색 알고리즘들의 기본이 될 수 있다.

  • PDF

전문데이터베이스의 탐색특성에 관한 연구 - 주제전문가와 탐색전문가 - (A Study of the Behaviours in Searching Full-Text Databases- Subject Specialists vs. Professional Searchers -)

  • 이응봉
    • 한국문헌정보학회지
    • /
    • 제30권2호
    • /
    • pp.51-86
    • /
    • 1996
  • 본 연구는 전문데이터베이스의 탐색에 있어서 주제전문가와 탐색전문가는 어떠한 특징적인 차이가 있는지를 밝히려 하였다. 이 연구를 통하여 얻어진 결론을 요약하면, 주제전문가와 탐색전문가는 전문데이터베이스의 탐색에, 있어서 탐색질문의 분석(탐색질문의 이해도. 탐색어 선정의 난이도, 탐색결과에 대한 기대수준), 탐색과정(탐색어수, 연산자 순 브라우징 문헌 순 접속시긴 출력문헌 건당 소요시긴 적합문헌 건당 소요시간), 탐색결과 (적합문헌수 재현율 정확율, 총 탐색비용 출력문헌 건당 소요비용, 적합문헌 건당 소요비용, 탐색결과에 대한 만족도)에 대하여 뚜렷한 차이를 나타내는 것으로 밝혀졌다.

  • PDF

다차원 텍스트 큐브를 이용한 호텔 리뷰 데이터의 다차원 키워드 검색 및 분석 (Multi-Dimensional Keyword Search and Analysis of Hotel Review Data Using Multi-Dimensional Text Cubes)

  • 김남수;이수안;조선화;김진호
    • 정보화연구
    • /
    • 제11권1호
    • /
    • pp.63-73
    • /
    • 2014
  • 웹의 발달로 텍스트 등으로 이루어진 비정형 데이터의 활용에 대한 관심이 높아지고 있다. 웹상에서 사용자들이 작성한 대부분의 비정형 데이터는 사용자의 주관이 담겨져 있어 이를 적절히 분석할 경우 사용자의 취향이나 주관적인 관점 등의 아주 유용한 정보를 얻을 수 있다. 이 논문에서는 이러한 비정형 텍스트 문서를 다양한 차원으로 분석하기 하는데 OLAP(온라인 분석 처리)의 다차원 데이터 큐브 기술을 활용한다. 다차원 데이터 큐브는 간단한 문자나 숫자 형태의 정형적인 데이터에 대해 다차원 분석하는데 널리 사용되었지만, 텍스트 문장으로 이루어진 비정형 데이터에 대해서는 활용되지 않았다. 이러한 텍스트 데이터베이스에 포함된 정보를 다차원으로 분석하기 위한 방법으로 텍스트 큐브 모델이 최근에 제안되었는데, 이 텍스트 큐브는 정보 검색에서 널리 사용하는 용어 빈도수(Term Frequency)와 역 인덱스(Inverted Index)를 측정값으로 이용하여 텍스트 데이터베이스에 대한 다차원 분석을 지원한다. 이 논문에서는 이러한 다차원 텍스트 큐브를 활용하여 실제 서비스되고 있는 호텔 정보 공유 사이트의 리뷰 데이터 분석에 활용하였다. 이를 위해 호텔 리뷰 데이터에 대한 다차원 텍스트 큐브를 생성하였으며, 이를 이용하여 다차원 키워드 검색 기능을 제공하여 사용자 중심의 의미있는 정보 검색이 가능한 시스템을 설계 및 구현하였다. 또한, 본 논문에서 제안하는 시스템에 대해 다양한 실험을 수행하였으며 이를 통해 제안된 시스템의 실효성을 검증하였다.

Currents in Integrative Biochip Informatics

  • Kim, Ju-Han
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.1-9
    • /
    • 2001
  • scale genomic and postgenomic data means that many of the challenges in biomedical research are now challenges in computational sciences and information technology. The informatics revolutions both in clinical informatics and bioinformatics will change the current paradigm of biomedical sciences and practice of clinical medicine, including diagnostics, therapeutics, and prognostics. Postgenome informatics, powered by high throughput technologies and genomic-scale databases, is likely to transform our biomedical understanding forever much the same way that biochemistry did a generation ago. In this talk, 1 will describe how these technologies will in pact biomedical research and clinical care, emphasizing recent advances in biochip-based functional genomics. Basic data preprocessing with normalization and filtering, primary pattern analysis, and machine teaming algorithms will be presented. Issues of integrated biochip informatics technologies including multivariate data projection, gene-metabolic pathway mapping, automated biomolecular annotation, text mining of factual and literature databases, and integrated management of biomolecular databases will be discussed. Each step will be given with real examples from ongoing research activities in the context of clinical relevance. Issues of linking molecular genotype and clinical phenotype information will be discussed.

  • PDF