• Title/Summary/Keyword: machine-readable

Search Result 84, Processing Time 0.026 seconds

Selection of Korean General Vocabulary for Machine Readable Dictionaries (자연언어처리용 전자사전을 위한 한국어 기본어휘 선정)

  • 배희숙;이주호;시정곤;최기선
    • Language and Information
    • /
    • v.7 no.1
    • /
    • pp.41-54
    • /
    • 2003
  • According to Jeong Ho-seong (1999), Koreans use an average of only 20% of the 508,771 entries of the Korean standard unabridged dictionary. To establish MRD for natural language processing, it is necessary to select Korean lexical units that are used frequently and are considered as basic words. In this study, this selection process is done semi-automatically using the KAIST large corpus. Among about 220,000 morphemes extracted from the corpus of 40,000,000 eojeols, 50,637 morphemes (54,797 senses) are selected. In addition, the coverage of these morphemes in various texts is examined with two sub-corpora of different styles. The total coverage is 91.21 % in formal style and 93.24% in informal style. The coverage of 6,130 first degree morphemes is 73.64% and 81.45%, respectively.

  • PDF

Dublin Core-based Union Cataloging System for Journal Articles (더블린 코아 기반 학술지논문 종합목록 시스템)

  • 이해민;채진석;최한석;김성혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.380-382
    • /
    • 1998
  • 학술연구를 수행하는데 도움이 되는 중요한 정보 중의 하나는 학술연구자가 연구 중인 분야의 최신 논문에 대한 원문 정보와 이 논문이 실려 있는 학술지의 소장 정보라고 할 수 있다. 이러한 정보를 효과적으로 학술 연구자에게 제공하기 위해 첨단학술정보센터(Korea Research Information Center: KRIC)에서는 전문학술정보센터(Special Research Information Center: SRIC)로 지정된 대학도서관에서 구독하는 학술지에 게재된 논문에 대한 목록 데이터를 통합하는 학술지논문 종합목록 시스템을 구축 중이다. 이 시스템에서는 기존의 대학도서관에서 사용하고 있는 목록기술규칙인 MAEX(MAchine Readable Cataloging)대신 인터넷 기반의 디지털 도서관에 적합한 형태를 가지는 더블린 코아를 새로운 목록기술규칙으로 채택하였다. 이러한 더블린 코아를 사용하게 되면 목록자는 전문적인 교육 없이도 간편하게 새로운 목록을 작성할 수 있다. 학술지논문 종합목록이 구축되면 학술연구자들은 원하는 논문이 검색된 경우, 원문이 구축되어 있으면 인터넷을 통해 곧바로 원문을 볼 수 있고, 원문이 구축되어 있지 않다면 복사/팩스 서비스 시스템을 통해 원문을 제공받을 수 있게 된다.

MARC의 이해:서지용을 중심으로

  • O, Dong-Geun
    • KLA journal
    • /
    • v.42 no.2 s.327
    • /
    • pp.4-20
    • /
    • 2001
  • 이 글은 미국의회도서관에서 발행한 Understanding MARC Bibliographic: Machine-Readable Cataloging의 온라인 버전 최신판(제5판)을 미국의회도서관의 공식적인 번역 허락을 얻어 그 제1편을 한국어로 완역한 것이다. 이 글은 원래 Betty Furrie가 The Follett Software Company의 Data Base Development Department와의 협력으로 작성한 것이다. 제5판은 미국의회도서관의 Network Development and MARC Standards Office의 검토와 편집을 거쳐, The Follett Software Company의 협력으로, Cataloging Distribution Service에 의해 발행되었다. LCMARC과 USMARC을 거쳐, 새로이 태어난 MARC 21의 최신 내용을 알기 쉽게 정리하고 있어, MARC에 대한 기본적인 이해에 많은 도움이 될 것이다. 아울러 MARC에 관련된 업무는 물론 일반 편목 업무의 적지 않은 관례들이 왜곡되어 있는 측면이 없지 않은 한국 도서관계의 현실에서는 우리가 나아가야 할 방향을 다시 한번 생각해 볼 수 있는 좋은 기회를 제공해 주는 유익한 자료가 될 수 있을 것이다.

  • PDF

Describing a MachineReadable Electronic Dictionary using LEXml (LEXml을 이용한 기계가독형 전자사전의 표식)

  • Jeong, Hwi-Woong;Yoon, Ae-Sun
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.103-109
    • /
    • 2006
  • XML(extensible Markup Language)이 1996년 등장한 이후, 기존의 정보를 XML 기반으로 나타내기 위한 연구가 활발하게 이루어지고 있다. 언어자원(language Resource)과 관련된 분야는 80년대부터 그 연구가 있었으나, XML의 등장 이후, 보다 다양하고 특화된 영역의 정보를 구조화하기 위한 연구결과가 최근 소개되기 시작하였다. 본 연구에서는 이러한 분야 중 전자사전을 표식(markup)하는 XML기반 표준언어인 LEXml(Presentation/Representation of Entries in Dictionaries: LEXml)에 대하여 살펴보고, 기존에 XML로 구축된 전자사전을 LEXml로 변환하여, 그 구조의 확장성과 유효성을 검증할 것이다. 기반자료로써 2000년도에 구축된 MultiDICO의 불어 정보를 이용하였다. 이를 위해 MultiDICO의 XML문서 구조와 LEXml 구조 사이의 각 요소(element)별 대응표를 만들었으며, 이를 바탕으로 XSL(Extensible Style sheet Language)를 작성하였다. 본 연구결과 LEXml이 기존에 구축된 전자사전들을 표식하는데 어려움이 없을 뿐만 아니라, 기계가독성을 높일 수 있는 구조적 유연성이 매우 높은 것을 확인할 수 있었다.

  • PDF

A Study on the Improvement of KCR and KDRMARC for the Cataloging Electronic Resources (전자자료의 목록을 위한 KCR 및 KORMARC의 개선 방안 연구)

  • 이창수
    • Journal of Korean Library and Information Science Society
    • /
    • v.32 no.2
    • /
    • pp.213-237
    • /
    • 2001
  • This paper aims to improve the KCR and KORMARC for the cataloging electronic resources. In this study, therefore, at first the characteristics and kinds of electronic resources were examined as the backgrounds. Then the cataloging rules (AACR2R NCR1994, ISBD(ER) and KORMARC Descriptive Rule) and the MARC formats (MARC21, OCLC-MARC and KORMARC) were analyzed. Finally, the improvements of KCR and KORMARC for the cataloging electronic resources were suggested.

  • PDF

A Strategy for Management of Digitization on National Information and Knowledge Resources (국가 지식정보자원의 디지털화 관리를 위한 전략)

  • 서은경;김성혁;오경묵
    • Journal of the Korean Society for information Management
    • /
    • v.17 no.3
    • /
    • pp.213-234
    • /
    • 2000
  • The advancement of information technology allows people to access information and knowledge resources without the limitation of time and location through Internet. Digital age will be created a lots of information and knowledge in digital form, and also converted printed documents in machine readable form. This study is intended to provide a theoretical framework of information and knowledge and their relationship, why and how government have to manage these resources and what problems will be solved for management, and strategies for management such as selection, preservation, distribution etc. in terms of macro level.

  • PDF

'Hanmal' Korean Language Diphone Database for Speech Synthesis

  • Chung, Hyun-Song
    • Speech Sciences
    • /
    • v.12 no.1
    • /
    • pp.55-63
    • /
    • 2005
  • This paper introduces a 'Hanmal' Korean language diphone database for speech synthesis, which has been publicly available since 1999 in the MBROLA web site and never been properly published in a journal. The diphone database is compatible with the MBROLA programme of high-quality multilingual speech synthesis systems. The usefulness of the diphone database is introduced in the paper. The paper also describes the phonetic and phonological structure of the database, showing the process of creating a text corpus. A machine-readable Korean SAMPA convention for the control data input to the MBROLA application is also suggested. Diphone concatenation and prosody manipulation are performed using the MBR-PSOLA algorithm. A set of segment duration models can be applied to the diphone synthesis of Korean.

  • PDF

ULTRAVIOLET AND VISIBLE SPECTROSCOPIC DATABASE FOR ATOMS AND MOLECULES IN CELESTIAL OBJETS

  • Kim, Sang-J.
    • Publications of The Korean Astronomical Society
    • /
    • v.9 no.1
    • /
    • pp.111-166
    • /
    • 1994
  • I have developed a UV and visible spectroscopic database (UVSD) for atoms and molecules, which are found in interstellar medium, stars, galaxies, and in the atmospheres of the earth, planets, satellites, and comets. This UV and visible database, which is machine-readable, consists of three different sub-databases depending upon the characteristics of the sub-databases: (A) atomic and molecular line listings from laboratory observations or theoretical studies; (B) absorption spectra measured in laboratories; and (C) solar UV, visible, and infrared spectral atlases. The UVSD is in a very initial stage of development compared with other well organized and established infrared and microwave databases. In order to make a good quality and complete database, substantial efforts should be made for the acquisition of scattered important data from laboratories or institutions, and then the acquired heterogeneous data should be peer-reviewed and standardized.

  • PDF

Construct ion of Korean Thesaurus Us ing Machine Readable Dictionary (기계가독사전을 이용한 한국어 시소러스 구축)

  • Lee, Ju-Ho;Un, Koaung-Hi;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.273-279
    • /
    • 2001
  • 시소러스는 자연언어처리의 여러 분야에서 이용 가능한 아주 유용한 정보이다. 본 논문에서는 기존의 구축된 시소러스를 기반으로 우리말 큰사전을 이용하여 한국어 명사 시소러스를 반자동으로 구축하는 과정을 소개한다. 우선 코퍼스의 고빈도어를 중심으로 사전에서 추출한 기본명사들의 각 의미에 1차로 의미번호 부착 후 그 결과를 이용하여 사전 정의문으로 각 의미별 클러스터를 구성했다. 그리고, 전단계에서 의미번호를 붙이지 못한 명사의 의미에 대하여 그 정의문과 클러스트들 간의 유사도를 계산하여 가장 유사한 의미번호를 후보로 제시하였다. 마지막으로 사전의 하이퍼링크를 사용하여 아직 의미 번호가 붙지 않는 명사의 의미에 의미번호를 부여했다. 각 단계에서는 사람의 후처리를 통해서 시소러스의 정확도를 높였다.

  • PDF

Word Sense Disambiguation using Meaning Groups (의미그룹을 이용한 단어 중의성 해소)

  • Kim, Eun-Jin;Lee, Soo-Won
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.16 no.6
    • /
    • pp.747-751
    • /
    • 2010
  • This paper proposes the method that increases the accuracy for tagging word meaning by creating sense tagged data automatically using machine readable dictionaries. The concept of meaning group is applied here, where the meaning group for each meaning of a target word consists of neighbor words of the target word. To enhance the tagging accuracy, the notion of concentration is used for the weight of each word in a meaning group. The tagging result in SENSEVAL-2 data shows that accuracy of the proposed method is better than that of existing ones.