• Title/Summary/Keyword: 표제

Search Result 233, Processing Time 0.022 seconds

Restoring an Elided title for Encyclopedia QA System (백과사전 질의응답을 위한 생략된 표제어 복원에 관한 연구)

  • Lim Soojong;Lee Changi;Jang Myoung-Gil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.541-543
    • /
    • 2005
  • 백과사전에서 정답을 찾기 위해 문장의 구조를 분석하는데 한국어 백과사전은 표제어에 대한 정보를 문장에서 생략한다. 그러나 표제어는 문장에서 주어나 목적어 역할을 하기 때문에 생략된 정보를 복원하지 못 하면 질의에 대한 정답을 제시할 수 없다. 생략된 표제어에 대한 정보를 복원하기 위해서 본 연구에서는 표제어의 의미범주 정보, 격틀, Maximum Entropy 모델을 이용하여 표제어 주어, 표제어 목적어 복원, 미복원 3가지로 인식한다. 표제어 의미범주는 의미 범주에 대해 일정 수준의 복원 성향을 보일 경우 Maximum Entropy 정보를 창조하였고 격틀을 이용하여 복원 여부를 결정한다. 만약 표제어의 의미범주 정보, 격틀을 이용하여도 복원 여부를 결정하지 못할 경우에는 Maximum Entropy 모델에 기반한 통계 기법을 적용하여 복원 여부를 결정한다. 그리고 각각 방법의 단점을 보완하기 위해서 규칙에 해당하는 표제어 의미범주 정보와 격틀 정보에는 통계 모델인 ME 모델을 보완하여 사용한다.

  • PDF

Document Clustering Using Reference Titles (인용문헌 표제를 이용한 문헌 클러스터링에 관한 연구)

  • Choi, Sang-Hee
    • Journal of the Korean Society for information Management
    • /
    • v.27 no.2
    • /
    • pp.241-252
    • /
    • 2010
  • Titles have been regarded as having effective clustering features, but they sometimes fail to represent the topic of a document and result in poorly generated document clusters. This study aims to improve the performance of document clustering with titles by suggesting titles in the citation bibliography as a clustering feature. Titles of original literature, titles in the citation bibliography, and an aggregation of both titles were adapted to measure the performance of clustering. Each feature was combined with three hierarchical clustering methods, within group average linkage, complete linkage, and Ward's method in the clustering experiment. The best practice case of this experiment was clustering document with features from both titles by within-groups average method.

A Study on the Proposal of Guideline for Uniform Title of Legal Works (법률저작의 통일표제 작성지침 제안을 위한 연구)

  • Eun-Ju Lee
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.58 no.1
    • /
    • pp.329-349
    • /
    • 2024
  • This study aims to propose guideline for uniform title of legal works. To achieve this objective, this study (1) reviewed the uniform title and authority access points of legal works targeting RDA, NCR, KCR2 and KCR5, (2) analyzed the actual application methods by investigating the guideline and bibliographic data for uniform title for legal works targeting LC, DNB, and university libraries, (3) examined the scope of application of uniform title in the bibliographic data of the National Library of Korea and suggested points to consider when developing guidelines for uniform title. Based on this, (4) a draft guideline for creating uniform title for legal works was formulated. The draft was revised after review by a librarian and consultation with experts, and then the final draft was proposed. The data were obtained through literature reviews and case studies, and additional data were obtained through e-mail interviews and expert advice.

Restoring Encyclopedia Title Words Using a Zero Anaphora Resolution Technique (무형대용어 해결 기술을 이용한 백과사전 표제어 복원)

  • Hwang, Min-Kook;Kim, Young-Tae;Ra, Dongyul;Lim, Soojong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.65-69
    • /
    • 2014
  • 한국어 문장의 경우 문맥상 추론이 가능하다면 용언의 격이 생략되는 현상 즉 무형대용어 (zero anaphora) 현상이 흔히 발생한다. 무형대용어를 채울 수 있는 선행어 (명사구)를 찾는 문제는 대용어 해결 (anaphora resolution) 문제와 같은 성격의 문제이다. 이러한 생략현상은 백과사전이나 위키피디아 등 백과사전류 문서에서도 자주 발생한다. 특히 선행어로 표제어가 가능한 경우 무형대용어 현상이 빈번히 발생한다. 백과사전류 문서는 질의응답 (QA) 시스템의 정답 추출 정보원으로 많이 이용되는데 생략된 표제어의 복원이 없다면 유용한 정보를 제공하기 어렵다. 본 논문에서는 생략된 표제어 복원을 위해 무형대용어의 해결을 기반으로 하는 시스템을 제안한다.

  • PDF

Morphological Processing in an Expanded Dictionary Environment (확장 사전 환경에서의 한국어 형태소 해석과 생성)

  • Cho, Young-Hwan;Cha, Hee-Joon;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.355-368
    • /
    • 1993
  • 형태소 처리의 기본 원칙은 사전의 표제어를 형태소 수준으로 함으로써 사전의 크기를 줄이고, 중복되는 정보의 양을 최소화하는 것이다. 본 논문에서는 형태소 처리를 위한 여러 환경 요소들 중에서 특별히 확장된 사전 표제어를 기본으로 하는 환경을 제안한다. 확장 사전 환경은 어휘에 대한 사전 표제어와 사전 정보의 분리를 기본으로 한다. 기본 사전 표제어에 대하여 어휘의 활용형을 사전 작성의 후처리인 사전 표제어에 대한 색인구조 구성시에 자동으로 확장함으로써 용언의 불규칙 활용과 음운 축약 현상에 대처한다. 확장 사전 환경의 장점은 형태소 해석과 생성시에 필요한 불규칙 활용에 대한 처리를 사전 확장 시간으로 앞당기고, 어절의 부분문자열과 사전 표제어간의 직접 대응성을 제공하여 여러 응용에 쉽게 적용이 가능하다는 것이다.

  • PDF

Pronunciation Dictionary For Continuous Speech Recognition (한국어 연속음성인식을 위한 발음사전 구축)

  • 이경님;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.197-199
    • /
    • 2000
  • 연속음성인식을 수행하기 위해서는 발음사전과 언어모델이 필요하다. 이 둘 사이에는 디코딩 단위가 일치하여야 하므로 발음사전 구축시 디코딩 단위로 표제어 단위를 선정하며 표제어 사이의 음운변화 현상을 반영한 발음사전을 구축하여야 한다. 한국어에 부합하는 음운변화현상을 분석하여 학습용 자동 발음열을 생성하고, 이를 통하여 발음사전을 구축한다. 전처리 단계로 기호, 단위, 숫자 등 전처리 과정 및 형태소 분석 과정을 수행하며, 디코딩 단위인 의사 형태소 단위를 생성하기 위해 규칙을 이용한 태깅 과정을 거친다. 이를 통해 나온 결과를 발음열 생성기 입력으로 하며, 결과는 학습용 발음열 또는 발음사전 구성을 위한 형태로 출력한다. 표제어간 음운변화 현상이 반영된 상태의 표제어 단위이므로 실제 음운변화가 반영되지 않은 상태의 표제어와는 그 형태가 상이하다. 이는 연속 발음시 생기는 현상으로 실제 인식에는 이 음운변화 현상이 반영된 사전이 필요하게 된다. 생성된 발음사전의 효용성을 확인하기 위해 다음과 같은 실험을 통해 성능을 평가하였다. 음향학습을 위하여 PBS(Phonetically Balanced Sentence) 낭독체 17200문장을 녹음하고 그 전사파일을 사용하여 학습을 수행하였고, 발음사전의 평가를 위하여 이 중 각각 3100문장을 사용하여 다음과 같은 실험을 수행하였다. 형태소 태그정보를 이용하여 표제어간 음운변화 현상을 반영한 최적의 발음사전과 다중 발음사전, 언어학적 기준에 의한 수작업으로 생성한 표준 발음사전, 그리고 표제어간의 음운변화 현상을 고려하지 않고 독립된 단어로 생성한 발음사전과의 비교 실험을 수행하였다. 실험결과 표제어간 음운변화 현상을 반영하지 않은 경우 단어 인식률이 43.21%인 반면 표제어간 음운변화 현상을 반영한 1-Best 사전의 경우 48.99%, Multi 사전의 경우 50.19%로 인식률이 5~6%정도 향상되었음을 볼 수 있었고, 수작업에 의한 표준발음사전의 단어 인식률 45.90% 보다도 약 3~4% 좋은 성능을 보였다.

  • PDF

A Study on Constructing Preferred Titles and Authorized Access Points for Religious Works (종교저작의 우선표제 및 전거형접근점 적용 방안)

  • Jee-Hyun Rho
    • Journal of Korean Library and Information Science Society
    • /
    • v.54 no.4
    • /
    • pp.105-122
    • /
    • 2023
  • This study aims to explore preferred title and authorized access points for religious works with sample bibliographic data and authority data. To this end, this study (1) reviewed RDA and recently revised KCR as cataloging rules, (2) investigated the preferred titles and authorized access points of religious works in major national libraries as a case study, and finally (3) suggested a method for constructing preferred titles and authorized access points for religious works in Korean libraries using sample data. The data needed for the study were collected through literature research and case studies, and additional email inquiry with the catalog librarians was conducted. As a result of the study, preferred titles and authorized access points for religious works were proposed in the form of KORMARC bibliographic and authority data.

A Study on the Considerations in Developing Guidelines for Recording Preferred Title of Music Works (음악저작 우선표제 기술 지침 개발시 고려사항에 관한 연구)

  • Mihwa Lee
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.58 no.1
    • /
    • pp.373-393
    • /
    • 2024
  • This study aims to propose the considerations for developing the guidelines for recording a preferred title in musical works by analyzing the RDA rules and guidelines of several national libraries. First, RDA rules were analyzed, and the primary rules for consideration were examined by reviewing RDA application guidelines from eight national libraries that have developed their own guidelines for alternatives and options of RDA rules. Then, by analyzing the contents of each guideline, including MLA, LC-PCC, and DACH, practical considerations was to provide. First, the original language title should be adopted in the selection of preferred title, but if the title in the original language is not suitable for domestic users, the title in other languages should be used. Second, the preferred title was examined in aspects of works with one part, works with more than one part, the complete works of one author, the compilation of a specific type of composition, the incomplete compilation, and the compilation of several composers. Third, medium of performance, numeric numbers, key, and other identifying characteristics were presented as additional factors for consideration in the recording. Fourth, it is necessary to designate or present a control vocabularies for the types of compositions and the medium of performance. This study suggests considerations in developing guidelines for recording the preferred title for RDA musical works, and it will be possible to contribute to the development of rules related to preferred titles for musical works and guidelines for recording the preferred title for musical works in libraries.

A Study on the Entry Description Format of Glossaries (전문용어사전 표제어 기술형식에 대한 연구)

  • 강정미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1999.08a
    • /
    • pp.39-42
    • /
    • 1999
  • 우리나라에서 학문분야별로 출판된 전문용어사전의 표제어 기술형식은 매우 상이하다. 이러한 특징은 여러 분야의 전문용어사전을 참조해야 하는 이용자에게 많은 불편을 초래할 뿐만 아니라 표준화된 전자사전에 대한 요구를 충족시키지도 어렵다. 본 연구에서는 전자사전 표준화의 일환인 전문용어사전의 표제어 기술형식 표준화를 위한 기초작업의 일부로서 현재까지 우리나라기서 출판된 전문 용어사전을 대상으로 표제어의 기술형식에 대하여 기술요소, 기술요소의 순서, 띄어쓰기, 다의성을 갖는 용어의 구분, 배열 등에 대하여 조사 분석하였다.

  • PDF

A method for similar-word retrival based on BTI dictionary indexing mechanism (BTI 사전 색인을 이용한 유사단어 검색)

  • 정연수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.291-296
    • /
    • 1994
  • 유사단어의 추정에 있어서 사전 검색에 드는 비용, 즉 사전탐색 횟수는 효율성의 문제와 직결된다. 본 논문에서는 BTI 사전 색인을 이용하여 한 글자의 변형요소가 있는 유사단어들을 효율적으로 거색하는 방법을 제안한다. BTI 방식은 정방향, 역방향 표제어를 모두 저장하는 방법이다. BTI 방식으로 사전 표제어를 색인하여 표제어에 대한 사전 탐색 도중에 사전에 존재하는 prefix와 postifix를 모두 검색할 수 있다. 이러한 정보를 이용하면 유사 단어에 대한 정확한 변형 위치를 결정할 수 있다. BTI 사전 색인은 사전 표제어에 대한 정보없이 유사단어를 추정한 후에 사전 검색을 통하여 확인하는 방법보다 사전 검색에 드는 비용이 적다. 추가적으로 유사단어 후보들에 대한 우선 순위를 정하기 위하여 corpus에서 추출한 각 표제어의 발견 빈도를 이용하였다.

  • PDF