• 제목/요약/키워드: 표제

검색결과 233건 처리시간 0.023초

백과사전 질의응답을 위한 생략된 표제어 복원에 관한 연구 (Restoring an Elided title for Encyclopedia QA System)

  • 임수종;이창기;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.541-543
    • /
    • 2005
  • 백과사전에서 정답을 찾기 위해 문장의 구조를 분석하는데 한국어 백과사전은 표제어에 대한 정보를 문장에서 생략한다. 그러나 표제어는 문장에서 주어나 목적어 역할을 하기 때문에 생략된 정보를 복원하지 못 하면 질의에 대한 정답을 제시할 수 없다. 생략된 표제어에 대한 정보를 복원하기 위해서 본 연구에서는 표제어의 의미범주 정보, 격틀, Maximum Entropy 모델을 이용하여 표제어 주어, 표제어 목적어 복원, 미복원 3가지로 인식한다. 표제어 의미범주는 의미 범주에 대해 일정 수준의 복원 성향을 보일 경우 Maximum Entropy 정보를 창조하였고 격틀을 이용하여 복원 여부를 결정한다. 만약 표제어의 의미범주 정보, 격틀을 이용하여도 복원 여부를 결정하지 못할 경우에는 Maximum Entropy 모델에 기반한 통계 기법을 적용하여 복원 여부를 결정한다. 그리고 각각 방법의 단점을 보완하기 위해서 규칙에 해당하는 표제어 의미범주 정보와 격틀 정보에는 통계 모델인 ME 모델을 보완하여 사용한다.

  • PDF

인용문헌 표제를 이용한 문헌 클러스터링에 관한 연구 (Document Clustering Using Reference Titles)

  • 최상희
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.241-252
    • /
    • 2010
  • 본 연구에서는 원문헌의 표제가 문헌클러스터링에서 문헌의 주제를 나타내는데 효과적인 자질로 인식되고 있지만 동의어나 유사어를 포함하여 문헌의 주제를 대표하는데 한계가 있음을 인지하고 인용문헌의 표제로 클러스터링 자질을 확대하는 방안을 제시하였다. 문헌 클러스터링의 자질로 원 문헌의 표제 용어와 인용문헌의 표제 용어, 두 종류의 표제 용어를 혼합하여 적용하여 인용문헌의 표제가 클러스터링 성능을 향상시키는 정도를 측정하였다. 각 자질별로 계층적 클러스터링 기법 3개, within group average linkage, complete linkage, Ward 기법을 결합하여 클러스터를 생성하는 성능을 비교, 분석하였는데 원문헌과 인용문헌 표제어를 혼합하여 within group average linkage 기법으로 클러스터링 한 경우가 가장 좋은 결과를 나타내었다.

법률저작의 통일표제 작성지침 제안을 위한 연구 (A Study on the Proposal of Guideline for Uniform Title of Legal Works)

  • 이은주
    • 한국문헌정보학회지
    • /
    • 제58권1호
    • /
    • pp.329-349
    • /
    • 2024
  • 본 연구는 국내 도서관 현장에 적용가능한 통일된 형식의 우선표제 작성지침 제안을 목적으로 두고, 법률저작에 집중하여 논의를 진행하였다. 이를 위해 이 연구에서는 (1) 국내·외 목록규칙 중 RDA, NCR, KCR2, KCR5 개정안을 대상으로 법률저작의 통일표제 그리고 전거형접근점 규칙을 분석하고, (2) LC, DNB, 북미권 대학도서관을 대상으로 법률저작의 통일표제 입력지침과 입력사례를 조사함으로써 실제 적용되는 방식을 분석한 후, (3) 국립중앙도서관 법률저작의 서지데이터를 임의추출하여 통일표제의 적용범위를 검토해보고 통일표제 작성지침 개발시 고려할 점을 도출하였다. 이를 근거로 (4) 법률저작의 통일표제 작성지침 초안을 도출한 후, 국립중앙도서관 실무진의 검토와 법률 및 통일표제 전문가 자문을 거쳐 최종안을 제안하였다. 논의에 필요한 데이터는 문헌연구와 사례조사를 통해 확보하였으며, 추가적인 데이터는 업무담당자와의 이메일 면담과 전문가 자문을 통해 확보하였다.

무형대용어 해결 기술을 이용한 백과사전 표제어 복원 (Restoring Encyclopedia Title Words Using a Zero Anaphora Resolution Technique)

  • 황민국;김영태;나동열;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.65-69
    • /
    • 2014
  • 한국어 문장의 경우 문맥상 추론이 가능하다면 용언의 격이 생략되는 현상 즉 무형대용어 (zero anaphora) 현상이 흔히 발생한다. 무형대용어를 채울 수 있는 선행어 (명사구)를 찾는 문제는 대용어 해결 (anaphora resolution) 문제와 같은 성격의 문제이다. 이러한 생략현상은 백과사전이나 위키피디아 등 백과사전류 문서에서도 자주 발생한다. 특히 선행어로 표제어가 가능한 경우 무형대용어 현상이 빈번히 발생한다. 백과사전류 문서는 질의응답 (QA) 시스템의 정답 추출 정보원으로 많이 이용되는데 생략된 표제어의 복원이 없다면 유용한 정보를 제공하기 어렵다. 본 논문에서는 생략된 표제어 복원을 위해 무형대용어의 해결을 기반으로 하는 시스템을 제안한다.

  • PDF

확장 사전 환경에서의 한국어 형태소 해석과 생성 (Morphological Processing in an Expanded Dictionary Environment)

  • 조영환;차희준;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.355-368
    • /
    • 1993
  • 형태소 처리의 기본 원칙은 사전의 표제어를 형태소 수준으로 함으로써 사전의 크기를 줄이고, 중복되는 정보의 양을 최소화하는 것이다. 본 논문에서는 형태소 처리를 위한 여러 환경 요소들 중에서 특별히 확장된 사전 표제어를 기본으로 하는 환경을 제안한다. 확장 사전 환경은 어휘에 대한 사전 표제어와 사전 정보의 분리를 기본으로 한다. 기본 사전 표제어에 대하여 어휘의 활용형을 사전 작성의 후처리인 사전 표제어에 대한 색인구조 구성시에 자동으로 확장함으로써 용언의 불규칙 활용과 음운 축약 현상에 대처한다. 확장 사전 환경의 장점은 형태소 해석과 생성시에 필요한 불규칙 활용에 대한 처리를 사전 확장 시간으로 앞당기고, 어절의 부분문자열과 사전 표제어간의 직접 대응성을 제공하여 여러 응용에 쉽게 적용이 가능하다는 것이다.

  • PDF

한국어 연속음성인식을 위한 발음사전 구축 (Pronunciation Dictionary For Continuous Speech Recognition)

  • 이경님;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.197-199
    • /
    • 2000
  • 연속음성인식을 수행하기 위해서는 발음사전과 언어모델이 필요하다. 이 둘 사이에는 디코딩 단위가 일치하여야 하므로 발음사전 구축시 디코딩 단위로 표제어 단위를 선정하며 표제어 사이의 음운변화 현상을 반영한 발음사전을 구축하여야 한다. 한국어에 부합하는 음운변화현상을 분석하여 학습용 자동 발음열을 생성하고, 이를 통하여 발음사전을 구축한다. 전처리 단계로 기호, 단위, 숫자 등 전처리 과정 및 형태소 분석 과정을 수행하며, 디코딩 단위인 의사 형태소 단위를 생성하기 위해 규칙을 이용한 태깅 과정을 거친다. 이를 통해 나온 결과를 발음열 생성기 입력으로 하며, 결과는 학습용 발음열 또는 발음사전 구성을 위한 형태로 출력한다. 표제어간 음운변화 현상이 반영된 상태의 표제어 단위이므로 실제 음운변화가 반영되지 않은 상태의 표제어와는 그 형태가 상이하다. 이는 연속 발음시 생기는 현상으로 실제 인식에는 이 음운변화 현상이 반영된 사전이 필요하게 된다. 생성된 발음사전의 효용성을 확인하기 위해 다음과 같은 실험을 통해 성능을 평가하였다. 음향학습을 위하여 PBS(Phonetically Balanced Sentence) 낭독체 17200문장을 녹음하고 그 전사파일을 사용하여 학습을 수행하였고, 발음사전의 평가를 위하여 이 중 각각 3100문장을 사용하여 다음과 같은 실험을 수행하였다. 형태소 태그정보를 이용하여 표제어간 음운변화 현상을 반영한 최적의 발음사전과 다중 발음사전, 언어학적 기준에 의한 수작업으로 생성한 표준 발음사전, 그리고 표제어간의 음운변화 현상을 고려하지 않고 독립된 단어로 생성한 발음사전과의 비교 실험을 수행하였다. 실험결과 표제어간 음운변화 현상을 반영하지 않은 경우 단어 인식률이 43.21%인 반면 표제어간 음운변화 현상을 반영한 1-Best 사전의 경우 48.99%, Multi 사전의 경우 50.19%로 인식률이 5~6%정도 향상되었음을 볼 수 있었고, 수작업에 의한 표준발음사전의 단어 인식률 45.90% 보다도 약 3~4% 좋은 성능을 보였다.

  • PDF

종교저작의 우선표제 및 전거형접근점 적용 방안 (A Study on Constructing Preferred Titles and Authorized Access Points for Religious Works)

  • 노지현
    • 한국도서관정보학회지
    • /
    • 제54권4호
    • /
    • pp.105-122
    • /
    • 2023
  • 이 연구는 종교저작에 적용되는 우선표제와 전거형접근점을 실제 서지데이터 및 전거데이터를 이용하여 적용하는데 목적을 두고 있다. 이를 위해 이 연구에서는 (1) 종교저작의 우선표제와 전거형접근점에 관한 목록규칙을 검토하고, (2) 주요 도서관에서 종교저작에 적용한 우선표제와 전거형접근점의 실제 사례를 조사한 다음, (3) 국내에 적용할 종교저작의 우선표제와 전거형접근점의 작성 방안을 국립중앙도서관 데이터를 사례로 하여 제안하였다. 이 과정에서 KCR5 개정안을 적용하더라도 종교저작에 우선표제를 기술하는 과정에서 추가적으로 검토가 필요한 사항을 도출할 수 있었다. 연구에 필요한 데이터는 문헌연구와 사례조사를 통해 확보하였으며, 데이터의 확인이 필요한 경우 이메일을 이용하여 추가정보를 수집하거나 확인하는 절차를 거쳤다. 최종적으로 종교저작의 우선표제와 전거형접근점의 작성 방안은 국립중앙도서관의 서지데이터를 샘플로 활용하여 KORMARC 통합서지용 및 전거통제용 형식으로 제시하였다.

음악저작 우선표제 기술 지침 개발시 고려사항에 관한 연구 (A Study on the Considerations in Developing Guidelines for Recording Preferred Title of Music Works)

  • 이미화
    • 한국문헌정보학회지
    • /
    • 제58권1호
    • /
    • pp.373-393
    • /
    • 2024
  • 본 연구는 음악저작의 우선표제 기술 지침 개발시 고려사항을 제안하고자 RDA 규칙을 분석하고, 여러 국가 도서관의 지침을 분석하였다. 우선, RDA 규칙을 분석하고, 규칙의 별법 및 선택사항별로 자체적인 지침을 개발한 8개 국가도서관에서 RDA 적용 지침을 조사하여 주요 고려대상 규칙을 살펴보았다. 이후 규칙별로 MLA, LC-PCC, DACH의 지침 내용을 분석하여 고려사항을 실질적으로 제시하였다. 첫째, 우선표제 선정과 관련하여 원어표제를 채택하도록 하되 원어표제가 국내 이용자에게 적합하지 않은 경우, 다른 언어의 우선표제를 사용하도록 할 필요가 있다. 둘째, 우선표제 기술과 관련하여 한 파트 저작, 둘 이상의 파트를 가진 저작, 한 저자의 전집, 특정 작곡유형명의 전집, 불완전한 합집, 여러 작곡가의 합집으로 나누어 살펴보았다. 셋째, 추가요소로 연주수단, 숫자표시, 음조, 기타 식별특성을 우선표제 기록시 고려사항으로 제시하였다. 넷째, 작곡유형명과 연주수단을 위한 통제어휘집을 지정하거나 제시할 필요가 있다. 본 연구는 RDA 음악저작의 우선표제 기술 지침 개발시 고려할 사항을 제시하였으므로 음악저작의 우선표제 관련 규칙 개발과 도서관에서 음악저작의 우선표제 기술 지침 작성에 기여할 수 있을 것이다.

전문용어사전 표제어 기술형식에 대한 연구 (A Study on the Entry Description Format of Glossaries)

  • 강정미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1999년도 제6회 학술대회 논문집
    • /
    • pp.39-42
    • /
    • 1999
  • 우리나라에서 학문분야별로 출판된 전문용어사전의 표제어 기술형식은 매우 상이하다. 이러한 특징은 여러 분야의 전문용어사전을 참조해야 하는 이용자에게 많은 불편을 초래할 뿐만 아니라 표준화된 전자사전에 대한 요구를 충족시키지도 어렵다. 본 연구에서는 전자사전 표준화의 일환인 전문용어사전의 표제어 기술형식 표준화를 위한 기초작업의 일부로서 현재까지 우리나라기서 출판된 전문 용어사전을 대상으로 표제어의 기술형식에 대하여 기술요소, 기술요소의 순서, 띄어쓰기, 다의성을 갖는 용어의 구분, 배열 등에 대하여 조사 분석하였다.

  • PDF

BTI 사전 색인을 이용한 유사단어 검색 (A method for similar-word retrival based on BTI dictionary indexing mechanism)

  • 정연수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.291-296
    • /
    • 1994
  • 유사단어의 추정에 있어서 사전 검색에 드는 비용, 즉 사전탐색 횟수는 효율성의 문제와 직결된다. 본 논문에서는 BTI 사전 색인을 이용하여 한 글자의 변형요소가 있는 유사단어들을 효율적으로 거색하는 방법을 제안한다. BTI 방식은 정방향, 역방향 표제어를 모두 저장하는 방법이다. BTI 방식으로 사전 표제어를 색인하여 표제어에 대한 사전 탐색 도중에 사전에 존재하는 prefix와 postifix를 모두 검색할 수 있다. 이러한 정보를 이용하면 유사 단어에 대한 정확한 변형 위치를 결정할 수 있다. BTI 사전 색인은 사전 표제어에 대한 정보없이 유사단어를 추정한 후에 사전 검색을 통하여 확인하는 방법보다 사전 검색에 드는 비용이 적다. 추가적으로 유사단어 후보들에 대한 우선 순위를 정하기 위하여 corpus에서 추출한 각 표제어의 발견 빈도를 이용하였다.

  • PDF