• 제목/요약/키워드: subject thesaurus

검색결과 39건 처리시간 0.028초

용어 정의를 도입한 시소러스 개발 연구 (A Study on the Development of Thesaurus Using Terminological Definitions)

  • 김태수
    • 정보관리학회지
    • /
    • 제18권2호
    • /
    • pp.231-254
    • /
    • 2001
  • 특정 주제영역의 시소러스에 수록되는 디스크립의 의미 범위를 한정하고, 개념의 본질적인 속성을 제공하기 위해 정의를 도입하고, 정의를 구성하는 데이터요소를 정의모델에 따라 분석한 후, 이를 시소러스 관계구조로 표현하기 위한 연구이다. 이를 위해 한국산업규격(KS)의 정보산업분야에 수록된 용어정의 327개를 정의규칙과 정의모델에 따라 분석한 다음, 각 속성을 디스크립터의 관계구조로 표현한 시소러스를 실험적으로 구현하였다. 지금까지 시소러스 구축시 개발주체의 성격에 따라 디스크립터 수록범위와 관계구조의 설정을 달리해 왔다. 용어의 정의를 시소러스 구조에 도입하게 되면 각 디스크립터의 의미범위를 한정할 수 있고, 동시에 정의에 사용된 용어간의 의미관계를 디스크립터 관계고조로 표현할 수 있어, 의미범위와 관계구조의 표준화 가능성을 기대할 수 있다.

  • PDF

시소러스 도구를 이용한 실시간 개념 기반 문서 분류 시스템 (A Real-Time Concept-Based Text Categorization System using the Thesauraus Tool)

  • 강원석;강현규
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권1호
    • /
    • pp.167-167
    • /
    • 1999
  • The majority of text categorization systems use the term-based classification method. However, because of too many terms, this method is not effective to classify the documents in areal-time environment. This paper presents a real-time concept-based text categorization system,which classifies texts using thesaurus. The system consists of a Korean morphological analyzer, athesaurus tool, and a probability-vector similarity measurer. The thesaurus tool acquires the meaningsof input terms and represents the text with not the term-vector but the concept-vector. Because theconcept-vector consists of semantic units with the small size, it makes the system enable to analyzethe text with real-time. As representing the meanings of the text, the vector supports theconcept-based classification. The probability-vector similarity measurer decides the subject of the textby calculating the vector similarity between the input text and each subject. In the experimentalresults, we show that the proposed system can effectively analyze texts with real-time and do aconcept-based classification. Moreover, the experiment informs that we must expand the thesaurustool for the better system.

MeSH 시소러스를 이용한 한영 교차언어 키워드 자동 부여 (Automatic Korean to English Cross Language Keyword Assignment Using MeSH Thesaurus)

  • 이재성;김미숙;오영순;이영성
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.155-162
    • /
    • 2006
  • 의학용 시소러스인 MeSH (Medical Subject Heading)는 영어 의학 논문 색인을 위한 통제어 시소러스로서 오랫동안 사용되고 있다. 본 논문에서는 한국어 MeSH를 이용하여 한국어 의학 논문의 요약문에 자동으로 영문 MeSH 색인어를 부여하는 '교차언어 키워드 부여' 방법을 제안하고 색인 전문가 및 저자의 색인 효율과 비교한다. 이 색인어 부여 과정은 우선 한국어 MeSH 용어를 문장에서 인식하여 추출하고, 이 용어를 다시 영어 MeSH 용어로 바꾼 후, 용어의 중요도를 계산하여 상위의 용어를 색인어로 부여한다. 특히, 한국어 MeSH 용어 추출을 위해 효과적으로 띄어쓰기 변이를 처리할 수 있는 방법을 제안한다 실험 결과, 띄어쓰기 변이를 효과적으로 처리하여 한국어 MeSH의 크기를 약 42% 정도 줄였을 뿐만 아니라, 후보 색인어 추출의 효과도 높였다. 또 이 방법을 이용하여 색인어 자동 부여를 한 후, 색인 전문가 및 저자의 색인 결과를 비교한 결과, 이 자동 색인 방법이 전문가의 색인 능력보다는 부족했지만, 저자의 색인 능력과는 별 차이가 없음을 보였다.

지질용어 시소러스 시스템의 설계 및 구축 (Design and Implementation of Thesaurus System for Geological Terms)

  • 황재홍;지광훈;한종규;연영광;류근호
    • 한국지리정보학회지
    • /
    • 제10권2호
    • /
    • pp.23-35
    • /
    • 2007
  • 최근 정보 검색 분야에서 시맨틱 웹 기술에 따른 인터넷 용어사전과 더불어 시소러스의 필요성이 더욱 중요시되고 있다. 시소러스는 분류와 사전의 결합으로 상위 및 하위개념 사이의 전후관계를 명확히 하기 위해서 공식적으로 조직, 통제된 색인어의 어휘로 인간의 학습, 탐구활동 등 제반 지식활동의 대상이 되는 개념(용어)간의 관계를 표현한 지식구조의 토픽 맵이다. 하지만 시소러스가 용어의 통제 및 표준화와 더불어 정보를 능률적으로 처리하고 검색하는데 필수적인 수단으로 평가되고 있음에도 불구하고 아직까지 지질분야에서 우리말 시소러스가 없는 실정이다. 시소러스를 구축하기 위해서는 표준화되고 잘 정의된 지침이 필요하다. 이러한 표준화된 지침은 보다 효율적인 정보 관리를 가능하게 할 것이며, 정보 이용자 또한 보다 정확한 정보를 쉽고 편리하게 이용할 수 있게 될 것이다. 본 연구는 지질정보 중 가장 기본이 되는 용어 시소러스 시스템 구축 연구이다. 이를 위해서 첫째, 국내외 지질용어 표준화 동향을 살펴보았다. 둘째, 15개 분야에 대한 지질학적 주제를 정하고 각 주제에 대한 분류체계(안)를 마련하였다. 셋째, 지질용어 시소러스 분류체계를 바탕으로 지질용어 시소러스 명세서를 작성하였다. 마지막으로 이 명세서를 이용하여 인터넷기반 지질용어 시소러스 시스템을 설계하고 구축하였다.

  • PDF

하이퍼텍스트를 이용한 온라인 시소러스의 선형배열 설계에 관한 연구 (A Study on the Design of Hypertext-Based Linear Displays for an Online Thesaurus)

  • 최재황
    • 한국문헌정보학회지
    • /
    • 제33권3호
    • /
    • pp.109-126
    • /
    • 1999
  • 본 연구의 목적은 ISO와 ANSI/NISO의 시소러스 작성지침을 참고하여 문헌정보학분야 시소러스를 하이퍼텍스트를 이용하여 선형배열로 웹 상에 설계해 보는데 있다. 본 연구는 하이퍼텍스트를 이용한 온라인 시소러스가 정보를 저장하고 탐색하는 사람들에게 편리하고 유용한 주제접근의 도구가 되며, 인쇄형 시소러스로는 파악하기 어려운 이용자의 시소러스 탐색유형을 연구하는 기초가 될 수 있을 것이라는 가정에서 출발하였다. 본 연구를 위해서 문헌정보학 분야 시소러스를 관계형 데이터베이스인 MS ACCESS 97에 저장하였고 관계형 데이터베이스와 웹과의 연동을 위해서 Windows NT운영체재 하에서 ASP(Active Server Pages)기술을 적용하였다.

  • PDF

SKOS를 이용한 신학 시소러스의 온톨로지로의 변환에 관한 연구 (A Study on Converting the Theological Thesaurus to the Ontology by Using SKOS)

  • 유영준
    • 한국도서관정보학회지
    • /
    • 제43권3호
    • /
    • pp.143-163
    • /
    • 2012
  • 개인이 구축한 시소러스를 온톨로지로 구축하기 위해서는 먼저 시소러스를 온톨로지로 변환하기 위해서 적합할 뿐만 아니라 W3C에서 국제표준으로 선택한 SKOS로 기술하는 것이 첫 번째 단계이다. SKOS는 시소러스나 주제명표, 분류체계 등을 온톨로지로 변환하는데 적합한 온톨로지이지만 온톨로지로 기술하려면 RDF/XML과 같은 언어가 필요하다. 그러나 RDF/XML은 읽고 쓰기에 어렵기 때문에 RDFa처럼 HTML에 내장할 수 있거나 훨씬 구조가 쉽고 기술하기도 간편한 Turtle기술 언어도 필요할 수 있다. SKOS로 기술한 것과 더불어 온톨로지 구축 프로그램인 $Prot{\acute{e}}g{\acute{e}}$ 4.2를 사용해서 시험적으로 8개의 클래스와 151개의 용어를 사용해서 온톨로지를 구축하였다. 이 온톨로지에는 시소러스의 기본 개념 관계인 동의관계, 계층관계, 연관관계 이외에도 SKOS에서 제안하는 전이 계층 관계의 사례도 포함시켰다.

신학 용어 분류를 위한 패싯 설계에 관한 연구 (Establishing Facet for Classifying Theological Terms)

  • 유영준
    • 한국문헌정보학회지
    • /
    • 제42권3호
    • /
    • pp.259-279
    • /
    • 2008
  • 신학 분야의 시소러스를 구축하는 전 단계로서, 패싯을 이용하여 신학 용어를 분류하였다. 영어로 된 신학 사전에서 1.031개의 용어를 선정하였고, 이 중에서 실제로 분류한 용어의 수는 984개이다. 용어를 분류하기 위해서 전개한 패싯은 기본 패싯 7개와 하위 패싯 14개이었다. 분류한 용어들을 분석해 본 결과, 신학 분야의 특성에 맞게 물리적 형태를 갖는 구체적인 용어의 수보다 추상적인 용어의 수가 많았으며. 전체 용어 수의 70% 정도를 차지하였다. 문헌 분류를 위한 십진 분류 체계에 대한 연구가 한계에 이른 상황에서. 이러한 특정 주제 분야의 용어를 분류하고 시소러스를 구축하는 연구가 더 활발해져야 한다고 생각한다.

web 데이터베이스의 디렉토리 설계를 위한 분류체계 연구 (A Study on the classification scheme for the design of Directory Search Engine on the web)

  • 이명희
    • 한국비블리아학회지
    • /
    • 제10권1호
    • /
    • pp.243-268
    • /
    • 1999
  • 이 연구는 인터넷 기반 분류체계를 제공하는 주제별 디렉토리인 Yahoo Korea와 Argus Clearinghouse, DDC의 분류체계, ERIC시소러스의 분류체계, KEDI교육 시소러스의 분류체계를 비교. 분석하여 봄으로써 웹 주제별 디렉토리의 교육학 학술정보의 분류체계의 모형을 구축하기 위해 시도되었다. 이들의 분류체계는 주제범위의 포괄성, 분류체계의 논리성, 주제 용어의 정확성 탐색의 효율성의 4가지 척도를 가지고 분석되었다. 새로운 교육학 학술정보를 위한 검색엔진의 분류체계 모형은 학술적인 면과 실용적인 면을 고려하여 주제영역의 내용, 정보자료의 형태, 이용자의 탐색의 효율성을 고려하여 16개의 대구분 주제항목과 47개의 중구분 주제항목으로 전개되어 구축되었다.

  • PDF

교육시설(敎育施設)에 관한 문헌연구(文獻硏究) 방법(方法) - 미국 ERIC 자료 활용방법을 중심으로 - (A Study on Methods of Documentary Research on Educational Facilities - Focused on the Utilization of the ERIC -)

  • 박재윤
    • 교육시설
    • /
    • 제1권1호
    • /
    • pp.33-40
    • /
    • 1994
  • This study was taken to increase efficiency in reviewing documents of school facilities from the network of ERIV(Educational Resources and Information Center, USA). Outline of the ERIC network, and the structure, role, function of the ERIC thesaurus are introduced. A thesaurus have developed for information retrieval purpose provides the filing labels which permit information to be stored by one person and retrieved by another. As an information system grows, its thesaurus is systematically built and refined to the point where it represents, in a very special sense, the vocabulary of subject field. The Thesaurus of ERIC Descriptors represents such a vocabulary for the field education. An understanding of its origins, its function and its limitations, is just as important to the teacher, the student of education or the educational researcher as it is for the indexer or custodian of the information pool it represents. If the Thesaurus is understood and used in an appropriate way, it can give all educators not only insight into the ERIC system but also an increased awareness of the language of their field. A great many terms are necessary to describe the many aspects of education, and the task of relating them in even an approximately consistent way is an enormous one. The undertaking should be managed by people who not only know what they are talking about but who also should be able to predict what people in their field are lilely to be talking about in the near future. It should also enlist people who are willing to pay term to another within the system. To engage a large number of these two kinds of people over a long period of time is very likely to cost a great deal of money. There is very little proprietary value in producing such a list of terms, for it can very easily be copied, adapted, updated, etc. Thus, because of its high cost and low proprietary value, it becomes a task likely to be funded only by a government. A government has many ways of spending its money. However, after the decision has been made to spend money to produce an authority list, one must decide how this authority is to be delegated. The history of the development of the ERIC Thesaurus is the history of how this authority was delegated. Scientific research has thrived on efforts to define terms as precisely as possible. It is difficult to say with certainty, however, that solutions to social problems have thrived on a simple diet of scientific research. Contemporary crises demand new and imaginative ways of conceiving problems and talking about them. If this Thesaurus or any other scheme for normalizing or controlling language inhibits in the slightest measure the creative use of language, it is against it use. Only if the principles and details of the Thesaurus are misunderstood can it be used as a constraint on language in a negative sense. Students of education of every kind should see the The-saurus as an opportunity to become increasingly self-conscious about their language and thus about their assumptions and their approaches to educational problems.

  • PDF

Resources for assigning MeSH IDs to Japanese medical terms

  • Tateisi, Yuka
    • Genomics & Informatics
    • /
    • 제17권2호
    • /
    • pp.16.1-16.4
    • /
    • 2019
  • Medical Subject Headings (MeSH), a medical thesaurus created by the National Library of Medicine (NLM), is a useful resource for natural language processing (NLP). In this article, the current status of the Japanese version of Medical Subject Headings (MeSH) is reviewed. Online investigation found that Japanese-English dictionaries, which assign MeSH information to applicable terms, but use them for NLP, were found to be difficult to access, due to license restrictions. Here, we investigate an open-source Japanese-English glossary as an alternative method for assigning MeSH IDs to Japanese terms, to obtain preliminary data for NLP proof-of-concept.