• 제목/요약/키워드: Dictionary Construction

검색결과 111건 처리시간 0.022초

주제목록을 위한 한국용어열색인 시스템의 기능 (Function of the Korean String Indexing System for the Subject Catalog)

  • 윤구호
    • 한국문헌정보학회지
    • /
    • 제15권
    • /
    • pp.225-266
    • /
    • 1988
  • Various theories and techniques for the subject catalog have been developed since Charles Ammi Cutter first tried to formulate rules for the construction of subject headings in 1876. However, they do not seem to be appropriate to Korean language because the syntax and semantics of Korean language are different from those of English and other European languages. This study therefore attempts to develop a new Korean subject indexing system, namely Korean String Indexing System(KOSIS), in order to increase the use of subject catalogs. For this purpose, advantages and disadvantages between the classed subject catalog nd the alphabetical subject catalog, which are typical subject ca-alogs in libraries, are investigated, and most of remarkable subject indexing systems, in particular the PRECIS developed by the British National Bibliography, are reviewed and analysed. KOSIS is a string indexing based on purely the syntax and semantics of Korean language, even though considerable principles of PRECIS are applied to it. The outlines of KOSIS are as follows: 1) KOSIS is based on the fundamentals of natural language and an ingenious conjunction of human indexing skills and computer capabilities. 2) KOSIS is. 3 string indexing based on the 'principle of context-dependency.' A string of terms organized accoding to his principle shows remarkable affinity with certain patterns of words in ordinary discourse. From that point onward, natural language rather than classificatory terms become the basic model for indexing schemes. 3) KOSIS uses 24 role operators. One or more operators should be allocated to the index string, which is organized manually by the indexer's intellectual work, in order to establish the most explicit syntactic relationship of index terms. 4) Traditionally, a single -line entry format is used in which a subject heading or index entry is presented as a single sequence of words, consisting of the entry terms, plus, in some cases, an extra qualifying term or phrase. But KOSIS employs a two-line entry format which contains three basic positions for the production of index entries. The 'lead' serves as the user's access point, the 'display' contains those terms which are themselves context dependent on the lead, 'qualifier' sets the lead term into its wider context. 5) Each of the KOSIS entries is co-extensive with the initial subject statement prepared by the indexer, since it displays all the subject specificities. Compound terms are always presented in their natural language order. Inverted headings are not produced in KOSIS. Consequently, the precision ratio of information retrieval can be increased. 6) KOSIS uses 5 relational codes for the system of references among semantically related terms. Semantically related terms are handled by a different set of routines, leading to the production of 'See' and 'See also' references. 7) KOSIS was riginally developed for a classified catalog system which requires a subject index, that is an index -which 'trans-lates' subject index, that is, an index which 'translates' subjects expressed in natural language into the appropriate classification numbers. However, KOSIS can also be us d for a dictionary catalog system. Accordingly, KOSIS strings can be manipulated to produce either appropriate subject indexes for a classified catalog system, or acceptable subject headings for a dictionary catalog system. 8) KOSIS is able to maintain a constistency of index entries and cross references by means of a routine identification of the established index strings and reference system. For this purpose, an individual Subject Indicator Number and Reference Indicator Number is allocated to each new index strings and new index terms, respectively. can produce all the index entries, cross references, and authority cards by means of either manual or mechanical methods. Thus, detailed algorithms for the machine-production of various outputs are provided for the institutions which can use computer facilities.

  • PDF

위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법 (A Method to Solve the Entity Linking Ambiguity and NIL Entity Recognition for efficient Entity Linking based on Wikipedia)

  • 이호경;안재현;윤정민;배경만;고영중
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.813-821
    • /
    • 2017
  • 개체 링킹은 입력된 질의에 존재하는 개체를 표현한 개체 표현(entity mention)을 지식베이스에 존재하는 개체와 연결하여 의미를 파악하는 연구이다. 개체 링킹에 관한 연구는 지식 베이스 구축 문제, 다중 표현 문제, 개체 연결 중의성 문제, NIL 개체 인식 문제가 존재한다. 본 연구에서는 지식 베이스 구축 문제와 다중 표현 문제를 해결하기 위해 위키피디아를 기반으로 개체 이름 사전을 구축한다, 또한, 문맥 유사도, 의미적 관련성, 단서 단어 점수, 개체 표현의 개체명 타입 유사도, 개체 이름 매칭 점수, 개체인기도 점수 자질들을 기반으로 SVM(support vector machine)을 학습하여, NIL 개체를 인식하는 문제와 개체 연결 중의성을 해소하는 방법을 제안한다. 구축한 지식 베이스를 기반으로 제안한 두 방법을 순차적으로 적용하였을 때 좋은 개체 링킹 성능을 얻었다. 개체 링킹 시스템의 성능은 NIL 개체 인식 성능이 83.66%, 중의성 해소 성능이 90.81%의 F1 점수를 보였다.

감정 온톨로지의 구축을 위한 구성요소 분석 (Component Analysis for Constructing an Emotion Ontology)

  • 윤애선;권혁철
    • 인지과학
    • /
    • 제21권1호
    • /
    • pp.157-175
    • /
    • 2010
  • 의사소통에서 대화자 간 감정의 이해는 메시지의 내용만큼이나 중요하다. 비언어적 요소에 의해 감정에 관한 더 많은 정보가 전달되고 있기는 하지만, 텍스트에도 화자의 감정을 나타내는 언어적 표지가 다양하고 풍부하게 녹아들어 있다. 본 연구의 목적은 인간언어공학에 활용할 수 있는 감정 온톨로지를 구축할 수 있도록 그 구성요소를 분석하는 데 있다. 텍스트 기반 감정 처리 분야의 선행 연구가 감정을 분류하고, 각 감정의 서술적 어휘 목록을 작성하고, 이를 텍스트에서 검색함으로써, 추출된 감정의 정확도가 높지 않았다. 이에 비해, 본 연구에서 제안하는 감정 온톨로지는 다음과 같은 장점이 있다. 첫째, 감정 표현의 범주를 기술 대상과 방식에 따라 6개 범주로 분류하고, 이들 간 상호 대응관계를 설정함으로써, 멀티모달 환경에 적용할 수 있다. 둘째, 세분화된 감정을 분류할 수 있되, 감정 간 차별성을 가질 수 있도록 24개의 감정 명세를 선별하고, 더 섬세하게 감정을 분류할 수 있는 속성으로 강도와 극성을 설정하였다. 셋째, 텍스트에 나타난 감정 표현을 명시적으로 구분할 수 있도록, 경험자 기술 대상과 방식 언어적 자질에 관한 속성을 도입하였다. 넷째, 본 연구의 감정분류는 Plutchik의 분류와 호환성을 갖고 있으며, 언어적 요소의 기술에서 국제표준의 태그세트를 수용함으로써, 다국어 처리에 활용을 극대화할 수 있도록 고려했다.

  • PDF

버섯 학술 용어 해설 (Explanation of mushroom academic terminology)

  • 이재성;성재모;김양섭;채정기;유영복;유승헌;차재순;이현숙;이재동;이종수;박원철;구창덕;석순자;김용갑;차병진;장현유
    • 한국버섯학회지
    • /
    • 제4권4호
    • /
    • pp.144-213
    • /
    • 2006
  • The mushroom production reached to 1000 billion won in monetary value in Korea. We, however, do not have systematic terminology dictionary published yet. Recently new varieties of medicinal mushrooms in addition to culinary mushrooms are being introduced steadily through out the world. This makes the necessity of coordinated and consistent arrangement of terms involved in culture, cultivation and physiological aspects of mushrooms. Various components in relation to the medicinal and physiological functionality also poses ambiguity in terminology along with the terms used in breeding and genetic researches. Moreover, some of the scientific terms are being used erroneously. In order to help mushroom cultivators, students, and mushroom business personnel in understanding the terms on mushroom science and technology we intended to collect and organize all the terms related to mushroom morphology and cultivation, poison and medicinal functionality, processing and utilization, and so on. Thirteen professionals from each field participated in this project. The fields included here are : 1) Genetics and breeding of mushrooms, 2) Cultivation and physiology of mushrooms, 3) Taxonomy and ecology of mushrooms, 4) Processing and functional components, 5) Blight and insects of mushrooms.

  • PDF

대용량 자원 기반 과학기술 핵심개체 탐지를 위한 정보추출기술 통합에 관한 연구 (A Study on the Integration of Information Extraction Technology for Detecting Scientific Core Entities based on Large Resources)

  • 최윤수;정창후;최성필;류범종;김재훈
    • 정보관리연구
    • /
    • 제40권4호
    • /
    • pp.1-22
    • /
    • 2009
  • 대용량 문서에서 정보를 추출하는 작업은 정보검색 분야 뿐 아니라 질의응답과 요약분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로써, 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 생의학 분야 과학기술 문헌을 분석하여 전문용어 및 개체명 등을 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다. 전체 플랫폼의 성능을 체계적으로 평가하기 위해서, KEEC 2009를 비롯한 다양한 말뭉치를 기반으로 세부 요수 모듈에 대한 성능 평가를 수행하였으며, 비교적 높은 수준의 성능을 확보하였다. 본 논문에서 개발된 핵심개체자동인식 플랫폼은 정보검색, 질의응답, 문서색인, 사전구축 등 다양한 정보서비스 분야에 활용될 수 있다.

신조어를 활용한 사회적 현상 아카이빙 방안 연구 (A Study on the Archiving of a Social Phenomenon through Neologism)

  • 김환;임진희
    • 기록학연구
    • /
    • 제52호
    • /
    • pp.315-342
    • /
    • 2017
  • 언어는 사회 구성원들 간의 의사소통을 위한 중요한 매개체인 동시에 그 사회를 반영하는 거울이다. 시대에 따른 사회 문화의 변화와 발전과 함께 언어 또한 변하고 발전한다. 이처럼 시대의 변화에 따라 새로운 개념을 표현하기 위해 수많은 신조어가 나타나고 있다. 최근 소셜네트워크와 인터넷 커뮤니티 사이트를 중심으로 신조어의 사용이 급증하고 있는데 이렇게 인터넷상에서 유행하는 신조어를 살펴보면 시대의 세태와 갈등, 사람들의 심리, 사상, 문화 등 사회 현상을 함축적으로 반영하고 있는 것을 알 수 있다. 본 논문에서는 일시적인 기간 동안 사회적 현상을 반영하고 있는 신조어와 함께 관련 기록들을 수집하고 분석하는 것에 대한 의미와 중요성에 대해 고찰하고, 이를 '신조어 아카이빙'이라는 개념으로 설명하고자 한다. 신조어 아카이빙이 기존에 존재하는 사전의 개념과 어떻게 차이가 있는지 비교를 통해 신조어 아카이빙 구축 방향을 제시하고자 한다. 또한 이 연구를 통해 세대간 원활한 의사소통과 정보 공유의 불평등 해소 등 국민 언어생활에 편의와 당대의 사회상을 기억하고 더 나아가 전문가들의 신조어 또는 사회 현상을 연구하는 데 도움이 되기를 기대해 본다.

설비 오류 유형 구조화를 위한 인공신경망 기반 구절 네트워크 구축 방법 (An Artificial Neural Network Based Phrase Network Construction Method for Structuring Facility Error Types)

  • 노영훈;최은영;최예림
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.21-29
    • /
    • 2018
  • 4차 산업혁명 시대의 도래와 함께 스마트 팩토리의 개념이 대두되면서 설비가동률과 생산성에 악영향을 미치는 설비 오류의 발생을 데이터 분석 기법을 통해 예측하고자 하는 노력이 이루어지고 있다. 데이터 분석 기법을 활용하여 설비 오류를 예측하기 위해서는 설비 오류가 발생한 상황과 설비 오류 유형을 명시한 데이터인 설비 오류 이력이 필요하다. 하지만 많은 제조 현장에서는 설비 오류 유형이 정확하게 정의/분류가 되지 않아 설비를 운영하는 작업자가 자신의 경험적 판단에 의거하여 정형화되지 않은 텍스트의 형태로 설비 오류 유형을 작성하고, 이에 따라 데이터 분석 기법의 적용이 어렵다. 따라서 본 논문에서는 수기로 작성된 설비 오류 이력을 활용하여 설비 오류 유형을 파악하고 구조화하기 위한 구절 네트워크 구축 방법을 제안하고자 한다. 구체적으로, 단어를 쓰임새에 따라 분류한 용도 딕셔너리를 활용하여 비정형의 텍스트 데이터로부터 설비 오류 유형을 의미하는 구절을 추출하고, 추출된 구절 간의 유사도를 계산하여 네트워크를 구축한다. 제안하는 방법의 성능을 실제 제조 기업의 설비 오류 이력 데이터를 활용하여 검증하였으며, 본 연구의 결과는 텍스트 데이터에 기반한 설비 오류 유형 구조화와 나아가서는 설비 오류 발생 예측에 이용할 수 있을 것을 기대한다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

산머루 관련 정보수집 및 데이터베이스의 구축 (Data Mining and Construction of Database Concerning Effects of Vitis Genus)

  • 김민아;조윤주;신지영;신민규;배현수;홍무창;김양석
    • 동의생리병리학회지
    • /
    • 제26권4호
    • /
    • pp.551-556
    • /
    • 2012
  • The database for the oriental medicine had been existed in documentation in past times and it has been developed to the database type for random accesses in the information society. However, the aspects of the database are not so diversified and the database for the bio herbal material exists in widened type dictionary style. It is a situation that the database which handles the in-depth raw herbal medicines is not sufficient in its quantity and quality. Korean wild grape is a deciduous plant categorized into the Vitaceae and it was found experimentally that it has various medical effects. It is one of the medical materials with higher potentiality of academic study and commercialization recently because it has a bigger possibility to be applied into diverse industrial fields including the medical product for health, food and beauty. We constituted the cooperative system among the Muju cluster business group for Korean mountain wild grapes, Physiology Laboratory in Kyung Hee University Oriental Medicine and Medical Classics Laboratory in Kyung Hee University Oriental Medicine with a view to focusing on such potentiality and a database for Korean wild grapes was made a touchstone for establishing the in-depth database for the single bio medical materials. First of all, the literatures based on the North East Asia in ancient times had been categorized into the classical literature (Korean literature published by government organization, Korean classical literature, Chinese classical literature and classical literature fro Korean and Chinese oriental medicine) and modern literature (Modern literature for oriental medicine, modern literature for domestic and foreign herbal medicine) to cover the eastern and western research records and writings related to Korean wild grapes and the text-mining work has been performed through the cooperation system with the Medical Classics Laboratory in Kyung Hee University Oriental Medicine. First of all, the data for the experiment and theory for Korean wild grape were collected for the Medline database controlled by the Parliament Library of USA to arrange the domestic and foreign theses with topic for Korean wild grapes and the network hyperlink function and down load function were mounted for self-thesis searching function and active view based on the collected data. The thesis searching function provides various auxiliary functions and the searching is available according to the diverse searching/queries such as the name of sub species of Korean wild grape, the logical intersection index for the active ingredients, efficacy and elements. It was constituted for the researchers who design the Korean wild grape study to design of easier experiment. In addition, the data related to the patents for Korean wild grape which were collected from European Patent Office in response to the commercialization possibility and the system available for searching and view was established in the same viewpoint. Perl was used for the query programming and MS-SQL for database establishment and management in the designing of this database. Currently, the data is available for free use and the address is as follows. http://163.180.41.43:8011/index.html

정읍 무성서원과 선비문화 원류 최치원 (Choi Chi-won, the Originator of Jeongeup Museongseowon and Scholar Culture)

  • 안영훈
    • 대순사상논총
    • /
    • 제40집
    • /
    • pp.243-272
    • /
    • 2022
  • 전라북도 정읍은 한국 사상사에서 주목을 요하는 지역이다. 또한 정읍은 문학사에서 '최초'를 기록한 작품이 많은 지역이다. 백제 노래 <정읍사>가 그렇고 조선시대 사대부 가사 <상춘곡>이 그렇다. 그리고 이 지역 태수를 지낸 최치원(857~?)의 선정과 풍류의 전통이 전해오는 고장이기도 하다. 이 논문에서는 정읍의 무성서원의 성립과정과 선비문화에 있어서 최치원의 연관성을 살펴보았다. 최치원이 임기를 마치고 떠날 때 고을 사람들이 선정에 보답하는 의미로 태산사라는 생사당을 건립하였고 그것이 근원이 되어 후대에 무성서원으로까지 이어졌다. 최치원은 자신의 포부와 역량을 정읍에서 실현하였다. 특히 조선중기 무성서원의 건립과 사액 과정에 최치원의 역할은 결정적이었기에 최치원은 이 지역의 상징적 인물로 되살아날 수가 있었다. 그리고 무성서원을 중심으로 영정의 이안(移安) 작업을 통해서 최치원의 형상도 보다 유학자, 유학적 선비의 모습으로 좌정해나가는 것도 볼 수가 있다. 최치원이 남긴 시문을 통해서도 유학적 선비(지식인)로서 자각을 읽을 수 있다. 그의 시세계가 다양하지만 특히 유학자 지식인으로서 현실에서 오는 시름과 고뇌, 비판적인 내면의식 등을 표출한 작품이 많은 수를 차지하고 있음을 볼 수 있다. 최치원은 남다른 포부와 각고의 노력으로 당대의 우뚝한 문사로서의 자질을 유감없이 발휘하기는 하였으나, 그 자신 주변국의 한 시인으로서의 지역적, 정신적 소외감을 극복하지 못했다. 따라서 세계인식 면에서의 치열성은 자연히 내면화될 수밖에 없었다. 그러나 그것이 오히려 그의 작품으로 하여금 강한 서정성을 가지게 한 요인이 되었던 것으로 보인다. 그리고 최치원의 문집에는 당대의 말기적 현상에서 초래된 다양한 형태의 병리적 현상을 강한 어조로 비판한 작품들이 다수 포함되어 있다. 그는 가난하고 곤고한 삶을 살아가는 민중들의 모습을 사실적으로 그려내는가 하면, 왜곡된 생산관계 속에서 결국 희생되고 마는 가련한 백성들의 삶의 실상을 형상화함으로써 당대의 잘못된 사회의 단면을 부각시키기도 했다. 이러한 것은 지식인으로서의 고뇌로 읽을 수 있다. 선비의 사전적 정의가 '학식과 인품을 갖춘 사람에 대한 호칭으로, 특히 유교이념을 구현하는 인격체 또는 신분계층을 가리키는 유교용어'이고, 오늘날 의미로는 '신분적 존재가 아니라 인격의 모범이요, 시대사회의 양심으로서 인간의 도덕성을 개인 내면에서나 사회질서 속에서 확립하는 원천으로 이해될 수 있다.'고 할 때, 최치원의 문학에서 고뇌하는 모습은 곧 선비(지식인)의 고뇌이고 '선비(士)'로서의 책무를 자각하였기에 나오는 반응이라고 할 수 있다. 그러한 점에서 최치원은 가장 이른 시기의 선비(지식인)의 원류라고 보아도 크게 잘못이 없을 것이다.