• Title/Summary/Keyword: 전문용어 사전 구축

Search Result 34, Processing Time 0.047 seconds

Mining Korean-English Terminologies by Pattern Generation in Internet (패턴생성을 통한 인터넷 문서의 한글-영문용어 추출)

  • 강재호;김종성;류광렬
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10a
    • /
    • pp.148-150
    • /
    • 2003
  • 전문용어의 가짓수가 많고 생성빈도 또한 높은 분야에서 고품질의 정보검색과 기계번역 결과를 얻기 위해서는 상당 분량의 번역용어사전의 확보가 필수적이다. 이러한 분야에서 번역용어사전을 수작업으로 구축하는 것은 큰 부담이 된다. 본 논문에서는 이미 알고 있는 용어(원어)와 번역용어를 말뭉치에서 함께 표기한 부분을 찾아 패턴화하는 작업과, 생성된 패턴으로 추가의 용어-번역용어를 추출하는 작업을 반복하여 수행함으로써 번역용어사전을 자동으로 구축하는 방안을 제안한다. 인터넷 문서를 대상으로 본 제안방법을 적용해 본 결과 상당분량의 유효한 한글-영문용어들을 추출할 수 있었다.

  • PDF

Automatic Terminology Recognition using the Dictionary Hierarchy (사전간 계층관계를 이용한 전문용어 자동 추출 기법)

  • 오종훈;이경순;최기선
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.131-136
    • /
    • 2000
  • 기존의 통계에 기반한 용어 자동 추출 기법(Automatic Term Recognition)은 비교적 좋은 성능의 결과를 보여왔다. 하지만 전문용어 사전 등의 정보를 이용하여 성능의 향상을 이룰 수 있는 여지는 여전히 남아있다. 본 논문에서는 이러한 근거에 기반하여 전문용어간의 계층 정보를 전문용어 사전을 통하여 구축하고 이를 이용하여 전문용어를 추출하는 방법을 제안하고자 한다. 본 논문이 제안하는 기법은 기존의 방법에 비해 좋은 성능을 나타내었다.

  • PDF

Detecting and Interpreting Terms: Focusing Korean Medical Terms (전문용어 탐지와 해석 모델: 한국어 의학용어 중심으로 )

  • Haram-Yeom;Jae-Hoon Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.407-411
    • /
    • 2022
  • 최근 COVID-19로 인해 대중의 의학 분야 관심이 증가하고 있다. 대부분의 의학문서는 전문용어인 의학용어로 구성되어 있어 대중이 이를 보고 이해하기에 어려움이 있다. 의학용어를 쉬운 뜻으로 풀이하는 모델을 이용한다면 대중이 의학 문서를 쉽게 이해할 수 있을 것이다. 이런 문제를 완화하기 위해서 본 논문에서는 Transformer 기반 번역 모델을 이용한 의학용어 탐지 및 해석 모델을 제안한다. 번역 모델에 적용하기 위해 병렬말뭉치가 필요하다. 본 논문에서는 다음과 같은 방법으로 병렬말뭉치를 구축한다: 1) 의학용어 사전을 구축한다. 2) 의학 드라마의 자막으로부터 의학용어를 찾아서 그 뜻풀이로 대체한다. 3) 원자막과 뜻풀이가 포함된 자막을 나란히 배열한다. 구축된 병렬말뭉치를 이용해서 Transformer 번역모델에 적용하여 전문용어를 찾아서 해석하는 모델을 구축한다. 각 문장은 음절 단위로 나뉘어 사전학습 된 KoCharELECTRA를 이용해서 임베딩한다. 제안된 모델은 약 69.3%의 어절단위 BLEU 점수를 보였다. 제안된 의학용어 해석기를 통해 대중이 의학문서를 좀 더 쉽게 접근할 수 있을 것이다.

  • PDF

A Method for Automatic Extract ion of Term Definition from Text (텍스트로부터 용어 정의문의 자동 추출 방법)

  • Shin, Hyo-Shik;Kim, Jae-Ho;Lee, Hae-Yun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.292-299
    • /
    • 2002
  • 본 연구는 텍스트 코퍼스로부터 용어의 정의를 자동으로 추출하여 용어의 자동 추출기술과 통합하여 다목적의 용어뱅크를 구축하기 위한 목적으로부터 출발하였다. 지식정보의 확산에 따라 기존 전문분야 용어집에 수록되지 알은 용어의 수는 폭발적으로 증가하고 있다. 기존의 용어집 혹은 용어사전의 디지털화만으로는 새로운 전문용어의 포괄성에서 한계가 있는 것이다. 정보의 획득이라는 면에서 보면 이러한 한계를 극복하고 모든 용어에 대해서 즉시적으로 용어의 정의를 제공받는 것이 바람직하다. 자동으로 구축된 용어집의 응용은 여러 가지로 기대된다. 새로운 용어에 대한 의미 파악을 위해서는 물론, 확장된 전문용어집의 작성이나 전문분야 온톨로지의 구축 등에도 이용될 수 있다.

  • PDF

A Study on the Factors Influencing Semantic Relation in Building a Structured Glossary (구조적 학술용어사전 데이터베이스 구축에 있어서 용어의 의미관계 형성에 영향을 미치는 요인에 관한 연구)

  • Kwon, Sun-Young
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.48 no.2
    • /
    • pp.353-378
    • /
    • 2014
  • The purpose of this study is to find factors to affect on the formation of semantic relation from terminology and what is to be affected by these factors to build the database scheme of terminology dictionary by a structural definition. In this research, 826,905 keywords of 88,874 social science articles and 985,580 keywords of 125,046 humanities science articles in the KCI journals from 2007 to 2011 were collected. From collected data, subject complexity, structural hole, term frequency, occurrence pattern and an effect between the number of nodes and the number of patterns which were derived from the semantic relation of linked terms of established 'STNet' System were analyzed. The summarized results from analyzed data and network patterns are as follows. Betweenness Centrality, term frequency, and effective size affect the numbers of semantic relation node. Among these factors, betweenness centrality was the most effective and effective size. But term frequency was the least effective. Betweenness Centrality, term frequency, and effective size affect the numbers of semantic relation type. Term frequency is the most effective. Therefore, when building a terminology dictionary, factors of betweenness centrality, term frequency, effective size, and complexity of subject are needed to select term. As a result, these factors can be expected to improve the quality of terminology dictionary.

Comparing the Usages of Vocabulary by Medias for Disaster Safety Terminology Construction (재난안전 용어사전 구축을 위한 미디어별 어휘 사용 양상 비교)

  • Lee, Jung-Eun;Kim, Tae-Young;Oh, Hyo-Jung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.6
    • /
    • pp.229-238
    • /
    • 2018
  • The rapid response of disaster accidents can be archived through the organical involvement of various disaster and safety control agencies. To define the terminology of disaster safety is essential for communication between disaster safety agencies and well as announcement for the public. Also, to efficiently construct a word dictionary of disaster safety terminology, it's necessary to define the priority of the terms. In order to establish direction of word dictionary construction, this paper compares the usage of disaster safety terminology by media: word dictionary, new media, and social media, respectively. Based on the terminology resources collected from each media, we visualized the distribution of terminology according to frequency weights and analyzed co-occurrence patterns. We also classified the types of terminology into four categories and proposed the priority in the construction of disaster safety word dictionary.

Application and Standardization of Terminology Dictionary for Defense Science and Technology (국방과학기술 전문용어 사전 구축 표준화 및 활용 방안 연구)

  • Choi, Jung-Hwoan;Choi, Sukdoo;Kim, Leekyum;Park, Youngwook;Jeong, Jonghee;An, Heejung;Jung, Hanmin;Kim, Pyung
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2011.05a
    • /
    • pp.67-68
    • /
    • 2011
  • 국방과학기술 분야 업무의 효율성을 극대화하기 위해서는 국가적인 차원에서 국방 관련 기관들이 사용하고 있는 국방과학기술 분야의 전문용어를 광범위하게 수집하고 기술 체계를 통일하여 관리하는 것이 필요하다. 본 연구에서는 고도의 신뢰성이 요구되는 국방과학기술 정보분석의 기반을 제공하기 위해서 국방과학기술분야를 중심으로 전문용어의 선정, 기술 기준, 기술 구조를 포함하는 모든 프로세스를 표준화하는 것은 물론, 온라인 서비스에 전문용어 사전의 효과적으로 활용하기 위한 방안을 제시하고 있다.

  • PDF

코퍼스를 이용한 정보검색용 전자사전구축에 관한 연구

  • Nam, Yeong-Jun
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.430-440
    • /
    • 1996
  • 지능형 정보검색시스템이 효율적으로 운용되기 위해서는 여러개의 서브시스템이 필요하다. 특히, 시소러스와 색인 및 검색시스템용 전자사전은 중요한 지식베이스이다. 본 연구에서는 한글전자사전의 개발에 필요한 이론과 구축기술에 대해 조사하였다. 그 내용은 1)전자사전의 의미, 2)전자사전의 형태, 3) 전자사전개발을 위한 코퍼스 구축기술 및 방법이라는 이론적인 부분과 실제 과기원코퍼스2를 이용한 균형코퍼스를 설계하였다. 한편, 균형코퍼스를 이용한 기본적인 명사사전과 공기사전, 전문용어사전구축방법도 제시하였다.

  • PDF

Construction of Immunology Thesaurus and Ontology (면역학 시소러스 및 온톨로지 구축)

  • Im, Ji-Hui;Choe, Ho-Seop;Bae, Young-Jun;Ock, Cheol-Young;Choi, Sung-Pil;Sung, Won-Kyung;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.21-27
    • /
    • 2005
  • 본 논문에서는 국가에서 추진하는 차세대신성장동력산업과 관련된 특정 분야('바이오 신약/장기' 분야 중 '면역 기능 제어')를 선택하여, 기구축된 면역학 전문용어사전을 비롯하여 의학용어사전, 표준국어대사전 등을 참조하여 핵심 용어와 관련 용어를 중심으로 면역학 시소러스(어휘 3,462개) 및 온톨로지(개념 노드 4,703개)를 구축하였다. 이것은 전문용어사전부터 온톨로지에 이르기까지 통일화된 표준 체계를 가지고 있으며, 도메인 온톨로지를 구축하여 향후 온톨로지 개발 방향을 설정할 수 있는 계기가 되었다고 할 수 있다. 또한 면역학 시소러스는 검색의 성능을 향상시킬 수 있도록 충분한 양의 데이터를 구축하였고 면역학 온톨로지는 언어처리적 관점에서의 온톨로지를 표현하였다. 이는 정보검색에서의 효율성을 비롯하여, 특정 웹 온톨로지 언어를 이용한 웹 온톨로지로의 변환성, 대규모 도메인 온톨로지라는 점에서 의미를 가진다고 할 수 있다.

  • PDF

Construction of the Terminology Dictionary for National R&D Information Utilization (국가R&D정보활용을 위한 전문용어사전 구축)

  • Kim, Tae-Hyun;Yang, Myung-Seok;Choi, Kwang-Nam
    • The Journal of the Korea Contents Association
    • /
    • v.19 no.10
    • /
    • pp.217-225
    • /
    • 2019
  • National research and development(R&D) information is information generated in the process of performing R&D based on programs and projects issued by national government departments, and includes information from various research fields as ordered by various departments. Therefore, for efficient R&D information retrieval, it is necessary to build a national R&D terminology dictionary that can reflect the characteristics of such national R&D information. In this study, we propose a method for constructing a national R&D terminology dictionary by applying the classification of science and technology standards used to specify the research field in national R&D information. We will discuss the structural characteristics of national R&D project information and the usefulness of the project keyword, and explain the status of national R&D information by the National Standard Science and Technology Classification(NSSTC) Codes and the characteristics of the national R&D terminologies. Based on this, a method for building a national R&D terminology dictionary is defined in terms of the type and structure of the terminology dictionary, preliminary construction procedures, and refining rules. The national R&D terminology dictionary built on the basis of this study can be used in various ways such as expansion of search terms using Korean-English equivalent words and synonyms when searching national R&D information, clarifying the scope of search using NSSTC, and providing user convenience functions using term explanation information.