• Title/Summary/Keyword: 전문용어 사전 구축

Search Result 34, Processing Time 0.029 seconds

Design and Implementation of technical term dictionary system written in nML (nML을 이용한 기술용어 사전 시스템 구축)

  • 강현구;이광근
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.70-72
    • /
    • 2001
  • ML은 엄밀한 수학적 모델에 기반 하여 구현된 프로그래밍 언어로서 고차함수, 복합형 함수와 엄격한 타입시스템을 지원하는 언어이다. nML은 한국과학기술원 프로그램 분석 시스템 연구단에서 연구중인 프로그램 분석 기술을 최대한 반영하여 구현하고 있는 ML의 한국형 사투리이다. 본 논문에서는 nML을 이용하여 일반적이고 자주 사용되는 프로그래밍 국면을 다양하게 반영한 응용프로그램을 구축하여 보았다. 구현하고자 하는 시스템은 중앙 집중형 데이터 서버를 가지는 기술용어 사전 시스템으로서 KDIC이라 명하였다. 본 시스템의 목적은 특정 분야에서 영어 용어들에 대한 전문인의 한글 용어로의 번역 사례를 모은 데이터 베이스를 구축하고, 이러한 번역 사례가 자연스럽게 이용되고자 함에 있다.

Analyzing the Effect of Characteristics of Dictionary on the Accuracy of Document Classifiers (용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구)

  • Jung, Haegang;Kim, Namgyu
    • Management & Information Systems Review
    • /
    • v.37 no.4
    • /
    • pp.41-62
    • /
    • 2018
  • As the volume of unstructured data increases through various social media, Internet news articles, and blogs, the importance of text analysis and the studies are increasing. Since text analysis is mostly performed on a specific domain or topic, the importance of constructing and applying a domain-specific dictionary has been increased. The quality of dictionary has a direct impact on the results of the unstructured data analysis and it is much more important since it present a perspective of analysis. In the literature, most studies on text analysis has emphasized the importance of dictionaries to acquire clean and high quality results. However, unfortunately, a rigorous verification of the effects of dictionaries has not been studied, even if it is already known as the most essential factor of text analysis. In this paper, we generate three dictionaries in various ways from 39,800 news articles and analyze and verify the effect each dictionary on the accuracy of document classification by defining the concept of Intrinsic Rate. 1) A batch construction method which is building a dictionary based on the frequency of terms in the entire documents 2) A method of extracting the terms by category and integrating the terms 3) A method of extracting the features according to each category and integrating them. We compared accuracy of three artificial neural network-based document classifiers to evaluate the quality of dictionaries. As a result of the experiment, the accuracy tend to increase when the "Intrinsic Rate" is high and we found the possibility to improve accuracy of document classification by increasing the intrinsic rate of the dictionary.

Comparative analysis of inter-Korean acoustic terminology and proposal for integration (남북한 음향학 전문용어 비교 분석 및 통합안 제시)

  • Jiwan Kim
    • The Journal of the Acoustical Society of Korea
    • /
    • v.42 no.4
    • /
    • pp.271-284
    • /
    • 2023
  • This study compared 431 acoustic terminology of South Korean industrial standards and North Korean national standards based on IEC 60050-801:1994 international standards. In addition, this study attempted to integrate acoustic terminology between the two Koreas. There were 139 (32.3 %) AA types with exactly the same form of terminology, 35 (8.1 %) Aa types with different spellings due to differences in linguistic norms, and 257 (59.6 %) AB types with completely different forms. Morphologically, there were more than twice as many different types of terminology as the same type. In the integration of acoustic terminology with different forms, 178 (61 %) North Korean terminology and 76 (26 %) South Korean terminology were adopted. we would like to overcome the limitations of this study through the following suggestions. First, the government should support academic exchanges between the two Koreas and encourage the establishment of common standards for acoustic terminology. Second, efforts should be made to share acoustic terminology data between the two Koreas and publish an integrated acoustic terminology dictionary. Third, South and North Korea should jointly launch a terminology committee to make efforts to revise international standards together.

Development of a Framework for Semi-automatic Building Test Collection Specialized in Evaluating Relation Extraction between Technical Terminologies (기술용어 간 관계추출의 성능평가를 위한 반자동 테스트 컬렉션 구축 프레임워크 개발)

  • Jeong, Chang-Hoo;Choi, Sung-Pil;Lee, Min-Ho;Choi, Yun-Soo
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.2
    • /
    • pp.481-489
    • /
    • 2010
  • Due to the increase of the attention on relation extraction systems, the construction of test collections for assessing their performance has emerged as an important task. In this paper, we propose semi-automatic framework capable of constructing test collections for relation extraction on a large scale. Based on this framework, we develop a test collection which can assess the performance of various approaches to extracting relations between technical terminologies in scientific literatures. This framework can minimize the cost of constructing this kind of collections and reduce the intrinsic fluctuations which may come from the diversity in characteristics of collection developers. Furthermore, we can construct balanced and objective collections by means of controlling the selection process of seed documents and terminologies using the proposed framework.

Automatic Construction of a Transliteration Dictionary from Bilingual Corpus (이중언어 코퍼스로부터 외래어 표기 사전의 자동구축)

  • Lee, Jae-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.142-149
    • /
    • 1999
  • 외국문명의 영향으로 많은 외래어가 한국어 문서 내에서 사용되고 있으며, 이러한 단어는 주로 전문용어, 고유명사, 신조어 등으로 사전에 등록되지 않는 것이 많다. 본 논문에서는 이중언어 코퍼스로부터 자동으로 외래어 사전을 추출해 내는 확률적 정렬 방법과 실험결과를 소개한다. 확률적 정렬 방법은 통계적 음차 표기 모델에서 사용된 방법을 변형하여 적용한 것이며, 문서단위로 정렬된 두 종류의 영-한 이중언어 코퍼스에 대해 실험하여 재현률과 정확률을 측정하였다 성능은 전처리단계인 한국어 미등록어 추정에 영향을 많이 받았는데, 미등록어 추정을 대략하였을 경우, 재현률은 평균 58%였고, 정확률은 평균74%이었으며, 수동으로 미등록어 명사를 분리했을 경우, 재현률 평균86%, 정확률 평균91%로 외래어와 대응되는 원어를 추출해 냈다.

  • PDF

Research and Development of Document Recognition System for Utilizing Image Data (이미지데이터 활용을 위한 문서인식시스템 연구 및 개발)

  • Kwag, Hee-Kue
    • The KIPS Transactions:PartB
    • /
    • v.17B no.2
    • /
    • pp.125-138
    • /
    • 2010
  • The purpose of this research is to enhance document recognition system which is essential for developing full-text retrieval system of the document image data stored in the digital library of a public institution. To achieve this purpose, the main tasks of this research are: 1) analyzing the document image data and then developing its image preprocessing technology and document structure analysis one, 2) building its specialized knowledge base consisting of document layout and property, character model and word dictionary, respectively. In addition, developing the management tool of this knowledge base, the document recognition system is able to handle the various types of the document image data. Currently, we developed the prototype system of document recognition which is combined with the specialized knowledge base and the library of document structure analysis, respectively, adapted for the document image data housed in National Archives of Korea. With the results of this research, we plan to build up the test-bed and estimate the performance of document recognition system to maximize the utilization of full-text retrieval system.

Using Machine Translation Agent Based on Ontology Study of Real Translation (온톨로지 기반의 지능형 번역 에이전트를 이용한 실시간 번역 연구)

  • Kim Su-Gyeong;Kim Gyeong-A;An Gi-Hong
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2006.06a
    • /
    • pp.229-233
    • /
    • 2006
  • 기계번역(Machine Translaton, MT), 다국어 정보 검색, 의미 정보 검색 등에 대한 연구는 시소러스, 지식베이스, 사전 검색, 의미망, 코퍼스등과 같은 다양한 방법으로 이루어지고 있다. 시맨틱 웹이 등장과 시맨틱 웹 기반 기술의 발전에 따라 위 연구들을 시맨틱 웹에 적용시킬 필요성도 제안되었다. 특히 한국어 시소러스, 워드넷(WordNet), 전자 세종 사전, 가도까와(Kadokawa) 시소러스와 같은 지식베이스가 개발되었으나 활용 분야에 따라 그 구축 방법론이 다르게 적용되어, 위 연구에 효과적으로 통용될 수 있는 지식베이스는 실질적으로 구축되지 못한 실정이다. 따라서 본 연구에서는 세종 사전과 가도까와 시소러스, 한/일 기계 번역 사전 그리고 전문 용어 사전을 기반으로 한국어와 일본어 지식베이스를 위한 사전 온톨로지 서버를 정의하여 의미 정보를 구성하고, Semantic Web Rule Markup Language (이하 SWRL)을 이용해 구문 정보 규칙을 정의한다. 그리고 SWRL 기반 정방향 추론 엔진을 이용하여 번역에 필요한 추론 엔진을 구성하고 문장 구문형성 규칙 추론 엔진을 통해 사용자에게 한국어와 일본어의 문장 구성 변환을 제공한다. 본 연구는 현재 기계 번역이 갖고 있는 다의성, 술부 어순의 차이, 경어체 등 아직 해결해야 할 많은 부분들에 대한 해결 방안으로서 시맨틱 웹 기반 기술과의 활용방안을 제시하고자 한다.

  • PDF

A Study on the Integration of Information Extraction Technology for Detecting Scientific Core Entities based on Large Resources (대용량 자원 기반 과학기술 핵심개체 탐지를 위한 정보추출기술 통합에 관한 연구)

  • Choi, Yun-Soo;Cheong, Chang-Hoo;Choi, Sung-Pil;You, Beom-Jong;Kim, Jae-Hoon
    • Journal of Information Management
    • /
    • v.40 no.4
    • /
    • pp.1-22
    • /
    • 2009
  • Large-scaled information extraction plays an important role in advanced information retrieval as well as question answering and summarization. Information extraction can be defined as a process of converting unstructured documents into formalized, tabular information, which consists of named-entity recognition, terminology extraction, coreference resolution and relation extraction. Since all the elementary technologies have been studied independently so far, it is not trivial to integrate all the necessary processes of information extraction due to the diversity of their input/output formation approaches and operating environments. As a result, it is difficult to handle scientific documents to extract both named-entities and technical terms at once. In this study, we define scientific as a set of 10 types of named entities and technical terminologies in a biomedical domain. in order to automatically extract these entities from scientific documents at once, we develop a framework for scientific core entity extraction which embraces all the pivotal language processors, named-entity recognizer, co-reference resolver and terminology extractor. Each module of the integrated system has been evaluated with various corpus as well as KEEC 2009. The system will be utilized for various information service areas such as information retrieval, question-answering(Q&A), document indexing, dictionary construction, and so on.

The design and implementation of Manual XML DTD (교범 XML DTD 설계 및 구현)

  • Park, Se-Chul;Lee, Sang-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.10b
    • /
    • pp.1189-1192
    • /
    • 2001
  • XML을 이용하여 다른 조직이나 사용자간에 원활한 데이터 교환과 사용을 위해서는 공통적으로 사용할 수 있는 태그나 용어가 표준화되어야 한다. 현재 군 교범(야전교범 및 기술교범)을 XML을 이용하여 개발하려 노력하고 있으나, 사전연구가 미홉하고 표준이 정해지지 않은 상태에서 각 개별 기관별로 문서구조를 정의하고 태그를 사용함으로써 상호 호환성의 결여 및 차후 변환을 위한 낭비적 요소가 우려된다. 따라서 군 내부에서 XML을 적용한 문서 유형별 표준화가 시급히 요구되고 있다. 본 연구에서는 교범에 대한 XML 문서형정의를 설계하고 국방 표준 교범 XML DTD를 제안한다. 표준으로서의 문서형정의는 전자도서관에서 전문을 구축하는데 이용한 수 있을 뿐만 아니라 대화형 전자식 매뉴얼 구축에 기여할 수 있다.

  • PDF

Method Customizing From Web-based English-Korean MT System To English-Korean MT System for Patent Documents (웹 영한 번역기로부터 특허 영한 번역기로의 특화 방법)

  • Choi, Sung-Kwon;Kwon, Oh-Woog;Lee, Ki-Young;Roh, Yoon-Hyung;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.57-64
    • /
    • 2006
  • 본 논문에서는 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특허용 영한 자동번역기로 특화하는 방법에 대해 기술한다. 특허용 영한 파동번역기로의 특화는 다음과 같은 절차에 의해 이루어진다: 1) 대용량 특허 문서에 대한 언어학적 특성 분석, 2) 대용량 특허문서 대상 전문용어 추출 및 대역어 구축, 3) 기존 번역사전 대역어의 특화, 4) 특허문서 고유의 번역 패턴 추출 및 구축, 5) 언어학적 특성 분석에 따른 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 절차에 의해 만들어진 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계분야(80.54%), 전기전자분야(81.58%), 화학일반분야(79.92%), 의료위생분야(80.79%), 컴퓨터분야(82.29%)의 성능을 보였으며 계속 개선 중에 있다. 현재 본 논문에서 기술된 영한 특허 자동번역 시스템은 산업자원부의 특허지원센터에서 변리사 및 특허 심사관이 영어 전기전자분야 특허 문서를 검색할 때 한국어 번역서비스를 제공받도록 이용되고 있으며($\underline{http://www.ipac.or.kr}$), 2007년에는 전분야 특허문서에 대한 영한 자동번역 서비스를 제공할 예정이다.

  • PDF