• 제목/요약/키워드: Standard Korean Dictionary

검색결과 79건 처리시간 0.023초

한중한자자형비교연구(韓中漢字字形比較硏究)2 - 한문(漢文) 교육용(敎育用) 기초한자(基礎漢字) 고등학교용(高等學校用) 900자(字)를 중심(中心)으로

  • 강혜근
    • 중국학논총
    • /
    • 제62호
    • /
    • pp.1-25
    • /
    • 2019
  • 作者对韩国教育部指定的"漢文敎育用基礎漢字高等學校用900字"跟中国规范汉字字形, 进行比较分析的结果如下: (1)字形完全一样的(在附录"高中学校用900字"汉字旁边标注为"="), 一共有424个汉字(约占47%); (2)字形相似的(在附录"高中学校用900字"汉字旁边标注为"Δ"), 一共有86个汉字(约占10%); (3)字形不同的(在附录"高中学校用900字"汉字旁边标注为"×"), 一共有389个汉字(约占43%). 字形相似, 不等于字形相同, 所以也应该看作字形不同的字, 属于这两种情况的字合起来, 一共有475个(约占53%). 韩中汉字字形不同的主要来源, 不止"简化字"和"传承字里的新字形", 还有"从一些异体字里选出来的正体字"也和韩国常用汉字字形不同.

북한 문헌분류표 <분류-검색어사전>의 특징 분석 (A Study on the Features of the <Classification-Search Term Dictionary>, the Library Classification Scheme in North Korea)

  • 최재황
    • 한국도서관정보학회지
    • /
    • 제53권4호
    • /
    • pp.123-142
    • /
    • 2022
  • 북한은 2000년 2권 8책의 <분류-검색어사전>을 개발하여 발표하였고, 이 문헌분류표는 북한 전역에서 현재 사용되고 있다. 본 연구의 목적은 해방 이후 북한도서관의 문헌분류표 발전과정을 통시적으로 살펴보고 2000년에 발표되고 2014년에 개정된 <분류-검색어사전>의 내용, 구성, 원리를 파악해 보는 데 있다. 지금까지 북한의 문헌분류표에 대한 연구는 1964년 북한에서 발표된 <도서분류표>에 대한 논의가 전부이며, 이후 북한의 문헌분류표에 대한 연구는 없었다. <분류-검색어사전(2000)>의 제1권은 '분류기호-검색어', 제2권은 '검색어-분류기호'로 구성된다. 제1권은 1996년에 발표된 <도서 및 서지 분류표>에 기초하고 있으며 다섯 부문에 걸쳐 총 41개의 류문으로 전개된다. 혁명사상과 이론'에 1개(11/19) 류문, '자연과학'에 8개(20~27), '공학기술 및 응용과학'에 가장 많은 19개(30~60/69), '사회과학' 부문에 12개(70~85), 그리고 '총류'에 1개(90)의 류문을 배정하고 있다. 제2권은 주제명표목표와 유사하다. 북한의 <분류-검색어사전>은 국내에 처음 소개되는 문헌분류표이며, 본 연구는 향후 남북간 표준통일분류표 제정 연구를 위한 기초 연구에 활용될 수 있을 것이다.

지능형 검색엔진을 위한 색상 질의 처리 방안 (Color-related Query Processing for Intelligent E-Commerce Search)

  • 홍정아;구교정;차지원;서아정;여운영;김종우
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.109-125
    • /
    • 2019
  • 지능형 전자상거래 검색 엔진에 대한 관심이 커지면서, 검색 상품의 특징을 지능적으로 추출하고 활용하기 위한 연구들이 수행되고 있다. 특히 전자상거래 지능형 검색 엔진에서 상품을 검색 할 때, 제품의 색상은 상품을 묘사하는 중요한 특징 중에 하나이다. 따라서 사용자의 질의에 정확한 응답을 위해서는 사용자가 검색하려는 색상과 그 색상의 동의어 및 유의어에 대한 처리가 필요하다. 기존의 연구들은 색상 특징에 대한 동의어 처리를 주로 사전 방식으로 다뤄왔다. 하지만 이러한 사전방식으로는 사전에 등록되지 않은 색상 용어가 질의에 포함된 경우 처리하지 못하는 한계점을 가지고 있다. 본 연구에서는 기존에 사용하던 방식의 한계점을 극복하기 위하여, 실시간으로 인터넷 검색 엔진을 통해 해당 색상의 RGB 값을 추출한 후 추출된 색상정보를 기반으로 유사한 색상명들을 출력하는 모델을 제안한다. 본 모델은 우선적으로 기본적인 색상 검색을 위해 671개의 색상명과 각 RGB값이 저장된 색상 사전을 구축하였다. 본 연구에서 제시한 모델은 특정 색상을 검색하는 것으로 시작하며, 검색된 색상이 색상 사전 내 존재하는 지 유무를 확인한다. 사전 내에 검색한 색상이 존재한다면, 해당 색상의 RGB 값이 기준 값으로 사용된다. 만일 색상사전 내에 존재하지 않는다면, Google 이미지 검색 결과를 크롤링하여 각 이미지의 특정 영역 내 RGB값들을 군집화하여 구한 평균 RGB값을 검색한 색상의 기준 값으로 한다. 기준 RGB값을 앞서 구축한 색상 사전 내의 모든 색상의 RGB 값들과 비교하여 각 R, G, B 값에 있어서 ${\pm}50$ 내의 색상 목록을 정렬하고, RGB값 간의 유클리디안 거리 유사도를 활용하여 최종적으로 유사한 색 상명들을 출력한다. 제안 방안의 유용성을 평가하기 위해 실험을 진행하였다. 피설문자들이 생각하는 300 개의 색상 이름과 해당 색상 값을 얻어, 본 연구에서 제안한 방안을 포함한 총 네가지 방법을 통해 얻은 RGB 값들과 피설문자가 지정한 RGB값에 대한 비교를 진행했다. 인간의 눈을 반영하는 측정 기준인 CIELAB의 유클리드안거리는 평균 13.85로 색상사전만을 활용한 방안의 30.88, 한글 동의어사전 사이트인 워드넷을 추가로 활용한 방안의 30.38에 비해 비교적 낮은 색상 간의 거리 값을 보였다. 연구에서 제시하는 방안에서 군집화 과정을 제외한 방안의 색 차는 13.88로 군집화 과정이 색 차를 줄여준다는 것을 확인할 수 있었다. 본 연구에서는 기존 동의어 처리 방식인 사전 방식이 지닌 한계에서 벗어나기 위해, 사전 방식에 새로운 색상명에 대한 실시간 동의어 처리 방식을 결합한 RGB값 기반의 새로운 색상 동의어 처리 방안을 제안한다. 본 연구의 결과를 활용하여 전자상거래 검색 시스템의 지능화에 크게 기여할 수 있을 것이다.

U-WIN을 이용한 한국어 복합명사 분해 및 의미태깅 시스템 (Korean Compound Noun Decomposition and Semantic Tagging System using User-Word Intelligent Network)

  • 이용훈;옥철영;이응봉
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.63-76
    • /
    • 2012
  • 본 논문에서는 통계기반의 복합명사 분해 방법과 어휘의미망(U-WIN)과 사전 뜻풀이에서 추출한 의미관계 정보를 이용하는 한국어 복합명사 의미 태깅 시스템을 제안한다. 본 시스템은 크게 복합명사 분해, 의미제약, 그리고 의미 태깅의 세 가지 부분으로 이루어진다. 분해과정은 세종말뭉치에서 추출한 위치별명사 빈도를 사용하여 최적의 구성 명사 분해 후보를 선정하고 의미제약을 위한 구성 명사 재분해와 외래어 복원의 과정을 수행한다. 의미범위 제약과정은 유사도 비교의 계산량을 줄이고 정확도를 높이기 위해 원어 정보와 Naive Bayes Classifier를 이용해 가능한 경우 구성 명사의 의미를 선 제약한다. 의미 분석 및 태깅 과정에서는 bigram 구성 명사의 각 의미 유사도를 구하고 하나의 체인을 만들어가며 태깅을 수행한다. 본 시스템의 성능 평가를 위해 표준국어대사전에서 추출한 3음절 이상의 40,717개의 복합명사를 대상으로 의미 태깅된 테스트 셋을 구축하였다. 이를 이용한 실험에서 99.26%의 분해 정확도를 보였으며, 95.38%의 의미 분석 정확도를 보였다.

고속전송을 위한 V.42bis 데이터 압축 기법의 개선 (Data compresson for high speed data transmission)

  • 조성렬;최혁;김태영;김태정
    • 한국통신학회논문지
    • /
    • 제23권7호
    • /
    • pp.1817-1823
    • /
    • 1998
  • 이 논문에서는 비통기식 데이터 압축의 국제 표준으로 되어있는 Lempel-Ziv-Welch 부호의 일종인 V.42bis 방식을 데이터의 고속 전송에 적용할 경우 압축 과정에서 나타나는 여러 현상들을 분석하고 이에 맞는 변형기법을 제안한다. 제안된 기법은 압축률을 결정하는 중요한 요인중의 하나인 부호책의 크기를 최적화하고, 부호책의 갱신 방법을 개선하여 압축률을 향상시킨다. 또 빈번한 압축 형식 전환에서 오는 문제점을 분석하고 형식 전환에 사용되는 문턱값 조절로 이를 어느정도 개선하여, 압축률의 시간에 따른 변화를 줄인다는 측면에서 성능 향상을 이루었다. 후자의 개선은 데이터의 고속 전송시에 완충기(buffer) 설계 및 제어에 중요한 기여를 한다.

  • PDF

선호도 조사를 통한 ㄴ첨가 현상의 실현 양상 연구 (A Study of N-Insertion Preferences in Korean)

  • 국경아;김주원;이호영
    • 대한음성학회지:말소리
    • /
    • 제53호
    • /
    • pp.37-60
    • /
    • 2005
  • A Study of N-Insertion Preferences in KoreanKyung-A Kook, Ju-Won Kim, Ho-Young LeeSince n-insertion is not an obligatory process in Korean, it is necessary to investigate what factors influence n-insertion preferences and whether n-insertion preferences have been changed over time. To find answers to these questions, an n-insertion preference test using a questionnaire was conducted. 183 words were selected for this test and 167 subjects participated in the test. The results of this test show that the n-insertion preferences were influenced by the speakers' age, the number and structure of the syllable, word class, phonetic environments, and familiarity. It is suggested that the results of this test should be incorporated into the Principles of Standard Pronunciation and in the Grand Dictionary of Standard Korean.

  • PDF

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.

주문형 금형 부품의 디지털 제조를 지원하는 전자 카달로그 (An e-Catalog to Support e-Machining of ETO Mold Parts)

  • 문두환;조준면;김병철;장광섭;한순흥;류병우
    • 한국CDE학회논문집
    • /
    • 제10권3호
    • /
    • pp.188-198
    • /
    • 2005
  • There are two types of mold parts, ready-made standard parts and ETO (Engineered-to-Order) parts, the latter are of increasing importance to manufacturers. However, the ETO parts require more engineering support and communication than the ready-made standard parts. Existing e-Catalog modules provide classification structures of products that allow customers to select products based on their needs, and the trade begins with the provided specification. However, machine parts or mold parts have different purchasing patterns. Customers do not purchase the ready-made standard parts offered by an e-Catalog. They usually (1) add own options to the provided specifications or (2) change specification items such as length. To support these trades, a new e-Catalog system is proposed. The proposed system is based on the product design process and the specification selection process in addition to the parts classification structure.

국어학 연구의 성격과 태도에 대한 반성 (Reflections on the Study of national Language in Korea)

  • 임용기
    • 인문언어
    • /
    • 제5권
    • /
    • pp.55-74
    • /
    • 2003
  • The issues concerning the nature of the attitude toward the study of national language may vary from country to country, depending on the national or racial characteristics. The problem domains and the methodologies dealing with them may vary accordingly. Ever since the Korean language was equipped with a writing system in the year of 1443 through King Sejong's long-cherished desire, investigations have been constantly made into the real nature of the language itself in pursuit of a better method for representing the spoken language in written form. This is how the study of the Korean language began to take shape. Among such investigations are Hunmin-jeong-eum(the Korean script: 1446) compiled by Jiphyon-jon, the royal office of schloarly researches, Doongguk-jeonghun-yokhun (the orthodox script of Korean: 1448), Hongmu-jeonghun-yeokhun(interlinear gloss for the Chinese script of the Ming Dynasty: 1455), An Orthodox Approach to Written Korean (1909) by the institute of the National Script, Re Standardized Spelling System (1933) by Chosun Language Society, An Authorized Dictionary of Standard Korean (1936), How to Write Borrowed Words(1940), and A Grand dictionary of Korea (1947-57). Chu Shi-Gyung's Phonetics of the Korean Script(1908), Korean Grammar(1910), and Sound Patterns of Korean(1914) were all written in this vein; so was Choi Hyun-Bae's Uri-mal-bon (the rudiments of Korean Grammar: 1929/1937). All these achievements in the study of the Korean language are the end-products of the constant endeavor to solve the issues related to the spoken and written farms of the Korean language. And this is how the uniqueness and autonomy of the language study in korea have been established. It should be borne in mind, however, that, in seeking solutions to the problems inherent in the Korean linguistic studies of foreign countries. On the contrary, they have been very active in accommodating such results. While they have set up their problem domains on the basis of the korean language, they been progressively open-minded in looking for the solutions to the problems at hand.

  • PDF

자연언어처리용 전자사전을 위한 한국어 기본어휘 선정 (Selection of Korean General Vocabulary for Machine Readable Dictionaries)

  • 배희숙;이주호;시정곤;최기선
    • 한국언어정보학회지:언어와정보
    • /
    • 제7권1호
    • /
    • pp.41-54
    • /
    • 2003
  • According to Jeong Ho-seong (1999), Koreans use an average of only 20% of the 508,771 entries of the Korean standard unabridged dictionary. To establish MRD for natural language processing, it is necessary to select Korean lexical units that are used frequently and are considered as basic words. In this study, this selection process is done semi-automatically using the KAIST large corpus. Among about 220,000 morphemes extracted from the corpus of 40,000,000 eojeols, 50,637 morphemes (54,797 senses) are selected. In addition, the coverage of these morphemes in various texts is examined with two sub-corpora of different styles. The total coverage is 91.21 % in formal style and 93.24% in informal style. The coverage of 6,130 first degree morphemes is 73.64% and 81.45%, respectively.

  • PDF