• 제목/요약/키워드: multi-dictionary

검색결과 43건 처리시간 0.024초

지지벡터기계를 이용한 단어 의미 분류 (Word Sense Classification Using Support Vector Machines)

  • 박준혁;이성욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.563-568
    • /
    • 2016
  • 단어 의미 분별 문제는 문장에서 어떤 단어가 사전에 가지고 있는 여러 가지 의미 중 정확한 의미를 파악하는 문제이다. 우리는 이 문제를 다중 클래스 분류 문제로 간주하고 지지벡터기계를 이용하여 분류한다. 세종 의미 부착 말뭉치에서 추출한 의미 중의성 단어의 문맥 단어를 두 가지 벡터 공간에 표현한다. 첫 번째는 문맥 단어들로 이뤄진 벡터 공간이고 이진 가중치를 사용한다. 두 번째는 문맥 단어의 윈도우 크기에 따라 문맥 단어를 단어 임베딩 모델로 사상한 벡터 공간이다. 실험결과, 문맥 단어 벡터를 사용하였을 때 약 87.0%, 단어 임베딩을 사용하였을 때 약 86.0%의 정확도를 얻었다.

형태소 발음변이를 고려한 음성인식 단위의 성능 (Performance of speech recognition unit considering morphological pronunciation variation)

  • 방정욱;김상훈;권오욱
    • 말소리와 음성과학
    • /
    • 제10권4호
    • /
    • pp.111-119
    • /
    • 2018
  • This paper proposes a method to improve speech recognition performance by extracting various pronunciations of the pseudo-morpheme unit from an eojeol unit corpus and generating a new recognition unit considering pronunciation variations. In the proposed method, we first align the pronunciation of the eojeol units and the pseudo-morpheme units, and then expand the pronunciation dictionary by extracting the new pronunciations of the pseudo-morpheme units at the pronunciation of the eojeol units. Then, we propose a new recognition unit that relies on pronunciation by tagging the obtained phoneme symbols according to the pseudo-morpheme units. The proposed units and their extended pronunciations are incorporated into the lexicon and language model of the speech recognizer. Experiments for performance evaluation are performed using the Korean speech recognizer with a trigram language model obtained by a 100 million pseudo-morpheme corpus and an acoustic model trained by a multi-genre broadcast speech data of 445 hours. The proposed method is shown to reduce the word error rate relatively by 13.8% in the news-genre evaluation data and by 4.5% in the total evaluation data.

유의어 사전 기반 환경기술 검색 시스템 설계 (Design of environmental technology search system using synonym dictionary)

  • ;;구영현;유성준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.582-586
    • /
    • 2020
  • 국가기후기술정보시스템은 국내 환경기술과 국외의 수요기술 정보를 제공하는 검색 시스템이다. 그러나 기존의 시스템은 유사한 뜻을 가진 단일 단어와 복수 단어들을 모두 식별하지 못하기에 유의어를 입력했을 경우 검색 결과가 다르다. 이런 문제점을 해결하기 위해 본 연구에서는 유의어 사전을 기반으로한 환경기술 검색 시스템을 제안한다. 이 시스템은 Word2vec 모델과 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Application with Noise) 알고리즘을 이용해 유의어 사전을 구축한다. Word2vec 모델을 이용해 한국어와 영어 위키백과 코퍼스에 대해 형태소 분석을 진행한 후 단일 단어와 복수 단어를 포함한 단어를 추출하고 벡터화를 진행한다. 그 다음 HDBSCAN 알고리즘을 이용해 벡터화된 단어를 군집화 해주고 유의어를 추출한다. 기존의 Word2vec 모델이 모든 단어 간의 거리를 계산하고 유의어를 추출하는 과정과 대비하면 시간이 단축되는 역할을 한다. 추출한 유의어를 통합해 유의어 사전을 구축한다. 국가기후기술정보시스템에서 제공하는 국내외 기술정보, 기술정보 키워드와 구축한 유의어 사전을 Multi-filter를 제공하는 Elasticsearch에 적용해 최종적으로 유의어를 식별할 수 있는 환경기술 검색 시스템을 제안한다.

  • PDF

한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩 (Utilizing Local Bilingual Embeddings on Korean-English Law Data)

  • 최순영;;임희석
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.45-53
    • /
    • 2018
  • 최근 이중 언어 임베딩(bilingual word embedding) 관련 연구들이 각광을 받고 있다. 그러나 한국어와 특정 언어로 구성된 병렬(parallel-aligned) 말뭉치로 이중 언어 워드 임베딩을 하는 연구는 질이 높은 많은 양의 말뭉치를 구하기 어려우므로 활발히 이루어지지 않고 있다. 특히, 특정 영역에 사용할 수 있는 로컬 이중 언어 워드 임베딩(local bilingual word embedding)의 경우는 상대적으로 더 희소하다. 또한 이중 언어 워드 임베딩을 하는 경우 번역 쌍이 단어의 개수에서 일대일 대응을 이루지 못하는 경우가 많다. 본 논문에서는 로컬 워드 임베딩을 위해 한국어-영어로 구성된 한국 법률 단락 868,163개를 크롤링(crawling)하여 임베딩을 하였고 3가지 연결 전략을 제안하였다. 본 전략은 앞서 언급한 불규칙적 대응 문제를 해결하고 단락 정렬 말뭉치에서 번역 쌍의 질을 향상시켰으며 베이스라인인 글로벌 워드 임베딩(global bilingual word embedding)과 비교하였을 때 2배의 성능을 확인하였다.

에이전트기반 개방병원 간호기록시스템 설계에 관한 연구 (A Study on Design of Agent based Nursing Records System in Attending System)

  • 김경환
    • 지능정보연구
    • /
    • 제16권2호
    • /
    • pp.73-94
    • /
    • 2010
  • 개방병원에 환자의 입원을 의뢰한 담당 의사들은 환자들의 상태와 제대로 된 간호서비스를 받고 있는지에 대한 정보를 간호기록을 열람함으로써 확인할 수 있다. 하지만 간호기록은 병원의 내부자료로써 외부기관에 쉽게 공개할 수 없는 자료이고 표준화가 확립되어 있지 않아 병원별로 다르게 작성되고 있어 필요한 정보를 공유하는데 많은 어려움이 따른다. 따라서 본 연구에서는 개방병원 간호기록의 작성과 공유를 지원하기 위한 시스템을 개발하고자 하였다. 본 시스템은 우선 간호기록을 실제로 작성하는 간호사의 편의성을 고려하여 간호기록항목사전을 설정하게 하고 간호사와 의사간의 지능형 에이전트를 이용한 협상으로 작성과 공개의 항목을 확정하도록 하였다. 이 모든 과정은 의료기관간의 네트워킹을 지원할 수 있도록 웹기반시스템으로 설계되었고 실제 구현을 통하여 실현가능성을 확인하였다.

세조의 원각사13층석탑 건립과 그 의미체계 (King Sejo's Establishment of the Thirteen-story Stone Pagoda of Wongaksa Temple and Its Semantics)

  • 남동신
    • 미술자료
    • /
    • 제101권
    • /
    • pp.12-46
    • /
    • 2022
  • 1467년에 완성된 원각사13층석탑은 한국 역사상 최후의 호불군주에 의한 최후의 도성불탑이다. 필자는 세조가 즉위 10년을 맞이하여 도성(都城) 중심부에 13층석탑을 세우고 탑에 석가사리(釋迦舍利)와 함께 '신역원각경(新譯圓覺經)'을 봉안한 뜻을 세조의 관점에 입각하여 살펴보았다. 머리말에 이어 제II장에서는 13층탑의 경전적 배경을 다각도로 고찰하였다. 특히 필자는 13층탑 건립의 직접적인 소의경전으로서 『대반열반경후분(大般涅槃經後分)』을 최초로 발굴하고, 이 경전이 7세기 후반 중부 자바에서 번역되고 동아시아에 유통된 사실을 추적하였다. 아울러 13층탑의 기원으로서 이른바 카니시카양식의 탑을 주목하고 동아시아와 한국에서의 13층탑 조성 사례를 개관하였다. 그리고 불교문헌을 탐색하여 '13층'이 깨달음[Buddha]으로 나아가는 수행 단계를 상징함을 입증하였다. 확실히 '13'은 불교도에게는 매우 특별하면서도 신성한 숫자라 할 수 있다. 이어서 제III장에서는 세조의 원각사13층탑 건립의 불교적 정치적 함의를 탐색하였다. 불교적 함의와 관련해서는, 세조가 중국에서 직접 구입하여 조선에 최초로 유통시킨 『번역명의집(翻譯名義集)』과, 그가 최초의 한글 번역에 직접 개입한 『원각경(圓覺經)』에 주목하였다. 『번역명의집』은 14세기에 출현한 일종의 불교용어집인데, 세조는 원각사탑을 창건할 무렵 이 문헌을 통하여 13층탑의 소의경전인 『대반열반경후분』을 알았을 것으로 추론하였다. 한편 세조는 대장경 전체를 상징하는 단일경전으로 '신역 원각경'을 원각사탑에 봉안하였는데, 이것이 바로 그가 최초의 한글 번역에 깊이 관여한 『원각경언해』였다. 아울러 『원각경언해』의 저본은 지금까지 알려진 것과 달리 종밀(宗密)의 『원각경략소(圓覺經略疏)』임을 밝혔다. 원각사탑 건립의 정치적 함의와 관련해서는, 조선 초 왕실의 능사(陵寺)(또는 진전사원(眞殿寺院))에 세워진 석탑-경천사13층석탑(敬天寺13層石塔), 개경사석탑(開慶寺石塔), 연경사석탑(衍慶寺石塔), 신륵사다층석탑(神勒寺多層石塔)-들을 비교 검토하였다. 그 결과 세조가 자신의 왕위계승에 정당성을 부여하기 위하여 정치적 상징으로서 원각사13층석탑을 건립하였다는 결론에 도달하였다. 본고에서 필자는 13층탑으로서의 원각사탑의 의미체계를 온전히 파악하고자 하였다. 이러한 시도는 여말선초 정점에 달한 불탑 문화를 이해할 뿐 아니라, 카니시카대탑에서 기원하고 『대반열반경후분』에 근거하는 동아시아의 13층탑을 연구하는 데 한국적 연구모델로서 기여하리라 기대된다.

온·오프라인 연계형 스마트 주문서비스 시스템 설계 (Design of An Order Service System that Connects Online and Offline)

  • 박선주;이동철
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제26권3호
    • /
    • pp.295-312
    • /
    • 2017
  • Purpose Consumption behaviors of consumers have changed with the widespread use of the Internet and smart phones, and accordingly online marketing activities are becoming ever more prevalent. Yet, the domestic food-service industry has yet to offer an Omni-Channel order system that encompasses a online, offline, and mobile interface. Also, a multilingual menu ordering service for foreign tourists is not yet available. Therefore, if an order service system accessible online and offline which could provide multi-language services were implemented, the satisfaction of the service provider and domestic and foreign customers would be maximized. Design/methodology/approach By designing an electronic menu based on open an OS and providing electronic menus in offline stores, we have completed the design of a linked order system which would be available everywhere (online, offline, and mobile). The CMS was developed to integrate these three mediums and the entire operator was designed to receive basic information and statistical information about the merchants, or store operators. Also, a multilingual term dictionary containing menu information for foreign tourists was made into a database so that foreign tourists who are having difficulty in communication can use it more easily. Findings We have made it possible for customers to use the order service without distinction between online, offline, and mobile platforms, and have proved that it is a more efficient and convenient service for customers as well as operators. Nevertheless, as an initial model, the implemented system has limitations on the execution of the payment support method in the electronic menu board and in the management division of the CMS. In case of commercialization, it is necessary to make an alliance of efforts to attract initial franchises. Through further supplementation, we expect the online and offline connection-types martservice system will maximize the satisfaction of both operators and customers alike.

Hough Transform과 부분 그래프 패턴을 이용한 한글 인식에 관한 연구 (A Study on the Hangul Recognition Using Hough Transform and Subgraph Pattern)

  • 구하성;박길철
    • 한국정보통신학회논문지
    • /
    • 제3권1호
    • /
    • pp.185-196
    • /
    • 1999
  • 본 논문에서는 부분 그래프 패턴과 신경망을 이용한 새로운 한글 오프라인 인식 시스템을 제안하였다. 문자를 입력으로 받아 세선화를 행한 후 위치에 관한 잡음 제거 기능을 갖는 균형화를 수행하고 인식단의 첫번째 단계에서 순환 성분을 추출하고 인식한다. 부블럭 HT 공간에서 끝점, 굴곡점, 분기점의 특징점을 추출하고 추출된 특징점 사이의 관계를 조사하여 부분 그래프 패턴을 구성한다. 종모음이 올 수 있는 구역을 할당하고 종모음 후보점을 추출하여 미리 조사된 부분 그래프 패턴 사전과 비교하여 종모음을 추출한다. 같은 방법으로 횡모음을 추출한 후 간단한 구조 해석적 방법으로 모음을 인식한다. 본 논문의 성능비교를 위하여 실험은 활자체의 경우 가장 많이 쓰이는 명조체와 고딕체 그리고 필기체를 대상으로 한다. 고딕체의 경우 인식율 98.9%, 명조체의 경우 인식율 98.2%, 필기체의 경우 92.5% 이었다. 다중 자형 인식을 위하여 필기체와 활자체의 구분 없이 구한 전체 시스템의 인식율은 94.8% 이었다.

  • PDF

한국어 연속음성인식을 위한 발음사전 구축 (Pronunciation Dictionary For Continuous Speech Recognition)

  • 이경님;정민화
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.197-199
    • /
    • 2000
  • 연속음성인식을 수행하기 위해서는 발음사전과 언어모델이 필요하다. 이 둘 사이에는 디코딩 단위가 일치하여야 하므로 발음사전 구축시 디코딩 단위로 표제어 단위를 선정하며 표제어 사이의 음운변화 현상을 반영한 발음사전을 구축하여야 한다. 한국어에 부합하는 음운변화현상을 분석하여 학습용 자동 발음열을 생성하고, 이를 통하여 발음사전을 구축한다. 전처리 단계로 기호, 단위, 숫자 등 전처리 과정 및 형태소 분석 과정을 수행하며, 디코딩 단위인 의사 형태소 단위를 생성하기 위해 규칙을 이용한 태깅 과정을 거친다. 이를 통해 나온 결과를 발음열 생성기 입력으로 하며, 결과는 학습용 발음열 또는 발음사전 구성을 위한 형태로 출력한다. 표제어간 음운변화 현상이 반영된 상태의 표제어 단위이므로 실제 음운변화가 반영되지 않은 상태의 표제어와는 그 형태가 상이하다. 이는 연속 발음시 생기는 현상으로 실제 인식에는 이 음운변화 현상이 반영된 사전이 필요하게 된다. 생성된 발음사전의 효용성을 확인하기 위해 다음과 같은 실험을 통해 성능을 평가하였다. 음향학습을 위하여 PBS(Phonetically Balanced Sentence) 낭독체 17200문장을 녹음하고 그 전사파일을 사용하여 학습을 수행하였고, 발음사전의 평가를 위하여 이 중 각각 3100문장을 사용하여 다음과 같은 실험을 수행하였다. 형태소 태그정보를 이용하여 표제어간 음운변화 현상을 반영한 최적의 발음사전과 다중 발음사전, 언어학적 기준에 의한 수작업으로 생성한 표준 발음사전, 그리고 표제어간의 음운변화 현상을 고려하지 않고 독립된 단어로 생성한 발음사전과의 비교 실험을 수행하였다. 실험결과 표제어간 음운변화 현상을 반영하지 않은 경우 단어 인식률이 43.21%인 반면 표제어간 음운변화 현상을 반영한 1-Best 사전의 경우 48.99%, Multi 사전의 경우 50.19%로 인식률이 5~6%정도 향상되었음을 볼 수 있었고, 수작업에 의한 표준발음사전의 단어 인식률 45.90% 보다도 약 3~4% 좋은 성능을 보였다.

  • PDF

신조어를 인식할 수 있는 영어단어 게임시스템 (English Word Game System Recognizing Newly Coined Words)

  • 심동욱;박소영;김기섭;강한구;장준호;이대웅
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.521-524
    • /
    • 2009
  • 인터넷 환경의 급속하게 발전하면서 웹을 통하여 많은 학습 매체를 경험할 수 있다. 특히 영어 교육의 중요성이 강조되면서, 많은 영어 학습 관련 소프트웨어가 출시되었다. 그러나 기존 영어단어 교육용 시스템은 대부분 1명의 사용자가 게임을 진행하는 방식이며, 또한 'WIKIPEDIA'와 같은 신조어를 전혀 고려하지 못한다. 따라서 본 논문에서는 사용자에게 흥미와 즐거움을 유도하여 학습이 가능하도록 '스크레블'이라는 보드게임을 온라인으로 구현하였다. 제안하는 영어단어 교육용 게임시스템의 특징은 다음과 같다. 첫째, 제안하는 시스템은 인공지능을 바탕으로 한 가상의 사용자와 함께 단일 사용자 모드와 다중 사용자 모드를 모두 지원한다. 둘째, 제안하는 시스템은 NEVER 오픈 API사전을 이용하여 'WIKIPEDIA'와 같은 신조어에도 인식할 수 있다. 셋째, 매뉴얼 없이도 쉽게 게임을 즐길 수 있도록 사용자에게 익숙한 UI를 제공한다. 따라서 제안하는 시스템은 사용자에게 영어단어학습에 대한 흥미와 즐거움을 고취할 수 있다고 기대한다.

  • PDF