• 제목/요약/키워드: Korean morphological analyzer

검색결과 116건 처리시간 0.019초

재정정보 활용을 위한 텍스트 마이닝 기반 회계용어 형태소 분석기 구축 (Development of Text Mining-Based Accounting Terminology Analyzer for Financial Information Utilization)

  • 정건용;윤승식;강주영
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제28권4호
    • /
    • pp.155-174
    • /
    • 2019
  • Purpose Social interest in financial statement notes has recently increased. However, contrary to the keen interest in financial statement notes, there is no morphological analyzer for accounting terms, which is why researchers are having considerable difficulty in carrying out research. In this study, we build a morphological analyzer for accounting related text mining techniques. This morphological analyzer can handle accounting terms like financial statements and we expect it to serve as a springboard for growth in the text mining research field. Design/methodology/approach In this study, we build customized korean morphological analyzer to extract proper accounting terms. First, we collect Company's Financial Statement notes, financial information data published by KPFIS(Korea Public Finance Information Service), K-IFRS accounting terms data. Second, we cleaning and tokeninzing and removing stopwords. Third, we customize morphological analyzer using n-gram methodology. Findings Existing morphological analyzer cannot extract accounting terms because it split accounting terms to many nouns. In this study, the new customized morphological analyzer can detect more appropriate accounting terms comparing to the existing morphological analyzer. We found that accounting words that were not detected by existing morphological analyzers were detected in new customized morphological analyzers.

MADE : 형태소 분석기 개발환경 (MADE: Morphological Analyzer Development Environment)

  • 심광섭
    • 인터넷정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.159-171
    • /
    • 2007
  • 본 논문은 실용적인 한국어 형태소 분석기 개발에 사용될 수 있는 도구인 MADE를 소개한다. MADE는 형태소 사전에서 제공되는 인접 조건만을 사용하여 형태소 분석을 수행한다. 이것은 형태소 분석기를 개발하기 위해 별도의 프로그래밍은 전혀 하지 않고 단지 형태소 사전만 구축하면 된다는 것을 의미한다. MADE는 형태소 사전을 구축하고 검증하는데 필요한 기능들을 제공한다. 일단 형태소 사전이 구축되고 나면 MADE는 독립된 형태소 분석기로서 사용될 수도 있고 형태소 분석기를 필요로 하는 다른 응용 소프트웨어에 내장되어 사용될 수도 있다.

  • PDF

High-Performance Korean Morphological Analyzer Using the MapReduce Framework on the GPU

  • Cho, Shi-Won;Lee, Dong-Wook
    • Journal of Electrical Engineering and Technology
    • /
    • 제6권4호
    • /
    • pp.573-579
    • /
    • 2011
  • To meet the scalability and performance requirements of data analyses, which often involve voluminous data, efficient parallel or concurrent algorithms and frameworks are essential. We present a high-performance Korean morphological analyzer which employs the MapReduce framework on the graphics processing unit (GPU). MapReduce is a programming framework introduced by Google to aid the development of web search applications on a large number of central processing units (CPUs). GPUs are designed as a special-purpose co-processor. Their programming interfaces are typically formulated for graphics applications. Compared to CPUs, GPUs have greater computation power and memory bandwidth; however, GPUs are more difficult to program because of the design of their architectures. The performance of the Korean morphological analyzer using the MapReduce framework on the GPU is evaluated in comparison with the CPU-based model. The proposed Korean Morphological analyzer shows promising scalable performance on distributed computing with the GPU.

효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장 (Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing)

  • 이현영;이종석;강병도;양승원
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.203-210
    • /
    • 2016
  • 한국어는 문장 구성소의 생략과 수식 범위가 자유롭기 때문에 파싱보다는 형태소 분석 단계에서 처리하면 좋은 경우가 있다. 본 논문에서는 파싱의 부담을 덜어 줄 수 있는 형태소 분석기의 기능 확장 방안을 제안한다. 이 방법은 미지어의 추정, 복합 명사 및 복합동사의 처리, 숫자 및 심볼의 처리에 의해 여러 형태소 열이 하나의 구문 범주를 가질 때 이것을 최장일치 방법으로 결합하고 의미 자질을 부여하여 하나의 구문 단위로 처리하는 것이다. 제안한 형태소 분석 방법은 불필요한 형태론적 모호성이 제거되고 형태소 분석 결과가 줄어들어 태거 및 파서의 정확률이 향상되었다. 또한, 실험을 통해 파싱트리는 평균 73.4%, 파싱 시간은 평균 52.9%로 줄었음을 보인다.

기분석 어절 사전과 음절 단위의 확률 모델을 이용한 한국어 형태소 분석기 복제 (Cloning of Korean Morphological Analyzers using Pre-analyzed Eojeol Dictionary and Syllable-based Probabilistic Model)

  • 심광섭
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권3호
    • /
    • pp.119-126
    • /
    • 2016
  • 본 논문에서는 어절 단위의 기분석 사전과 음절 단위의 확률 모델을 이용하는 한국어 형태소 분석기가 실용성이 있는지를 검증한다. 이를 위해 기존의 한국어 형태소 분석기 MACH와 KLT2000을 복제하고, 복제된 형태소 분석기의 분석 결과가 MACH와 KLT2000 분석 결과와 얼마나 유사한지 정밀도와 재현율로 평가하는 실험을 하였다. 실험은 1,000만 어절 규모의 세종 말뭉치를 10개의 세트로 나누고 10배수 교차 검증을 하는 방식으로 하였다. MACH의 분석 결과를 정답 집합으로 하고 MACH 복제품의 분석 결과를 평가한 결과 정밀도와 재현율이 각각 97.16%와 98.31%였으며, KLT2000 복제품의 경우에는 정밀도와 재현율이 각각 96.80%와 99.03%였다 분석 속도는 MACH 복제품의 경우 초당 30.8만 어절이며, KLT2000 복제품은 초당 43.6만 어절로 나타났다. 이 실험 결과는 어절 단위의 기분석 사전과 음절 단위의 확률 모델로 만든 한국어 형태소 분석기가 실제 응용에 사용될 수 있을 정도의 성능을 가진다는 것을 보여준다.

Sequence-to-Sequence 모델 기반으로 한 한국어 형태소 분석의 재순위화 모델 (A Reranking Model for Korean Morphological Analysis Based on Sequence-to-Sequence Model)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권4호
    • /
    • pp.121-128
    • /
    • 2018
  • Sequence-to-sequence(Seq2seq) 모델은 입력열과 출력열의 길이가 다를 경우에도 적용할 수 있는 모델로 한국어 형태소 분석에서 많이 사용되고 있다. 일반적으로 Seq2seq 모델을 이용한 한국어 형태소 분석에서는 원문을 음절 단위로 처리하고 형태소와 품사를 음절 단위로 출력한다. 음절 단위의 형태소 분석은 사전 미등록어 문제를 쉽게 처리할 수 있다는 장점이 있는 반면 형태소 단위의 사전 정보를 반영하지 못한다는 단점이 있다. 본 연구에서는 Seq2seq 모델의 후처리로 재순위화 모델을 추가하여 형태소 분석의 최종 성능을 향상시킬 수 있는 모델을 제안한다. Seq2seq 모델에 빔 서치를 적용하여 K개 형태소 분석 결과를 생성하고 이들 결과의 순위를 재조정하는 재순위화 모델을 적용한다. 재순위화 모델은 기존의 음절 단위 처리에서 반영하지 못했던 형태소 단위의 임베딩 정보와 n-gram 문맥 정보를 활용한다. 제안한 재순위화 모델은 기존 Seq2seq 모델에 비해 약 1.17%의 F1 점수가 향상되었다.

한영 모바일 번역기를 위한 강건하고 경량화된 한국어 형태소 분석기 (A Light Weighted Robust Korean Morphological Analyzer for Korean-to-English Mobile Translator)

  • 여상화
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권2호
    • /
    • pp.191-199
    • /
    • 2009
  • 본 논문에서는 핸드폰, 스마트폰, PDA폰 등의 모바일폰에서 동작하는 강건하고 경량화된 한국어 형태소 분석기를 제안한다. 이들 모바일 장치들은 낮은 CPU 성능과 메모리 사용에서의 제약으로 인해 자연언어 인터페이스를 적용하기 곤란했다. 본 논문에서는 1) 키 이벤트 핸들러 (Key Event Handler)를 이용한 온라인 형태소 분석과 2) 붙여 쓴 오류 문장에 대해 띄어쓰기 오류 교정의 전처리 과정 없이 강건한 형태소 분석 방법을 제안한다. 본 논문에서 제안된 경량화된 한국어 형태소 분석기는 모바일 한영 번역기 시제품에 적용하여 메모리 사용량은 5.8% 줄이고 평균 반환 시간은 19.0% 개선하였다.

형태소 분석기 사용을 배제한 음절 단위의 한국어 품사 태깅 (Syllable-based POS Tagging without Korean Morphological Analysis)

  • 심광섭
    • 인지과학
    • /
    • 제22권3호
    • /
    • pp.327-345
    • /
    • 2011
  • 본 논문에서는 형태소 분석기를 사용하지 않는 음절 단위의 한국어 품사 태깅 방법론을 제안한다. 기존 연구에서 한국어 품사 태거는 형태소 분석기가 생성한 결과 중에서 문맥에 가장 잘 맞는 형태소/품사 열을 결정하는 데 반하여, 본 논문에서 제안한 방법론에서는 품사열을 결정할 뿐만 아니라 형태소도 생성한다. 398,632 어절의 학습 데이터로 학습을 하고 33,467 어절의 평가 데이터로 성능 평가를 한 결과 어절 단위의 정확도가 96.31%인 것으로 나타났다.

  • PDF

일반 번역시스탬을 위한 일본어 해석기 설계 (A Design of Japanese Analyzer for Japanese to Korean Translation System)

  • 강석훈;최병욱
    • 전자공학회논문지B
    • /
    • 제32B권1호
    • /
    • pp.136-146
    • /
    • 1995
  • In this paper, a Japanese morphological analyzer for Japanese to Korean Machine Translation System is designed. The analyzer reconstructs the Japanese input sentence into word phrases that include grammatical and dictionary informations. Thus we propose the algorithm to separate morphemes and then connect them by reference to a corresponding Korean word phrases. And we define the connector to control Japanese word phrases It is used in controlling the start and the end point of the word phrase in the Japanese sentence which is without a space. The proposed analyzer uses the analysis dictionary to perform more efficient analysis than the existing analyzer. And we can decrease the number of its dictionary searches. Since the analyzer, proposed in this paper, for Japanese to Korean Machine Translation System processes each word phrase in consideration of the corresponding Korean word phrase, it can generate more accurate Korean expressions than the existing one which places great importance on the generation of the entire sentence structure.

  • PDF

자동 색인을 위한 한국어 형태소 분석기의 실제적인 구현 및 적용 (Practical Development and Application of a Korean Morphological Analyzer for Automatic Indexing)

  • 최성필;서정현;채영숙
    • 정보처리학회논문지B
    • /
    • 제9B권5호
    • /
    • pp.689-700
    • /
    • 2002
  • 본 논문에서는 정보검색 시스템에서 필수적인 자동 색인을 위한 한글 형태소 분석기를 구현하였다. 현존하는 대용량의 데이터에 대한 자동 색인을 효율적으로 수행하기 위해서 새로운 개념이나 아이디어의 도입 및 적용에 초점을 맞추기보다는 기존에 연구되었던 다양한 어절 분석 기법들을 바탕으로 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화에 초점을 맞추었다. 따라서 본 논문에서 개발된 시스템의 특징은 이론적인 측면보다는 소프트웨어 공학적인 측면이 훨씬 더 강조된다 품사 사전의 구조화가 우선적으로 수행되었으며, 이에 따라서 체언 및 용언 분석 모듈, 수사 분석 모듈 둥이 구현되었다. 또한 형태소의 패턴을 이용한 미등록어 분석 기능이 개발되었다. 개발된 전체 시스템은 정보 검색 엔진인 K-2000 시스템의 색인 모듈로 장착되어서 적용되었다.