• Title/Summary/Keyword: 학술정보원

Search Result 305, Processing Time 0.026 seconds

Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece (Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구)

  • Park, Jinwoo;Min, Jae-Ok;Sim, Woo-Chul;Noh, Han-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

Entropy Reduction for the Code of Hangul Data Compression (한글 데이터 압축코드를 위한 엔트로피 감소)

  • Lee, Jae-Young;Sung, Koeng-Mo;Lee, Chong-Kak
    • Annual Conference on Human and Language Technology
    • /
    • 1989.10a
    • /
    • pp.54-57
    • /
    • 1989
  • 본 논문에서는 정보원의 집합이 여러개의 부집합으로 나누어지며 정보 발생 방법은 이들 부집합을 순서적으로 선택한 후 그 부집합에서 확률에 따라 원소를 발생시키는 성질을 갖는 정보원을 인코딩할 때 데이타를 압축시킬 수 있는 엔트로피 감소 모델을 제시하였다. 방법은 정보를 전송하는 과정에서 정보원이 갖고있는 성질에 관한 정보를 제외시킴으로서 평균 정보량 즉 엔트로피를 줄이는 것이다. 이와 같은 원리로 인코딩을 하면 데이타를 압축시킬수 있다.

  • PDF

A study on the Algorithm for automated extraction for chemical term in Korean patents (국내 특허 문헌 내 화학 용어 자동 추출을 위한 알고리즘 연구)

  • Lee, Hayoung;Kim, Hongki;Park, Jinwoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.273-276
    • /
    • 2019
  • 본 논문에서는 열 및 전기특성 플라스틱 복합수지와 한글에 특화된 인공지능 기술을 개발하기 위한 조성/물성 정보 복합수지 지식베이스를 구축하고자 국내 특허 문헌에서 화학 용어를 추출하고자 한다. 이를 위해 전문용어가 많이 쓰인 특허 문헌의 특수성을 고려하여 UIMA(Unstructured Information Management Architecture) 규칙 기반의 라이브러리를 사용해 한국어 화학 용어 코퍼스를 구축하고 이를 기반으로 딥러닝 알고리즘 중 하나인 Bidirectional LSTM-CRF를 기반으로 특허 문헌에서 화학 용어를 자동으로 추출하는 알고리즘을 연구하고자 한다.

  • PDF

A Study on the Automatic Extraction of Fomulation and Properties in Chemical Field Patent Document by Using Machine Learning Technology (기계학습 기술을 활용한 화학분야 특허문서의 조성/물성 정보 자동추출 방법 연구)

  • Kim, Hongki;Lee, Hayoung;Park, Jinwoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.07a
    • /
    • pp.277-280
    • /
    • 2019
  • 본 논문에서는 화학분야 특허 문서에 존재하는 도표(TABLE) 데이터를 인공지능 기술을 활용하여 자동으로 추출하고 정형화된 형태로 가공하는 방법을 제안한다. 특허 문서에서 도표 데이터는 실시예에서 실험결과나 비교결과를 간결하고 가시적으로 표현하기 위하여 주로 사용되나, 셀의 속성을 정의하는 헤더부분과 수치가 표현되는 값 부분의 경계가 모호하여 구조화하는데 어려움이 있다. 본 논문에서 제안하는 방법은 소량의 학습데이터를 구축하고 기계학습을 통해 도표에 존재하는 셀의 속성을 예측하고, 예측된 속성을 토대로 조성과 물성 정보를 자동으로 구분하여 추출하는 방법을 제시한다. 제시된 방법을 활용하여 화학 분야 조성물 특허의 도표데이터에 시뮬레이션 결과 각 항목별 98.17%의 속성 예측 정확도를 나타내었으며 기존 규칙기반 연구보다 작업난이도, 예측정확도에서 우수한 성과를 보인다.

  • PDF

KoRIBES : A Study on the Problems of RIBES in Automatic Evaluation English-Korean Patent Machine Translation (특허 기계 번역에 대한 RIBES 한국어 자동평가 문제에 대한 고찰)

  • Jang, Hyeon-Jin;Jang, Moon-Seok;Noh, Han-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.543-547
    • /
    • 2020
  • 자연어 처리에서 기계번역은 가장 많이 사용되고 빠르게 발전하고 있다. 기계번역에 있어서 사람의 평가가 가장 정확하고 중요하지만 많은 시간과 비용이 발생된다. 이에 기계번역을 자동 평가하는 방법들이 많이 제안되어 사용되고 있지만, 한국어 특성을 잘 반영한 자동평가 방법은 연구되지 않고 있다. BLEU와 같은 자동평가 방법을 많이 사용하고 있지만 언어의 특성 차이로 인해 원하는 평가결과를 얻지 못하는 경우가 발생하며, 특히 특허나 논문과 같은 기술문서의 번역에서는 더 많이 발생한다. 이에 본 논문에서는 단어의 정밀도와 어순이 평가에 영향이 있는 RIBES를 가지고 특허 기계 번역에서 영어→한국어로 기계 번역된 결과물의 자동평가에 대해 사람의 평가와 유사한 결과를 얻기 위해 tokenization 과정에서 복합 형태소 분리를 통한 평가방법을 제안하고자 한다.

  • PDF

인용문헌을 이용한 검색 성능 향상에 관한 실험적 연구

  • 국민상;정영미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2002.08a
    • /
    • pp.235-240
    • /
    • 2002
  • 정보검색시 전문(full-text)의 사용이 늘어남에 따라 다의어나 철자오류와 같은 문제점으로 인해 내부적인 정보원의 사용에 한계를 보이면서 외부적인 정보원, 즉 문헌간의 관계와 같은 링크 또는 인용정보에 대한 관심이 높아지게 되었다. 본 논문에서는 인용링크나 피인용링크, 서지결합링크, 동시인용링크 둥과 같은 인용정보와 적합성 피드백 검색을 이용하여 검색 성능을 향상시키는 방안에 대하여 연구하였다.

  • PDF

Automatic Word-Segmentation at Line-Breaks for Korean Text Processing (한국어 텍스트 처리를 위한 줄 경계 띄어쓰기 복원)

  • 정영미;이재윤
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1999.08a
    • /
    • pp.21-24
    • /
    • 1999
  • 한국어 텍스트의 줄 경계에서의 띄어쓰기 복원을 위해 음절쌍 통계를 이용한 복원 기법을 설계하고 신문기사를 대상으로 통계 정보원과 음절쌍 위치에 따른 가중치를 달리하는 실험을 수행하였다. 실험 결과 처리 대상 기사를 포함하는 1개월 분 기사를 통계 정보원으로 하고 가중치는 균등하게 할 때 가장 높은 성공률을 얻었다. 이 결과는 디지털 원문을 텍스트 방식으로 소급하여 구축하는 경우에 적용될 수 있을 것이다.

  • PDF

A study on the Criteria Considerd by the Users for the Selection of Information Sources (이용자 측면의 다양한 정보원 선택 요소에 대한 고찰)

  • 이란주;최경화
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1996.08a
    • /
    • pp.127-130
    • /
    • 1996
  • 본 논문에서는 최근에 수행된 이용자 정보추구 행위를 이용자 측면에서 조사한 4 연구를 비교 분석하고 있다. 이 연구들이 제시한 이용자 측면의 다양한 정보원 선택 요소의 비교 분석 결과는 정보검색 분야의 중요한 역할을 해 온 적합성 개념에 대한 이해를 제공할 뿐만 아니라, 보다 개선된 정보검색시스템 개발에 이론적 기초를 제공할 것이다.

  • PDF