• Title/Summary/Keyword: 특허문헌처리

Search Result 12, Processing Time 0.028 seconds

Korean Patent ELECTRA : a pre-trained Korean Patent language representation model for the study of Korean Patent natural language processing(KorPatELECTRA) (Korean Patent ELECTRA : 한국 특허문헌 자연어처리 연구를 위한 사전 학습된 언어모델(KorPatELECTRA))

  • Min, Jae-Ok;Jang, Ji-Mo;Jo, Yu-Jeong;Noh, Han-Sung
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.69-71
    • /
    • 2021
  • 특허분야에서 자연어처리 태스크는 특허문헌의 언어적 특이성으로 문제 해결의 난이도가 높은 과제임에 따라 한국 특허문헌에 최적화된 언어모델의 연구가 시급한 실정이다. 본 논문에서는 대량의 한국 특허문헌 데이터를 최적으로 사전 학습(pre-trained)한 Korean Patent ELECTRA 모델과 tokenize 방식을 제안하며 기존 범용 목적의 사전학습 모델과 비교 실험을 통해 한국 특허문헌 자연어처리에 대한 발전 가능성을 확인하였다.

  • PDF

A Study of Patent Document Processing by SGML (SGML을 이용한 특허정보처리 연구)

  • Kwon, Young-Sook
    • Journal of Information Management
    • /
    • v.30 no.3
    • /
    • pp.44-54
    • /
    • 1999
  • A description of SGML(Standard Generalized Markup Language) is given together with a detailed description of WIPO Standard ST.32. The benefits of the use of SGML are highlighted-its system Independence and flexibility in building publication systems and full-text databases. A structure of WIPO Standard ST,32 based patent content is defined by DTD(document type definition) written in ST.32, and full-text itself is described with generalized markup depending on DTD. This article explains how to represent a document structure : a hierarchy structure like a entire document, a specific, sub-document, a paragraph, or non-hirarchy structure like a table drawings, or chemical structures. Merits of SGML In patent document processing are also discussed.

  • PDF

KorPatELECTRA : A Pre-trained Language Model for Korean Patent Literature to improve performance in the field of natural language processing(Korean Patent ELECTRA)

  • Jang, Ji-Mo;Min, Jae-Ok;Noh, Han-Sung
    • Journal of the Korea Society of Computer and Information
    • /
    • v.27 no.2
    • /
    • pp.15-23
    • /
    • 2022
  • In the field of patents, as NLP(Natural Language Processing) is a challenging task due to the linguistic specificity of patent literature, there is an urgent need to research a language model optimized for Korean patent literature. Recently, in the field of NLP, there have been continuous attempts to establish a pre-trained language model for specific domains to improve performance in various tasks of related fields. Among them, ELECTRA is a pre-trained language model by Google using a new method called RTD(Replaced Token Detection), after BERT, for increasing training efficiency. The purpose of this paper is to propose KorPatELECTRA pre-trained on a large amount of Korean patent literature data. In addition, optimal pre-training was conducted by preprocessing the training corpus according to the characteristics of the patent literature and applying patent vocabulary and tokenizer. In order to confirm the performance, KorPatELECTRA was tested for NER(Named Entity Recognition), MRC(Machine Reading Comprehension), and patent classification tasks using actual patent data, and the most excellent performance was verified in all the three tasks compared to comparative general-purpose language models.

Vector Space Model for Patent Information Retrieval System (특허정보 검색을 위한 벡터스페이스 검색모텔의 적용)

  • 원상훈;노태길;손기준;박정희;이상조
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.516-518
    • /
    • 2003
  • 본 논문은 특허 문서에 맞게 벡터스페이스 모델을 적용하여 특허정보 검색기를 구현한다. 기존의 상용 특허 검색 시스템의 문제점을 제시하고, 특허 문헌의 특징을 분석하여, 이를 반영한 특허 문헌 검색등의 벡터 스페이스 모델을 제시한다. 하나의 특허 문서는 서로 상이한 특성을 지닌 텍스트와 데이터의 조합으로 이루어져 있다. 따라서 이를 하나의 벡터로 표현하는 것이 용이하지 않다. 이에 대해 본 연구에서는 내용 필드들을 특성에 따라 둘 이상의 벡터로 표현하고, 수치 및 고유명 필드는 불린검색형태로 처리되는 혼합형 벡터 모델을 제안한다. 각 필드의 특징에 맞게 색인어를 추출하며, 텍스트 필드의 색인어률 벡터로 표현하는 과정에서는 잘 알려진 TF-IDF 가중치를 사용하되, 특허 문서가 IPC 특허 분류 기준에 따라 완전 분류되어 있는 문서라는 특징을 이용, 보다 정확한 가중치를 부여한다. 실험과 성능평가를 통하여 제안한 특허 모델의 유용성을 보인다.

  • PDF

Extracting Semantic Triples from Patent Documents Using Pattern Bootstrapping (패턴 부트스트랩핑을 이용한 특허 문헌에서의 시맨틱 트리플 추출)

  • Jeong, Chang-Hoo;Chun, Hong-Woo;Choi, Yun-Soo;Song, Sa-kwang;Choi, Sung-Pil;Cho, Minhee;Jung, Hanmin
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2012.05a
    • /
    • pp.281-282
    • /
    • 2012
  • 문서에 존재하는 중요한 개체를 인식하고 그것들 간의 관계를 식별하는 시맨틱 트리플 추출은 문헌 분석의 기반이 되는 중요한 작업이다. 본 논문에서는 특허 문헌에서 이러한 시맨틱 트리플을 추출하는 방법에 대해서 설명한다. 특허 문헌의 효과적인 자동 분석을 위하여 문장 내의 다양한 구문적 변형을 인식하여 하나의 정규화된 의미 형태로 표현해주는 술어-논항 구조 기반의 패턴을 사용하였고, 패턴의 자동화된 확장을 위하여 부트스트랩핑 방법을 적용하였다. 이러한 방법은 소규모의 시드 데이터를 활용하여 특정의미 관계를 갖는 패턴을 자동으로 확장하고 최종적으로는 유의미한 트리플을 추출하는 방법으로 다량의 이진 관계 집합을 처리해야 할 때 아주 유용한 방법이다. 시스템 적용을 통하여 특허 문헌에 적합한 38개의 연관관계 집합을 생성하였고, 32,608개의 유의미한 트리플을 추출하였다.

  • PDF

Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece (Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구)

  • Park, Jinwoo;Min, Jae-Ok;Sim, Woo-Chul;Noh, Han-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

A Study on Patent Invention Trend Analysis using Prophet (Prophet 시계열 분석 도구를 이용한 특허 추이 분석 연구)

  • Jang, Hanna;Yoon, Yisak;Jeon, Yeeun;Gim, Jangwon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.752-753
    • /
    • 2019
  • 최근 인터넷·정보 통신 기술이 크게 발달하면서 기술 발명의 권리 보장을 위한 특허 발명 수 또한 급격히 증가하고 있다. 또한, 특허 문헌에는 최신 기술 및 요소 기술들이 포함되어 있기 때문에 발명된 기술들의 분석을 통해 기술 가치 평가, 기술 분야의 동향 파악 및 기술 발전의 추이를 예측할 수 있다. 따라서 본 연구에서는 시계열 분석 도구를 이용하여 최근 20년 동안의 특허 발명 추이를 분석하여 특정 기술 도메인에 대한 추이 분석 사례를 보인다.

전기로 더스트 재활용에 대한 최근의 연구동향

  • 고인용
    • Proceedings of the Korean Institute of Resources Recycling Conference
    • /
    • 2002.05a
    • /
    • pp.27-36
    • /
    • 2002
  • 1995년 이후부터 현재까지 전기로 제강더스트의 재활용 또는 처리에 대하여 국내 및 전 세계의 공개특허 및 연구논문을 분석하여 전기로 더스트의 재활용연구 동향을 파악하고자 하였다. 국내의 경우, 35건의 특허가 공개 또는 등록되었는데, 활용방법에 따라 분류하면 다음과 같다. 고형안정화처리가 6건, 케미칼 제조 7건, 아스콘 채움재가 4건, 토건재료로 활용이 3건, 습식처리 회수가 4건, 용융환원 3건, 폐수처리활용이 2건, 시멘트원료 1건, 건식회수법 5건으로 나눌 수 있다. 또한 년도별로는 95년 2건, 96년 1건, 97년 4건, 98년 4건, 99년 5건, 2000년 18건, 2001년 1건이 출원되었다. 2000년에 전체 출원 건수의 절반이 집중되었다. 미국특허는 이 기간중 39건이 등록된 것으로 검색되었다. 년도별로는 95년 3건, 96년 6건, 97년 5건, 98년 7건, 99년 9건, 00년 2건, 01년 3건, 2002년 4건(2개는 한국출원)이 검색되었다. 처리방법 별로는 마찰재 원료로 활용 3건, 고화처리 3건, 건식장치 1건, 습식처리 13건, 유동환원, 직접환원, 환원배소, 플라즈마환원등의 건식 처리법이 10건, 습식+건식콘크리트 4건, 폐수처리 활용 1건, 건자채 생산 1건등이 등록되었다. 국가전자도서관에서 EAF Dust를 키워드로 1993년 이후의 EAF Dust 관련 연구문헌을 검색한 결과 48건이 검색되었고, 01년에 5건, 00년에 3건, 99년에 4건, 98년 2건, 97년이 가장 활발하여 15건의 보고가 확인되었다. 96년에는 8건, 95년에는 3건의 보고가 검색되었다. 01년의 연구논문들은 direct recycling, reduction kinetics, distillation reduction등에 관심을 보이고 있었다. 가장 활발하게 많은 연구논문이 발표되었던 97년 이후에는 논문 발표수가 현저히 감소되어 97년 이후에 이 분야에 대한 관심이 감소하고 있음을 보여주고 있다.

  • PDF

Developing a Test-Bed Toolkit for Scientific Document Analysis (기술 문헌 분석 테스트베드 툴킷 개발)

  • Choi, Sung-Pil;Song, Sa-Kwang;Jung, Han-Min
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.8
    • /
    • pp.13-19
    • /
    • 2012
  • This paper introduces a test-bed toolkit for evaluating and enhancing text analysis engines which extract technological knowledge from articles, patents, reports and so forth. The toolkit consists of two test-beds for technical entity recognition and relation extraction engines, which are capable of identifying technical entities and predicting semantic relation types between the entities. With using the introduced toolkits, users and developers can efficiently perform the execution monitoring and error analysis of the technical text analysis engines.

A Study on Development of Subject-based Community Model by Link of Content -Focused on Life Science- (콘텐트 연계를 통한 주제기반 커뮤니티 모델 개발 연구 -생명과학 분야를 중심으로-)

  • Bu-Young Ahn;Seon-Heui Choi;Yong-Ju Shin;Soon-Young Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.11a
    • /
    • pp.607-610
    • /
    • 2008
  • 국내외 연구자들은 각자의 분야에서 다양하고 중요한 연구를 수행하면서 그 연구결과물을 생산하고 있다. 연구결과물의 형태는 학회지 및 학술대회 논문, 연구보고서, 특허, 연구노트, 세미나 발표자료, 학교교재, 신문 및 잡지의 기사 등 매우 다양하다. 이런 다양한 연구결과물을 같은 학문 분야, 같은 주제의 연구자들끼리 서로 공유하고 교환하기 위해서는 정보의 자유로운 이용에 근거한 커뮤니티 환경이 필요하다. 이에, 국가 과학기술정보 유통기관인 한국과학기술정보연구원(KISTI)에서 보유하고 있는 문헌 콘텐트와 사실 콘텐트를 주제별로 분류하고 재가공하여 특정 주제분야 전문 연구자들을 위한 오픈 아카이빙, 오픈 액세스 개념을 적용한 커뮤니티 모델을 개발하여 제공하고자 한다. 본 커뮤니티 모델은 요즘들어 가장 많은 연구가 진행되고 있는 생명과학 분야의 연구결과물을 중심으로 개발하였다. 커뮤니티 모델을 개발하기 위하여 1) KISTI가 보유하고 있는 콘텐트 현황을 조사하고, 2) 그 중에서 생명과학분야 콘텐트의 형태와 특성을 분석하고, 3) 연구자들이 연구결과물을 자유롭게 업로드/다운로드할 수 있는 웹 환경의 플랫폼을 설계하였다.