• Title/Summary/Keyword: 특허문서 분류

Search Result 32, Processing Time 0.027 seconds

Patent Document Categorization based on Semantic Structural Information (문서의 의미적 구조정보를 이용한 특허 문서 분류)

  • Kim, Jae-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.28-34
    • /
    • 2005
  • 특허 검색은 수많은 특허 문서 중에서 특정 해당분야의 문서 집합 내에서 검색을 수행하기 때문에 정확한 특허 분류에 크게 의존하게 된다. 이러한 특허 분류의 중요성에 덧붙여, 특허 문서의 수가 빠르게 증가하게 되면서 특허를 자동으로 분류하려는 요구가 더욱 필요하게 되었다. 특허문서는 일반문서와는 달리 구조화되어 있기 때문에 특허분류를 하기 위해서는 이러한 점이 고려되어야 한다. 본 논문에서는 k-NN 방법을 이용하여 일본어 특허 문서를 자동으로 분류하는 방법을 제안한다. 훈련집합으로부터 유사문서를 검색할 때, 구조화되어 있는 특허 문서의 특징을 이용한다. 문서 전체가 아닌 (기존 기술), (응용 분야), (해결하고자 하는 문제), (문제를 해결하려는 방법) 등의 세분화된 요소끼리 비교하여 유사성을 계산한다. 특허 문서에는 사용자가 정의한 많은 의미 요소가 있기 때문에 먼저 이들을 군집화한 후에 이용한다. 실험 결과 제안한 방법이 특허문서를 그대로 이용하는 것보다는 74%, 특허문서에 나타난 <요약>, <청구항>, <상세한 설명>의 큰 구조 정보를 이용하는 것보다는 4%의 성능 향상을 가져왔다.

  • PDF

Automatic Classification of Patent Documents Using Doc2Vec (Doc2Vec을 이용한 특허 문서 자동 분류)

  • Song, Jinjoo;Kang, Seung-Shik
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.05a
    • /
    • pp.239-241
    • /
    • 2019
  • 지식과 정보의 중요성이 강조되는 지식기반사회에서는 지식재산권의 대표적인 유형인 특허의 중요성이 날로 높아지고 있고, 그 수 또한 급증하고 있다. 특허 문서의 효과적 검색과 이용을 위해서는 새롭게 출원되는 특허 문서의 체계적인 분류 작업이 선행되어야 하고, 따라서 방대한 양의 특허 문서를 자동으로 분류해주는 시스템이 필요하다. 본 연구에서는 Doc2Vec 모델을 이용하여 국내 특허 문서의 특징(feature)을 추출하고, 추출된 특징을 바탕으로 한 특허 문서의 자동 분류 모형을 제안한다. 먼저 국내에 등록된 31,495 건의 특허 문서의 IPC(International Patent Classification)와 요약정보를 바탕으로 Doc2Vec 모델을 구축하였다. 구축된 Doc2Vec 모델을 통하여 훈련데이터의 특징을 추출한 후, 이 특징 벡터를 이용하여 분류기를 학습하였다. 마지막으로 Doc2Vec 모델을 이용하여 실험데이터의 특징 벡터를 추출하고 분류기의 성능을 실험한 결과, 43%의 분류 정확도를 얻었다. 이를 통해, 특허 문서 분류 문제에 Doc2Vec 모델의 사용 가능성을 확인할 수 있었다.

Hybrid Approach Combining Deep Learning and Rule-Based Model for Automatic IPC Classification of Patent Documents (딥러닝-규칙기반 병행 모델을 이용한 특허문서의 자동 IPC 분류 방법)

  • Kim, Yongil;Oh, Yuri;Sim, Woochul;Ko, Bongsoo;Lee, Bonggun
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.347-350
    • /
    • 2019
  • 인공지능 관련 기술의 발달로 다양한 분야에서 인공지능 활용에 대한 관심이 고조되고 있으며 전문영역에서도 기계학습 기법을 활용한 연구들이 활발하게 이루어지고 있다. 특허청에서는 분야별 전문지식을 가진 분류담당자가 출원되는 모든 특허에 국제특허분류코드(이하 IPC) 부여 작업을 수행하고 있다. IPC 분류와 같은 전문적인 업무영역에서 딥러닝을 활용한 자동 IPC 분류 서비스를 제공하기 위해서는 기계학습을 이용하는 분류 모델에 분야별 전문지식을 직관적으로 반영하는 것이 필요하다. 이를 위해 본 연구에서는 딥러닝 기반의 IPC 분류 모델과 전문지식이 반영된 분류별 어휘사전을 활용한 규칙기반 분류 모델을 병행하여 특허문서의 IPC분류를 자동으로 추천하는 방법을 제안한다.

  • PDF

Pre-processing for IPC Classification of Patent Documents (특허문서의 IPC 분류를 위한 데이터 변환 및 통합)

  • Su-Hyun Park;Jin Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.367-368
    • /
    • 2023
  • 4차 산업혁명으로 다양한 기술과 아이디어가 생겨나고 있고, 이를 보호하기 위한 특허는 그 등록 건수가 매년 증가하는 추세이다. 그러나 현재 특허문서를 분류하는 과정을 수동으로 진행하고 있기에 이를 자동으로 진행할 수 있는 분류기를 생성할 필요를 느꼈고, 본 논문에서는 특허문서를 분류기에 적용할 데이터의 전처리 과정 중 데이터 변환과 통합 과정을 다루었다.

Unsupervised learning-based automated patent document classification system (비지도학습 기반 자동 특허문서 분류 시스템)

  • Kim, Sang-Baek;Kim, Ji-Ho;Lee, Hong-Chul
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.421-422
    • /
    • 2021
  • 국내·외 기업들의 기술을 보호하고자 매년 100만개의 특허가 출원되고 있다. 등록된 특허 수가 증가될수록 전문가의 판단만으로 원하는 기술 분야의 유효한 특허문서를 선별하는 것은 효율적이지 않으며 객관적인 결과를 기대하기 어려워진다. 본 연구에서는 유효 특허문서 분류 정확성과 전문가의 업무 효율성을 제고하고자 비지도학습 모델인 잠재 디리클레 할당 알고리즘(Latent Dirichlet Allocation, LDA)과 딥러닝을 활용하여 자동 특허문서 분류 시스템을 제안하고자 한다.

  • PDF

IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents (특허문서 필드의 기능적 특성을 활용한 IPC 다중 레이블 분류)

  • Lim, Sora;Kwon, YongJin
    • Journal of Internet Computing and Services
    • /
    • v.18 no.1
    • /
    • pp.77-88
    • /
    • 2017
  • Recently, with the advent of knowledge based society where information and knowledge make values, patents which are the representative form of intellectual property have become important, and the number of the patents follows growing trends. Thus, it needs to classify the patents depending on the technological topic of the invention appropriately in order to use a vast amount of the patent information effectively. IPC (International Patent Classification) is widely used for this situation. Researches about IPC automatic classification have been studied using data mining and machine learning algorithms to improve current IPC classification task which categorizes patent documents by hand. However, most of the previous researches have focused on applying various existing machine learning methods to the patent documents rather than considering on the characteristics of the data or the structure of patent documents. In this paper, therefore, we propose to use two structural fields, technical field and background, considered as having impacts on the patent classification, where the two field are selected by applying of the characteristics of patent documents and the role of the structural fields. We also construct multi-label classification model to reflect what a patent document could have multiple IPCs. Furthermore, we propose a method to classify patent documents at the IPC subclass level comprised of 630 categories so that we investigate the possibility of applying the IPC multi-label classification model into the real field. The effect of structural fields of patent documents are examined using 564,793 registered patents in Korea, and 87.2% precision is obtained in the case of using title, abstract, claims, technical field and background. From this sequence, we verify that the technical field and background have an important role in improving the precision of IPC multi-label classification in IPC subclass level.

A Case Study on Personalized Patent Classification System (개인화 된 특허 분류 시스템 사례 연구)

  • Seo, Hyung-Kook;Choi, Kwang-Sun;Ahn, Han-Joon;Choi, Sung-Joon
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.241-245
    • /
    • 2006
  • 개인화 된 특허 분류 시스템은 기존의 자동 분류 및 특허 문서의 특성, 그리고 분류 체계의 개인화를 고려하여 접근해야 한다. 본 논문에서는 개인화 된 특허 분류 시스템을 구축하는데 있어 개인화된 분류 체계 및 모델의 구축, 특히 분류체계 구축에 있어서의 자동화에 초점을 두었다. 우리는 특히 분류체계 구축 자동화에 있어 특허 문서의 기존 분류체계인 IPC 및 문서 클러스터링을 활용하였다. 다음으로 이를 기반으로 한 구축 시스템 사례를 들었다. 구축 후 나타난 정성적 문제점을 분석해보고, 분석 결과를 향후 연구 방향으로 삼고자 한다.

  • PDF

Patent Document Classification by Using Hierarchical Attention Network (계층적 주의 네트워크를 활용한 특허 문서 분류)

  • Jang, Hyuncheol;Han, Donghee;Ryu, Teaseon;Jang, Hyungkuk;Lim, HeuiSeok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.369-372
    • /
    • 2018
  • 최근 지식경영에 있어 특허를 통한 지식재산권 확보는 기업 운영에 큰 영향을 주는 요소이다. 성공적인 특허 확보를 위해서, 먼저 변화하는 특허 분류 제계를 이해하고, 방대한 특허 정보 데이터를 빠르고 신속하게 특허 분류 체계에 따라 분류화 시킬 필요가 있다. 본 연구에서는 머신 러닝 기술 중에서도 계층적 주의 네트워크를 활용하여 특허 자료의 초록을 학습시켜 분류를 할 수 있는 방법을 제안한다. 그리고 본 연구에서는 제안된 계층적 주의 네트워크의 성능을 검증하기 위해 수정된 입력데이터와 다른 워드 임베딩을 활용하여 진행하였다. 이를 통하여 특허 문서 분류에 활용하려는 계층적 주의 네트워크의 성능과 특허 문서 분류 활용화 방안을 보여주고자 한다. 본 연구의 결과는 많은 기업 지식경영에서 실용적으로 활용할 수 있도록 지식경영 연구자, 기업의 관리자 및 실무자에게 유용한 특허분류기법에 관한 이론적 실무적 활용 방안을 제시한다.

Data Pre-processing for Create IPC Classifiers for Patent Documents (특허문서의 IPC 분류기 생성을 위한 데이터 전처리)

  • Su-Hyun Park;Jin Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.542-543
    • /
    • 2024
  • 특허심사절차는 짧지 않은 과정으로 이루어져 있는데, 현재 모든 절차가 사람이 직접 관여하여 진행되고 있다. 특허심사절차의 효율적 시간 분배를 위해, 특허문서 분류 과정의 자동화 처리 필요성을 느끼게 되었다. 따라서, 본 논문에서는 해당 분류기 생성을 위한 데이터의 전처리 과정을 다루었다.

A Study on a Related IR Method in Patent & Technical Documents (특허 및 기술정보의 연계 검색에 관한 연구)

  • 강윤희;궁상환
    • Proceedings of the KAIS Fall Conference
    • /
    • 2001.05a
    • /
    • pp.180-183
    • /
    • 2001
  • 최근 정보통신을 비롯한 다양한 분야에서 새로운 기술과 아이디어를 이용한 기술개발이 활발하게 이루어짐에 따라 창의적 연구결과에 따른 특허 출원도 급격히 증가하고 있다. 본 논문에서는 사용자의 특허검색 과정에서 특허와 관련된 기술문서를 동시에 검색이 용이하도록 지원하는 방식을 개발하는 것을 목적으로 한다. 특허 및 기술점보 연계 시스템은 신규 특허 문서에 대한 분류를 위해 주제별 주요용어를 추출하고 특허 문서와 유사한 기술 문서를 코사인 유사도 기법을 사용하여 유사도에 따라 기술 문서를 사용자에게 제공할 수 있도록 설계하였다.