• 제목/요약/키워드: 특허 문서 분류

검색결과 32건 처리시간 0.026초

문서의 의미적 구조정보를 이용한 특허 문서 분류 (Patent Document Categorization based on Semantic Structural Information)

  • 김재호;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-34
    • /
    • 2005
  • 특허 검색은 수많은 특허 문서 중에서 특정 해당분야의 문서 집합 내에서 검색을 수행하기 때문에 정확한 특허 분류에 크게 의존하게 된다. 이러한 특허 분류의 중요성에 덧붙여, 특허 문서의 수가 빠르게 증가하게 되면서 특허를 자동으로 분류하려는 요구가 더욱 필요하게 되었다. 특허문서는 일반문서와는 달리 구조화되어 있기 때문에 특허분류를 하기 위해서는 이러한 점이 고려되어야 한다. 본 논문에서는 k-NN 방법을 이용하여 일본어 특허 문서를 자동으로 분류하는 방법을 제안한다. 훈련집합으로부터 유사문서를 검색할 때, 구조화되어 있는 특허 문서의 특징을 이용한다. 문서 전체가 아닌 (기존 기술), (응용 분야), (해결하고자 하는 문제), (문제를 해결하려는 방법) 등의 세분화된 요소끼리 비교하여 유사성을 계산한다. 특허 문서에는 사용자가 정의한 많은 의미 요소가 있기 때문에 먼저 이들을 군집화한 후에 이용한다. 실험 결과 제안한 방법이 특허문서를 그대로 이용하는 것보다는 74%, 특허문서에 나타난 <요약>, <청구항>, <상세한 설명>의 큰 구조 정보를 이용하는 것보다는 4%의 성능 향상을 가져왔다.

  • PDF

Doc2Vec을 이용한 특허 문서 자동 분류 (Automatic Classification of Patent Documents Using Doc2Vec)

  • 송진주;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.239-241
    • /
    • 2019
  • 지식과 정보의 중요성이 강조되는 지식기반사회에서는 지식재산권의 대표적인 유형인 특허의 중요성이 날로 높아지고 있고, 그 수 또한 급증하고 있다. 특허 문서의 효과적 검색과 이용을 위해서는 새롭게 출원되는 특허 문서의 체계적인 분류 작업이 선행되어야 하고, 따라서 방대한 양의 특허 문서를 자동으로 분류해주는 시스템이 필요하다. 본 연구에서는 Doc2Vec 모델을 이용하여 국내 특허 문서의 특징(feature)을 추출하고, 추출된 특징을 바탕으로 한 특허 문서의 자동 분류 모형을 제안한다. 먼저 국내에 등록된 31,495 건의 특허 문서의 IPC(International Patent Classification)와 요약정보를 바탕으로 Doc2Vec 모델을 구축하였다. 구축된 Doc2Vec 모델을 통하여 훈련데이터의 특징을 추출한 후, 이 특징 벡터를 이용하여 분류기를 학습하였다. 마지막으로 Doc2Vec 모델을 이용하여 실험데이터의 특징 벡터를 추출하고 분류기의 성능을 실험한 결과, 43%의 분류 정확도를 얻었다. 이를 통해, 특허 문서 분류 문제에 Doc2Vec 모델의 사용 가능성을 확인할 수 있었다.

딥러닝-규칙기반 병행 모델을 이용한 특허문서의 자동 IPC 분류 방법 (Hybrid Approach Combining Deep Learning and Rule-Based Model for Automatic IPC Classification of Patent Documents)

  • 김용일;오유리;심우철;고봉수;이봉건
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.347-350
    • /
    • 2019
  • 인공지능 관련 기술의 발달로 다양한 분야에서 인공지능 활용에 대한 관심이 고조되고 있으며 전문영역에서도 기계학습 기법을 활용한 연구들이 활발하게 이루어지고 있다. 특허청에서는 분야별 전문지식을 가진 분류담당자가 출원되는 모든 특허에 국제특허분류코드(이하 IPC) 부여 작업을 수행하고 있다. IPC 분류와 같은 전문적인 업무영역에서 딥러닝을 활용한 자동 IPC 분류 서비스를 제공하기 위해서는 기계학습을 이용하는 분류 모델에 분야별 전문지식을 직관적으로 반영하는 것이 필요하다. 이를 위해 본 연구에서는 딥러닝 기반의 IPC 분류 모델과 전문지식이 반영된 분류별 어휘사전을 활용한 규칙기반 분류 모델을 병행하여 특허문서의 IPC분류를 자동으로 추천하는 방법을 제안한다.

  • PDF

특허문서의 IPC 분류를 위한 데이터 변환 및 통합 (Pre-processing for IPC Classification of Patent Documents)

  • 박수현;김진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.367-368
    • /
    • 2023
  • 4차 산업혁명으로 다양한 기술과 아이디어가 생겨나고 있고, 이를 보호하기 위한 특허는 그 등록 건수가 매년 증가하는 추세이다. 그러나 현재 특허문서를 분류하는 과정을 수동으로 진행하고 있기에 이를 자동으로 진행할 수 있는 분류기를 생성할 필요를 느꼈고, 본 논문에서는 특허문서를 분류기에 적용할 데이터의 전처리 과정 중 데이터 변환과 통합 과정을 다루었다.

비지도학습 기반 자동 특허문서 분류 시스템 (Unsupervised learning-based automated patent document classification system)

  • 김상백;김지호;이홍철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.421-422
    • /
    • 2021
  • 국내·외 기업들의 기술을 보호하고자 매년 100만개의 특허가 출원되고 있다. 등록된 특허 수가 증가될수록 전문가의 판단만으로 원하는 기술 분야의 유효한 특허문서를 선별하는 것은 효율적이지 않으며 객관적인 결과를 기대하기 어려워진다. 본 연구에서는 유효 특허문서 분류 정확성과 전문가의 업무 효율성을 제고하고자 비지도학습 모델인 잠재 디리클레 할당 알고리즘(Latent Dirichlet Allocation, LDA)과 딥러닝을 활용하여 자동 특허문서 분류 시스템을 제안하고자 한다.

  • PDF

개인화 된 특허 분류 시스템 사례 연구 (A Case Study on Personalized Patent Classification System)

  • 서형국;최광선;안한준;최성준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.241-245
    • /
    • 2006
  • 개인화 된 특허 분류 시스템은 기존의 자동 분류 및 특허 문서의 특성, 그리고 분류 체계의 개인화를 고려하여 접근해야 한다. 본 논문에서는 개인화 된 특허 분류 시스템을 구축하는데 있어 개인화된 분류 체계 및 모델의 구축, 특히 분류체계 구축에 있어서의 자동화에 초점을 두었다. 우리는 특히 분류체계 구축 자동화에 있어 특허 문서의 기존 분류체계인 IPC 및 문서 클러스터링을 활용하였다. 다음으로 이를 기반으로 한 구축 시스템 사례를 들었다. 구축 후 나타난 정성적 문제점을 분석해보고, 분석 결과를 향후 연구 방향으로 삼고자 한다.

  • PDF

특허문서 필드의 기능적 특성을 활용한 IPC 다중 레이블 분류 (IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents)

  • 임소라;권용진
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.77-88
    • /
    • 2017
  • 최근 지식과 정보가 가치를 생산하는 지식기반사회로 접어들면서 지식재산권의 대표적인 형태인 특허에 대한 중요성이 매우 높아지고 있으며 출원되는 특허의 양도 매년 증가하고 있다. 방대한 양의 특허정보를 효과적으로 이용하기 위해서 특허문서를 그 발명의 기술적 주제에 따라 적절하게 분류하는 것이 필요하며 이를 위해 IPC(International Patent Classification)가 주로 사용되고 있다. 현재 주로 사람의 손으로 이뤄지는 특허문서의 IPC 분류과정의 효율성을 높이기 위하여 다양한 데이터마이닝과 기계학습 알고리즘을 기반으로 IPC 자동분류에 관한 연구들이 수행되어 왔다. 하지만 기존의 IPC 자동분류에 관한 연구의 대부분은 특허문서의 구조적 특징과 같은 특허문서 고유의 데이터 특성에 대한 고려보다는 다양한 기계학습 알고리즘을 특허문서로 적용하는 것에 초점을 맞춰왔다. 이에 본 논문에서는 IPC 자동분류를 위해 특허문서의 특징과 구조적 필드의 역할을 기반으로 특허문서 분류에 영향을 끼치는 두 가지 필드, 기술분야 및 배경기술 필드의 활용을 제안한다. 그리고 특허문서가 동시에 다수의 IPC 분류코드를 가지는 점을 반영하여 다중 레이블 분류(multi-label classification) 모델을 구축한다. 또한 IPC 다중 레이블 분류의 실제 현장에서의 적용 가능성 확인을 위해 630개의 범주를 가지는 IPC 서브클래스 레벨까지 분류 가능한 수법을 제안한다. 이를 위해 국내에서 등록된 564,793건의 특허문서를 대상으로 특허문서의 구조적 필드의 영향을 확인하기 위한 IPC 다중 레이블 분류 실험을 수행하였고, 그 결과 제목, 요약, 청구항, 기술분야 및 배경기술 필드를 활용한 실험에서 87.2%의 싱글매치 정확도를 얻었다. 이를 통해 기술분야 및 배경기술 두 필드가 IPC 서브클래스 레벨까지의 다중 레이블 분류의 정확도를 향상시키는데 중요한 역할을 하고 있음을 확인하였다.

계층적 주의 네트워크를 활용한 특허 문서 분류 (Patent Document Classification by Using Hierarchical Attention Network)

  • 장현철;한동희;류태선;장형국;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.369-372
    • /
    • 2018
  • 최근 지식경영에 있어 특허를 통한 지식재산권 확보는 기업 운영에 큰 영향을 주는 요소이다. 성공적인 특허 확보를 위해서, 먼저 변화하는 특허 분류 제계를 이해하고, 방대한 특허 정보 데이터를 빠르고 신속하게 특허 분류 체계에 따라 분류화 시킬 필요가 있다. 본 연구에서는 머신 러닝 기술 중에서도 계층적 주의 네트워크를 활용하여 특허 자료의 초록을 학습시켜 분류를 할 수 있는 방법을 제안한다. 그리고 본 연구에서는 제안된 계층적 주의 네트워크의 성능을 검증하기 위해 수정된 입력데이터와 다른 워드 임베딩을 활용하여 진행하였다. 이를 통하여 특허 문서 분류에 활용하려는 계층적 주의 네트워크의 성능과 특허 문서 분류 활용화 방안을 보여주고자 한다. 본 연구의 결과는 많은 기업 지식경영에서 실용적으로 활용할 수 있도록 지식경영 연구자, 기업의 관리자 및 실무자에게 유용한 특허분류기법에 관한 이론적 실무적 활용 방안을 제시한다.

특허 및 기술정보의 연계 검색에 관한 연구 (A Study on a Related IR Method in Patent & Technical Documents)

  • 강윤희;궁상환
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 춘계학술대회 발표논문집
    • /
    • pp.180-183
    • /
    • 2001
  • 최근 정보통신을 비롯한 다양한 분야에서 새로운 기술과 아이디어를 이용한 기술개발이 활발하게 이루어짐에 따라 창의적 연구결과에 따른 특허 출원도 급격히 증가하고 있다. 본 논문에서는 사용자의 특허검색 과정에서 특허와 관련된 기술문서를 동시에 검색이 용이하도록 지원하는 방식을 개발하는 것을 목적으로 한다. 특허 및 기술점보 연계 시스템은 신규 특허 문서에 대한 분류를 위해 주제별 주요용어를 추출하고 특허 문서와 유사한 기술 문서를 코사인 유사도 기법을 사용하여 유사도에 따라 기술 문서를 사용자에게 제공할 수 있도록 설계하였다.

특허정보 검색을 위한 벡터스페이스 검색모텔의 적용 (Vector Space Model for Patent Information Retrieval System)

  • 원상훈;노태길;손기준;박정희;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.516-518
    • /
    • 2003
  • 본 논문은 특허 문서에 맞게 벡터스페이스 모델을 적용하여 특허정보 검색기를 구현한다. 기존의 상용 특허 검색 시스템의 문제점을 제시하고, 특허 문헌의 특징을 분석하여, 이를 반영한 특허 문헌 검색등의 벡터 스페이스 모델을 제시한다. 하나의 특허 문서는 서로 상이한 특성을 지닌 텍스트와 데이터의 조합으로 이루어져 있다. 따라서 이를 하나의 벡터로 표현하는 것이 용이하지 않다. 이에 대해 본 연구에서는 내용 필드들을 특성에 따라 둘 이상의 벡터로 표현하고, 수치 및 고유명 필드는 불린검색형태로 처리되는 혼합형 벡터 모델을 제안한다. 각 필드의 특징에 맞게 색인어를 추출하며, 텍스트 필드의 색인어률 벡터로 표현하는 과정에서는 잘 알려진 TF-IDF 가중치를 사용하되, 특허 문서가 IPC 특허 분류 기준에 따라 완전 분류되어 있는 문서라는 특징을 이용, 보다 정확한 가중치를 부여한다. 실험과 성능평가를 통하여 제안한 특허 모델의 유용성을 보인다.

  • PDF