• 제목/요약/키워드: 특허문서

검색결과 112건 처리시간 0.038초

문서의 의미적 구조정보를 이용한 특허 문서 분류 (Patent Document Categorization based on Semantic Structural Information)

  • 김재호;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.28-34
    • /
    • 2005
  • 특허 검색은 수많은 특허 문서 중에서 특정 해당분야의 문서 집합 내에서 검색을 수행하기 때문에 정확한 특허 분류에 크게 의존하게 된다. 이러한 특허 분류의 중요성에 덧붙여, 특허 문서의 수가 빠르게 증가하게 되면서 특허를 자동으로 분류하려는 요구가 더욱 필요하게 되었다. 특허문서는 일반문서와는 달리 구조화되어 있기 때문에 특허분류를 하기 위해서는 이러한 점이 고려되어야 한다. 본 논문에서는 k-NN 방법을 이용하여 일본어 특허 문서를 자동으로 분류하는 방법을 제안한다. 훈련집합으로부터 유사문서를 검색할 때, 구조화되어 있는 특허 문서의 특징을 이용한다. 문서 전체가 아닌 (기존 기술), (응용 분야), (해결하고자 하는 문제), (문제를 해결하려는 방법) 등의 세분화된 요소끼리 비교하여 유사성을 계산한다. 특허 문서에는 사용자가 정의한 많은 의미 요소가 있기 때문에 먼저 이들을 군집화한 후에 이용한다. 실험 결과 제안한 방법이 특허문서를 그대로 이용하는 것보다는 74%, 특허문서에 나타난 <요약>, <청구항>, <상세한 설명>의 큰 구조 정보를 이용하는 것보다는 4%의 성능 향상을 가져왔다.

  • PDF

Doc2Vec을 이용한 특허 문서 자동 분류 (Automatic Classification of Patent Documents Using Doc2Vec)

  • 송진주;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.239-241
    • /
    • 2019
  • 지식과 정보의 중요성이 강조되는 지식기반사회에서는 지식재산권의 대표적인 유형인 특허의 중요성이 날로 높아지고 있고, 그 수 또한 급증하고 있다. 특허 문서의 효과적 검색과 이용을 위해서는 새롭게 출원되는 특허 문서의 체계적인 분류 작업이 선행되어야 하고, 따라서 방대한 양의 특허 문서를 자동으로 분류해주는 시스템이 필요하다. 본 연구에서는 Doc2Vec 모델을 이용하여 국내 특허 문서의 특징(feature)을 추출하고, 추출된 특징을 바탕으로 한 특허 문서의 자동 분류 모형을 제안한다. 먼저 국내에 등록된 31,495 건의 특허 문서의 IPC(International Patent Classification)와 요약정보를 바탕으로 Doc2Vec 모델을 구축하였다. 구축된 Doc2Vec 모델을 통하여 훈련데이터의 특징을 추출한 후, 이 특징 벡터를 이용하여 분류기를 학습하였다. 마지막으로 Doc2Vec 모델을 이용하여 실험데이터의 특징 벡터를 추출하고 분류기의 성능을 실험한 결과, 43%의 분류 정확도를 얻었다. 이를 통해, 특허 문서 분류 문제에 Doc2Vec 모델의 사용 가능성을 확인할 수 있었다.

특허 및 기술정보의 연계 검색에 관한 연구 (A Study on a Related IR Method in Patent & Technical Documents)

  • 강윤희;궁상환
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 춘계학술대회 발표논문집
    • /
    • pp.180-183
    • /
    • 2001
  • 최근 정보통신을 비롯한 다양한 분야에서 새로운 기술과 아이디어를 이용한 기술개발이 활발하게 이루어짐에 따라 창의적 연구결과에 따른 특허 출원도 급격히 증가하고 있다. 본 논문에서는 사용자의 특허검색 과정에서 특허와 관련된 기술문서를 동시에 검색이 용이하도록 지원하는 방식을 개발하는 것을 목적으로 한다. 특허 및 기술점보 연계 시스템은 신규 특허 문서에 대한 분류를 위해 주제별 주요용어를 추출하고 특허 문서와 유사한 기술 문서를 코사인 유사도 기법을 사용하여 유사도에 따라 기술 문서를 사용자에게 제공할 수 있도록 설계하였다.

비지도학습 기반 자동 특허문서 분류 시스템 (Unsupervised learning-based automated patent document classification system)

  • 김상백;김지호;이홍철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.421-422
    • /
    • 2021
  • 국내·외 기업들의 기술을 보호하고자 매년 100만개의 특허가 출원되고 있다. 등록된 특허 수가 증가될수록 전문가의 판단만으로 원하는 기술 분야의 유효한 특허문서를 선별하는 것은 효율적이지 않으며 객관적인 결과를 기대하기 어려워진다. 본 연구에서는 유효 특허문서 분류 정확성과 전문가의 업무 효율성을 제고하고자 비지도학습 모델인 잠재 디리클레 할당 알고리즘(Latent Dirichlet Allocation, LDA)과 딥러닝을 활용하여 자동 특허문서 분류 시스템을 제안하고자 한다.

  • PDF

특허 및 기술정보의 연계 검색에 관한 연구 (Research for Interlink Retrieval of Patent and Technical Information)

  • 송종철;홍기채;이성용;강윤희
    • 전자통신동향분석
    • /
    • 제16권5호통권71호
    • /
    • pp.143-150
    • /
    • 2001
  • 정보통신을 비롯한 다양한 분야에서 새로운 기술과 아이디어를 이용한 기술개발이 활발하게 이루어 짐에 따라 창의적 연구결과에 따른 특허 출원도 급격히 증가하고 있다. 본 고에서는 사용자의 특허검색 과정에서 특허와 관련된 기술 문서를 동시에 검색이 용이하도록 지원하는 시스템의 개발에 대하여 논하고자 한다. 특허 및 기술정보 연계 시스템은 신규 특허 문서에 대한 분류를 위해 주제별 주요용어를 추출하고 특허 문서와 유사한 기술 문서를 코사인 유사도 기법을 사용하여 유사도에 따라 기술 문서를 사용자에게 제공할 수 있도록 설계하였다.

특허정보 검색을 위한 벡터스페이스 검색모텔의 적용 (Vector Space Model for Patent Information Retrieval System)

  • 원상훈;노태길;손기준;박정희;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.516-518
    • /
    • 2003
  • 본 논문은 특허 문서에 맞게 벡터스페이스 모델을 적용하여 특허정보 검색기를 구현한다. 기존의 상용 특허 검색 시스템의 문제점을 제시하고, 특허 문헌의 특징을 분석하여, 이를 반영한 특허 문헌 검색등의 벡터 스페이스 모델을 제시한다. 하나의 특허 문서는 서로 상이한 특성을 지닌 텍스트와 데이터의 조합으로 이루어져 있다. 따라서 이를 하나의 벡터로 표현하는 것이 용이하지 않다. 이에 대해 본 연구에서는 내용 필드들을 특성에 따라 둘 이상의 벡터로 표현하고, 수치 및 고유명 필드는 불린검색형태로 처리되는 혼합형 벡터 모델을 제안한다. 각 필드의 특징에 맞게 색인어를 추출하며, 텍스트 필드의 색인어률 벡터로 표현하는 과정에서는 잘 알려진 TF-IDF 가중치를 사용하되, 특허 문서가 IPC 특허 분류 기준에 따라 완전 분류되어 있는 문서라는 특징을 이용, 보다 정확한 가중치를 부여한다. 실험과 성능평가를 통하여 제안한 특허 모델의 유용성을 보인다.

  • PDF

특허문서의 IPC 분류를 위한 데이터 변환 및 통합 (Pre-processing for IPC Classification of Patent Documents)

  • 박수현;김진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.367-368
    • /
    • 2023
  • 4차 산업혁명으로 다양한 기술과 아이디어가 생겨나고 있고, 이를 보호하기 위한 특허는 그 등록 건수가 매년 증가하는 추세이다. 그러나 현재 특허문서를 분류하는 과정을 수동으로 진행하고 있기에 이를 자동으로 진행할 수 있는 분류기를 생성할 필요를 느꼈고, 본 논문에서는 특허문서를 분류기에 적용할 데이터의 전처리 과정 중 데이터 변환과 통합 과정을 다루었다.

LDA 토픽 모델링과 Word2vec을 활용한 유사 특허문서 추천연구 (LDA Topic Modeling and Recommendation of Similar Patent Document Using Word2vec)

  • 이앞길;최근호;김건우
    • 경영정보학연구
    • /
    • 제22권1호
    • /
    • pp.17-31
    • /
    • 2020
  • 4차 산업혁명 시대의 시작과 함께 다양한 분야의 기술들이 서로 융합하며 새로운 형태의 기술과 제품들이 개발되고 있으며, 이와 더불어 그것들에 대한 시장 지배력을 갖기 위한 지식 재산권의 행사나 특허등록의 중요성이 높아지고 있어 국내는 물론 해외에서의 특허출원이 증가하고 있다. 이에 따라, 심사관 1인당 처리해야 할 특허 처리 건수가 해마다 많아지고 있어 선행기술조사에 소비되는 시간과 비용이 점점 증가하고 있는 실정이다. 본 연구는 다수의 해외특허 우선권 주장 시 동일 우선권 주장 특허문서 간 유사도를 계산하여 심사관 및 특허 출원인이 유사문서를 우선 검토 할 수 있도록 함으로써 심사 시간과 비용을 줄이고자 하였다. 이를 위해, 본 연구에서는 비정형 특허 문서의 데이터를 전처리 후 LDA 토픽 모델링과 Word2vec을 활용하여 특허 문서 간 유사도를 구하고, 이 유사도 점수가 높은 순으로 검토 문서를 우선 추천하는 유사 특허 추천 모델을 제안하였다. 3단계의 모델 생성과정을 통해 만들어진 모델을 사용하여 재현율 95%로 높은 결과를 보였다. 본 연구에서 제안한 모델을 통해, 심사관은 효율적으로 선행기술에 대한 조사가 가능해지며, 심사 수행 중 유사하다고 판단된 특허문서에 대한 심사 이력을 신속하게 참고할 수 있어 업무 부담감을 줄이고 심사풀질을 향상시킬 수 있을 것으로 기대된다.

기계학습 기술을 활용한 화학분야 특허문서의 조성/물성 정보 자동추출 방법 연구 (A Study on the Automatic Extraction of Fomulation and Properties in Chemical Field Patent Document by Using Machine Learning Technology)

  • 김홍기;이하영;박진우
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.277-280
    • /
    • 2019
  • 본 논문에서는 화학분야 특허 문서에 존재하는 도표(TABLE) 데이터를 인공지능 기술을 활용하여 자동으로 추출하고 정형화된 형태로 가공하는 방법을 제안한다. 특허 문서에서 도표 데이터는 실시예에서 실험결과나 비교결과를 간결하고 가시적으로 표현하기 위하여 주로 사용되나, 셀의 속성을 정의하는 헤더부분과 수치가 표현되는 값 부분의 경계가 모호하여 구조화하는데 어려움이 있다. 본 논문에서 제안하는 방법은 소량의 학습데이터를 구축하고 기계학습을 통해 도표에 존재하는 셀의 속성을 예측하고, 예측된 속성을 토대로 조성과 물성 정보를 자동으로 구분하여 추출하는 방법을 제시한다. 제시된 방법을 활용하여 화학 분야 조성물 특허의 도표데이터에 시뮬레이션 결과 각 항목별 98.17%의 속성 예측 정확도를 나타내었으며 기존 규칙기반 연구보다 작업난이도, 예측정확도에서 우수한 성과를 보인다.

  • PDF

특허문서 필드의 기능적 특성을 활용한 IPC 다중 레이블 분류 (IPC Multi-label Classification based on Functional Characteristics of Fields in Patent Documents)

  • 임소라;권용진
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.77-88
    • /
    • 2017
  • 최근 지식과 정보가 가치를 생산하는 지식기반사회로 접어들면서 지식재산권의 대표적인 형태인 특허에 대한 중요성이 매우 높아지고 있으며 출원되는 특허의 양도 매년 증가하고 있다. 방대한 양의 특허정보를 효과적으로 이용하기 위해서 특허문서를 그 발명의 기술적 주제에 따라 적절하게 분류하는 것이 필요하며 이를 위해 IPC(International Patent Classification)가 주로 사용되고 있다. 현재 주로 사람의 손으로 이뤄지는 특허문서의 IPC 분류과정의 효율성을 높이기 위하여 다양한 데이터마이닝과 기계학습 알고리즘을 기반으로 IPC 자동분류에 관한 연구들이 수행되어 왔다. 하지만 기존의 IPC 자동분류에 관한 연구의 대부분은 특허문서의 구조적 특징과 같은 특허문서 고유의 데이터 특성에 대한 고려보다는 다양한 기계학습 알고리즘을 특허문서로 적용하는 것에 초점을 맞춰왔다. 이에 본 논문에서는 IPC 자동분류를 위해 특허문서의 특징과 구조적 필드의 역할을 기반으로 특허문서 분류에 영향을 끼치는 두 가지 필드, 기술분야 및 배경기술 필드의 활용을 제안한다. 그리고 특허문서가 동시에 다수의 IPC 분류코드를 가지는 점을 반영하여 다중 레이블 분류(multi-label classification) 모델을 구축한다. 또한 IPC 다중 레이블 분류의 실제 현장에서의 적용 가능성 확인을 위해 630개의 범주를 가지는 IPC 서브클래스 레벨까지 분류 가능한 수법을 제안한다. 이를 위해 국내에서 등록된 564,793건의 특허문서를 대상으로 특허문서의 구조적 필드의 영향을 확인하기 위한 IPC 다중 레이블 분류 실험을 수행하였고, 그 결과 제목, 요약, 청구항, 기술분야 및 배경기술 필드를 활용한 실험에서 87.2%의 싱글매치 정확도를 얻었다. 이를 통해 기술분야 및 배경기술 두 필드가 IPC 서브클래스 레벨까지의 다중 레이블 분류의 정확도를 향상시키는데 중요한 역할을 하고 있음을 확인하였다.