DOI QR코드

DOI QR Code

LDA Topic Modeling and Recommendation of Similar Patent Document Using Word2vec

LDA 토픽 모델링과 Word2vec을 활용한 유사 특허문서 추천연구

  • Apgil Lee (Department of Business, Hanbat National University) ;
  • Keunho Choi (Department of Business & Accounting Hanbat National University) ;
  • Gunwoo Kim (Department of Business & Accounting Hanbat National University)
  • 이앞길 (한밭대학교 경영학과) ;
  • 최근호 (한밭대학교 경영회계학과) ;
  • 김건우 (한밭대학교 경영회계학과)
  • Received : 2019.08.01
  • Accepted : 2019.09.27
  • Published : 2020.02.29

Abstract

With the start of the fourth industrial revolution era, technologies of various fields are merged and new types of technologies and products are being developed. In addition, the importance of the registration of intellectual property rights and patent registration to gain market dominance of them is increasing in oversea as well as in domestic. Accordingly, the number of patents to be processed per examiner is increasing every year, so time and cost for prior art research are increasing. Therefore, a number of researches have been carried out to reduce examination time and cost for patent-pending technology. This paper proposes a method to calculate the degree of similarity among patent documents of the same priority claim when a plurality of patent rights priority claims are filed and to provide them to the examiner and the patent applicant. To this end, we preprocessed the data of the existing irregular patent documents, used Word2vec to obtain similarity between patent documents, and then proposed recommendation model that recommends a similar patent document in descending order of score. This makes it possible to promptly refer to the examination history of patent documents judged to be similar at the time of examination by the examiner, thereby reducing the burden of work and enabling efficient search in the applicant's prior art research. We expect it will contribute greatly.

4차 산업혁명 시대의 시작과 함께 다양한 분야의 기술들이 서로 융합하며 새로운 형태의 기술과 제품들이 개발되고 있으며, 이와 더불어 그것들에 대한 시장 지배력을 갖기 위한 지식 재산권의 행사나 특허등록의 중요성이 높아지고 있어 국내는 물론 해외에서의 특허출원이 증가하고 있다. 이에 따라, 심사관 1인당 처리해야 할 특허 처리 건수가 해마다 많아지고 있어 선행기술조사에 소비되는 시간과 비용이 점점 증가하고 있는 실정이다. 본 연구는 다수의 해외특허 우선권 주장 시 동일 우선권 주장 특허문서 간 유사도를 계산하여 심사관 및 특허 출원인이 유사문서를 우선 검토 할 수 있도록 함으로써 심사 시간과 비용을 줄이고자 하였다. 이를 위해, 본 연구에서는 비정형 특허 문서의 데이터를 전처리 후 LDA 토픽 모델링과 Word2vec을 활용하여 특허 문서 간 유사도를 구하고, 이 유사도 점수가 높은 순으로 검토 문서를 우선 추천하는 유사 특허 추천 모델을 제안하였다. 3단계의 모델 생성과정을 통해 만들어진 모델을 사용하여 재현율 95%로 높은 결과를 보였다. 본 연구에서 제안한 모델을 통해, 심사관은 효율적으로 선행기술에 대한 조사가 가능해지며, 심사 수행 중 유사하다고 판단된 특허문서에 대한 심사 이력을 신속하게 참고할 수 있어 업무 부담감을 줄이고 심사풀질을 향상시킬 수 있을 것으로 기대된다.

Keywords

Acknowledgement

이 논문은 2019년도 한밭대학교 교내학술연구비의 지원을 받았음.

References

  1. 강지호, 김종찬, 이준혁, 박상성, 장동식, "계층적 인용관계분석을 통한 선행기술 탐색방법론", 한국지능시스템학회논문지, 제27권, 제1호, 2017, pp. 72-78.
  2. 고광수, 정원교, 신영근, 박상성, 장동식, "텍스트 마이닝을 이용한 특허정보검색 개발에 관한 연구", 한국산학기술학회논문지, 제12권, 제8호, 2011, pp. 3677-3688. https://doi.org/10.5762/KAIS.2011.12.8.3677
  3. 김갑조, 윤다혜, 황종환, 선동주, "특허 토픽 모델링과 성장주기곡선을 통한 유망기술 발굴", 한국지능시스템학회논문지, 제27권, 제4호, 2017, pp. 357-363.
  4. 김우주, 김동희, 장희원, "Word2vec을 활용한 문서의 의미 확장 검색방법", 한국콘텐츠학회논문지, 제16권, 제10호, 2016, pp. 687-692. https://doi.org/10.5392/JKCA.2016.16.10.687
  5. 심준식, 김형중, "LDA 토픽 모델링을 활용한 판례 검색 및 분류 방법", 전자공학회논문지, 제54권, 제9호, 2017, pp. 67-75.
  6. 이광희, 고순주, 김방룡, 전황수, 박광만, 석왕헌, 홍재표, ICT 유망 기술의 생태계 및 산업경쟁력 분석, 한국전자통신연구원, 2015.
  7. 이원상, 손소영, "빅데이터 기술을 활용한 대용량 삼극특허 분석 기반의 기술융복합 패턴예측", 대한산업공학회추계학술대회논문집, 2013, pp. 1153-1170.
  8. 이처영, 생명공학 특허 전략, 대광서림, 2001.
  9. 특허청, 특허청 2018년 주요 정책추진 방향, 2018.
  10. 한국특허정보원, Patent21, 통권제80호, 한국특허정보원, 2008.
  11. Blei, D. M., A. Y. Ng, and M. I. Jordan, "Latent dirichlet allocation", Journal of Machine Learning Research, Vol.3, 2003, pp. 993-1022.
  12. Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R., "Indexing by latent semantic analysis", Journal of the American Society for Information Science, Vol.41, No.6, 1990, pp. 391-407.
  13. Han, J., J. Pei, and M. Kamber, Data Mining: Concepts and Techniques, Elsevier, 2011.
  14. Hearst, M. A., "Untangling text data mining", In Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics, Association for Computational Linguistics, 1999, pp. 3-10.
  15. Hofmann, T., "Probabilistic latent semantic analysis", ArXiv preprint arXiv:1301.6705, 2013
  16. Mikolov, T., K. Chen, G. Corrado, and J. Dean, "Efficient estimation of word representations in vector space", arXiv preprint arXiv, 2013, pp. 1301-3781.
  17. Salton, G., A. Wong, and C. S. Yang, "A vector space model for automatic indexing", Communications of the ACM, Vol.18 No.11, 1975, pp. 613-620.