• 제목/요약/키워드: 특허문헌처리

검색결과 12건 처리시간 0.031초

Korean Patent ELECTRA : 한국 특허문헌 자연어처리 연구를 위한 사전 학습된 언어모델(KorPatELECTRA) (Korean Patent ELECTRA : a pre-trained Korean Patent language representation model for the study of Korean Patent natural language processing(KorPatELECTRA))

  • 민재옥;장지모;조유정;노한성
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.69-71
    • /
    • 2021
  • 특허분야에서 자연어처리 태스크는 특허문헌의 언어적 특이성으로 문제 해결의 난이도가 높은 과제임에 따라 한국 특허문헌에 최적화된 언어모델의 연구가 시급한 실정이다. 본 논문에서는 대량의 한국 특허문헌 데이터를 최적으로 사전 학습(pre-trained)한 Korean Patent ELECTRA 모델과 tokenize 방식을 제안하며 기존 범용 목적의 사전학습 모델과 비교 실험을 통해 한국 특허문헌 자연어처리에 대한 발전 가능성을 확인하였다.

  • PDF

SGML을 이용한 특허정보처리 연구 (A Study of Patent Document Processing by SGML)

  • 권영숙
    • 정보관리연구
    • /
    • 제30권3호
    • /
    • pp.44-54
    • /
    • 1999
  • SGML(Standard Generalized Markup Language)의 디스크립션은 WIPO(World Intellectual Property Organization) Standard ST.32의 디스크립션과 더불어 자세히 기술되고있다. SGML의 이용에 대한 이점이 강조되고 있으며, 그것은 시스템 독립적이며 특허출판 및 전문 데이터베이스구축에 타당성이 있다는 것이다. WIPO Standard ST.32를 적용한 특허문헌의 내용구조는 ST.32에 따라 작성한 DTD로 표현하고 텍스트 자체는 DTD에 따른 범용 마크업을 사용하여 기술한다. 본고에서는 전체문헌, 특정 서브문서, 문단 등의 계층구조와 표, 도면, 화학구조식 등의 비계층구조로 되어 있는 문서구조를 어떻게 표현하는가에 대하여 예를들어 설명하였다. 그리고 특허 문헌처리에서 SGML의 효과에 대하여 논의하였다.

  • PDF

KorPatELECTRA : A Pre-trained Language Model for Korean Patent Literature to improve performance in the field of natural language processing(Korean Patent ELECTRA)

  • Jang, Ji-Mo;Min, Jae-Ok;Noh, Han-Sung
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.15-23
    • /
    • 2022
  • 특허 분야에서 자연어처리(Natural Language Processing) 태스크는 특허문헌의 언어적 특이성으로 문제 해결의 난이도가 높은 과제임에 따라 한국 특허문헌에 최적화된 언어모델의 연구가 시급한 실정이다. 최근 자연어처리 분야에서는 특정 도메인에 특화되게 사전 학습(Pre-trained)한 언어모델을 구축하여 관련 분야의 다양한 태스크에서 성능을 향상시키려는 시도가 지속적으로 이루어지고 있다. 그 중, ELECTRA는 Google이 BERT 이후에 RTD(Replaced Token Detection)라는 새로운 방식을 제안하며 학습 효율성을 높인 사전학습 언어모델이다. 본 연구에서는 대량의 한국 특허문헌 데이터를 사전 학습한 KorPatELECTRA를 제안한다. 또한, 특허 문헌의 특성에 맞게 학습 코퍼스를 정제하고 특허 사용자 사전 및 전용 토크나이저를 적용하여 최적화된 사전 학습을 진행하였다. KorPatELECTRA의 성능 확인을 위해 실제 특허데이터를 활용한 NER(Named Entity Recognition), MRC(Machine Reading Comprehension), 특허문서 분류 태스크를 실험하였고 비교 대상인 범용 모델에 비해 3가지 태스크 모두에서 가장 우수한 성능을 확인하였다.

특허정보 검색을 위한 벡터스페이스 검색모텔의 적용 (Vector Space Model for Patent Information Retrieval System)

  • 원상훈;노태길;손기준;박정희;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.516-518
    • /
    • 2003
  • 본 논문은 특허 문서에 맞게 벡터스페이스 모델을 적용하여 특허정보 검색기를 구현한다. 기존의 상용 특허 검색 시스템의 문제점을 제시하고, 특허 문헌의 특징을 분석하여, 이를 반영한 특허 문헌 검색등의 벡터 스페이스 모델을 제시한다. 하나의 특허 문서는 서로 상이한 특성을 지닌 텍스트와 데이터의 조합으로 이루어져 있다. 따라서 이를 하나의 벡터로 표현하는 것이 용이하지 않다. 이에 대해 본 연구에서는 내용 필드들을 특성에 따라 둘 이상의 벡터로 표현하고, 수치 및 고유명 필드는 불린검색형태로 처리되는 혼합형 벡터 모델을 제안한다. 각 필드의 특징에 맞게 색인어를 추출하며, 텍스트 필드의 색인어률 벡터로 표현하는 과정에서는 잘 알려진 TF-IDF 가중치를 사용하되, 특허 문서가 IPC 특허 분류 기준에 따라 완전 분류되어 있는 문서라는 특징을 이용, 보다 정확한 가중치를 부여한다. 실험과 성능평가를 통하여 제안한 특허 모델의 유용성을 보인다.

  • PDF

패턴 부트스트랩핑을 이용한 특허 문헌에서의 시맨틱 트리플 추출 (Extracting Semantic Triples from Patent Documents Using Pattern Bootstrapping)

  • 정창후;전홍우;최윤수;송사광;최성필;조민희;정한민
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2012년도 춘계 종합학술대회 논문집
    • /
    • pp.281-282
    • /
    • 2012
  • 문서에 존재하는 중요한 개체를 인식하고 그것들 간의 관계를 식별하는 시맨틱 트리플 추출은 문헌 분석의 기반이 되는 중요한 작업이다. 본 논문에서는 특허 문헌에서 이러한 시맨틱 트리플을 추출하는 방법에 대해서 설명한다. 특허 문헌의 효과적인 자동 분석을 위하여 문장 내의 다양한 구문적 변형을 인식하여 하나의 정규화된 의미 형태로 표현해주는 술어-논항 구조 기반의 패턴을 사용하였고, 패턴의 자동화된 확장을 위하여 부트스트랩핑 방법을 적용하였다. 이러한 방법은 소규모의 시드 데이터를 활용하여 특정의미 관계를 갖는 패턴을 자동으로 확장하고 최종적으로는 유의미한 트리플을 추출하는 방법으로 다량의 이진 관계 집합을 처리해야 할 때 아주 유용한 방법이다. 시스템 적용을 통하여 특허 문헌에 적합한 38개의 연관관계 집합을 생성하였고, 32,608개의 유의미한 트리플을 추출하였다.

  • PDF

Patent Tokenizer: 형태소와 SentencePiece를 활용한 특허문장 토크나이즈 최적화 연구 (Patent Tokenizer: a research on the optimization of tokenize for the Patent sentence using the Morphemes and SentencePiece)

  • 박진우;민재옥;심우철;노한성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.441-445
    • /
    • 2020
  • 토큰화(Tokenization)는 사람이 작성한 자연어 문장을 기계가 잘 이해할 수 있도록 최소 단위인 토큰으로 분리하는 작업을 말하여, 이러한 토큰화는 자연어처리 전반적인 태스크들의 전처리에 필수적으로 사용되고 있다. 최근 자연어처리 분야에서 높은 성능을 보이며, 다양한 딥러닝 모델에 많이 활용되고 있는 SentencePiece 토큰화는 여러 단어에서 공통적으로 출현하는 부분단어들을 기준으로, BPE 알고리즘을 이용하여 문장을 압축 표현하는 토큰화 방법이다. 본 논문에서는 한국어 기반 특허 문헌의 초록 자연어 데이터를 기반으로 SentencePiece를 비롯한 여러 토큰화 방법에 대하여 소개하며, 해당 방법을 응용한 기계번역 (Neural Machine Translation) 태스크를 수행하고, 토큰화 방법별 비교 평가를 통해 특허 분야 자연어 데이터에 최적화된 토큰화 방법을 제안한다. 그리고 본 논문에서 제안한 방법을 사용하여 특허 초록 한-영 기계번역 태스크에서 성능이 향상됨을 보였다.

  • PDF

Prophet 시계열 분석 도구를 이용한 특허 추이 분석 연구 (A Study on Patent Invention Trend Analysis using Prophet)

  • 장한나;윤이삭;전예은;김장원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.752-753
    • /
    • 2019
  • 최근 인터넷·정보 통신 기술이 크게 발달하면서 기술 발명의 권리 보장을 위한 특허 발명 수 또한 급격히 증가하고 있다. 또한, 특허 문헌에는 최신 기술 및 요소 기술들이 포함되어 있기 때문에 발명된 기술들의 분석을 통해 기술 가치 평가, 기술 분야의 동향 파악 및 기술 발전의 추이를 예측할 수 있다. 따라서 본 연구에서는 시계열 분석 도구를 이용하여 최근 20년 동안의 특허 발명 추이를 분석하여 특정 기술 도메인에 대한 추이 분석 사례를 보인다.

전기로 더스트 재활용에 대한 최근의 연구동향

  • 고인용
    • 한국자원리싸이클링학회:학술대회논문집
    • /
    • 한국자원리싸이클링학회 2002년도 춘계임시총회 및 제 20회 학술발표대회
    • /
    • pp.27-36
    • /
    • 2002
  • 1995년 이후부터 현재까지 전기로 제강더스트의 재활용 또는 처리에 대하여 국내 및 전 세계의 공개특허 및 연구논문을 분석하여 전기로 더스트의 재활용연구 동향을 파악하고자 하였다. 국내의 경우, 35건의 특허가 공개 또는 등록되었는데, 활용방법에 따라 분류하면 다음과 같다. 고형안정화처리가 6건, 케미칼 제조 7건, 아스콘 채움재가 4건, 토건재료로 활용이 3건, 습식처리 회수가 4건, 용융환원 3건, 폐수처리활용이 2건, 시멘트원료 1건, 건식회수법 5건으로 나눌 수 있다. 또한 년도별로는 95년 2건, 96년 1건, 97년 4건, 98년 4건, 99년 5건, 2000년 18건, 2001년 1건이 출원되었다. 2000년에 전체 출원 건수의 절반이 집중되었다. 미국특허는 이 기간중 39건이 등록된 것으로 검색되었다. 년도별로는 95년 3건, 96년 6건, 97년 5건, 98년 7건, 99년 9건, 00년 2건, 01년 3건, 2002년 4건(2개는 한국출원)이 검색되었다. 처리방법 별로는 마찰재 원료로 활용 3건, 고화처리 3건, 건식장치 1건, 습식처리 13건, 유동환원, 직접환원, 환원배소, 플라즈마환원등의 건식 처리법이 10건, 습식+건식콘크리트 4건, 폐수처리 활용 1건, 건자채 생산 1건등이 등록되었다. 국가전자도서관에서 EAF Dust를 키워드로 1993년 이후의 EAF Dust 관련 연구문헌을 검색한 결과 48건이 검색되었고, 01년에 5건, 00년에 3건, 99년에 4건, 98년 2건, 97년이 가장 활발하여 15건의 보고가 확인되었다. 96년에는 8건, 95년에는 3건의 보고가 검색되었다. 01년의 연구논문들은 direct recycling, reduction kinetics, distillation reduction등에 관심을 보이고 있었다. 가장 활발하게 많은 연구논문이 발표되었던 97년 이후에는 논문 발표수가 현저히 감소되어 97년 이후에 이 분야에 대한 관심이 감소하고 있음을 보여주고 있다.

  • PDF

기술 문헌 분석 테스트베드 툴킷 개발 (Developing a Test-Bed Toolkit for Scientific Document Analysis)

  • 최성필;송사광;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권8호
    • /
    • pp.13-19
    • /
    • 2012
  • 본 논문은 논문, 특허, 연구보고서 등과 같은 다양한 과학 기술 문헌에 포함된 기술 지식을 효과적으로 추출하는데 필요한 텍스트 분석 엔진들의 효과적인 모니터링 및 성능 최적화를 위한 테스트베드 도구를 소개한다. 이 도구는 과학 기술 분야의 전문 용어를 비롯한 인명, 지명, 기관명 등을 자동으로 인식하는 기술 개체 인식 엔진을 위한 테스트베드와 인식된 기술 개체 간의 의미적 연관 관계를 자동으로 추출하는 기술개체 간 관계 추출 테스트베드로 구성되어 있다. 이를 활용함으로써 사용자 및 개발자들은 기술 문헌 분석 엔진의 실행 모니터링은 물론 오류 분석을 효율적으로 수행할 수 있다.

콘텐트 연계를 통한 주제기반 커뮤니티 모델 개발 연구 -생명과학 분야를 중심으로- (A Study on Development of Subject-based Community Model by Link of Content -Focused on Life Science-)

  • 안부영;최선희;신용주;김순영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.607-610
    • /
    • 2008
  • 국내외 연구자들은 각자의 분야에서 다양하고 중요한 연구를 수행하면서 그 연구결과물을 생산하고 있다. 연구결과물의 형태는 학회지 및 학술대회 논문, 연구보고서, 특허, 연구노트, 세미나 발표자료, 학교교재, 신문 및 잡지의 기사 등 매우 다양하다. 이런 다양한 연구결과물을 같은 학문 분야, 같은 주제의 연구자들끼리 서로 공유하고 교환하기 위해서는 정보의 자유로운 이용에 근거한 커뮤니티 환경이 필요하다. 이에, 국가 과학기술정보 유통기관인 한국과학기술정보연구원(KISTI)에서 보유하고 있는 문헌 콘텐트와 사실 콘텐트를 주제별로 분류하고 재가공하여 특정 주제분야 전문 연구자들을 위한 오픈 아카이빙, 오픈 액세스 개념을 적용한 커뮤니티 모델을 개발하여 제공하고자 한다. 본 커뮤니티 모델은 요즘들어 가장 많은 연구가 진행되고 있는 생명과학 분야의 연구결과물을 중심으로 개발하였다. 커뮤니티 모델을 개발하기 위하여 1) KISTI가 보유하고 있는 콘텐트 현황을 조사하고, 2) 그 중에서 생명과학분야 콘텐트의 형태와 특성을 분석하고, 3) 연구자들이 연구결과물을 자유롭게 업로드/다운로드할 수 있는 웹 환경의 플랫폼을 설계하였다.