• 제목/요약/키워드: 문서간 관계 추출

검색결과 103건 처리시간 0.031초

임상 문서에서 서로 떨어진 개체명 간 전이 관계 표현을 위한 조건부무작위장 내 라벨 유도 기법 연구 (A label induction method in the conditional random fields expressing long distance transition between separate entities in clinical narratives)

  • 이왕진;최진욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.172-175
    • /
    • 2018
  • 환자의 병력을 서술하는 임상문서에서 임상 개체명들은 그들 사이에 개체명이 아닌 단어들이 위치하기 때문에 거리상으로 서로 떨어져 있고, 임상 개체명인식에 많이 사용되는 조건부무작위장(conditional random fields; CRF) 모델은 Markov 속성을 따르기 때문에 서로 떨어져 있는 개체명 라벨 간의 전이 정보는 모델의 계산에서 무시된다. 본 논문에서는 라벨링 모델에 서로 떨어진 개체명 간 전이 관계를 표현하기 위하여 CRF 모델의 구조를 변경하는 방법론을 소개한다. 제안된 CRF 모델 디자인에서는 모델의 계산효율성을 빠르게 유지하기 위하여 Markov 속성을 유지하는 1차 모델 구조를 유지한다. 모델은 선행하는 개체명의 라벨 정보를 후행하는 개체명 엔터티에게 전달하기 위하여 선행 개체명의 라벨을 뒤 따르는 비개체명 라벨에 전이시키고 이를 통해 후행하는 개체명은 선행하는 개체명의 라벨 정보를 알 수 있게 된다. 라벨의 고차 전이 정보를 전달함에도 모델의 구조는 1차 전이 구조를 유지함으로 n차 구조의 모델보다 빠른 계산 속도를 유지할 수 있게 된다. 모델의 성능 평가를 위하여 서울대학교병원 류머티즘내과에서 퇴원한 환자들의 퇴원요약지에 병력과 관련된 엔터티가 태깅된 평가 데이터와 i2b2 2012/VA 임상자연어처리 shared task의 임상 개체명 추출 데이터를 사용하였고 기본 CRF 모델들(1차, 2차)과 비교하였다. 피처 조합에 따라 모델들을 평가한 결과 제안한 모델이 거의 모든 경우에서 기본 모델들에 비하여 F1-score의 성능을 향상시킴을 관찰할 수 있었다.

  • PDF

술어-논항 구조의 패턴 유사도를 결합한 혼합 커널 기반관계 추출 (Relation Extraction based on Composite Kernel combining Pattern Similarity of Predicate-Argument Structure)

  • 정창후;최성필;최윤수;송사광;전홍우
    • 인터넷정보학회논문지
    • /
    • 제12권5호
    • /
    • pp.73-85
    • /
    • 2011
  • 문헌에 존재하는 핵심개체 간의 관계를 자동으로 추출할 때 다양한 형태의 문서 분석 결과를 활용할 수 있다. 본 논문에서 는 기존에 개발되어 비교적 높은 성능을 보여준 합성곱 구문 트리 커널의 구절 구조 유사성 정보와 두 개체 사이의 유의미한 연관관계를 표현해주는 술어-논항 구조 패턴의 유사성 정보를 동시에 활용하는 혼합 커널을 제안한다. 구문적 구조를 이용하는 기존의 합성곱 구문 트리 커널에 술어와 논항 간의 의미적 구조를 활용하는 술어-논항 구조 패턴 유사도 커널을 결합하여 상호보완적인 혼합 커널을 구성하였고, 다양한 테스트컬렉션 기반의 실험을 통하여 개발된 커널의 성능을 측정하였다. 실험결과 구절 구조 정보를 이용하는 합성곱 구문 트리 커널만을 단독으로 사용했을 때보다 술어-논항 구조의 패턴 정보를 결합한 혼합 커널을 사용했을 때에 더 좋은 성능을 보이는 것을 확인할 수 있었다. 또한 기존의 시스템보다 우수한 성능을 보이는 것도 함께 확인할 수 있었다.

단어 빈도와 α-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템 (Recommendation System using Associative Web Document Classification by Word Frequency and α-Cut)

  • 정경용;하원식
    • 한국콘텐츠학회논문지
    • /
    • 제8권1호
    • /
    • pp.282-289
    • /
    • 2008
  • 협력적 필터링을 개선하기 위하여 많은 기술들이 개발되고 실용화되었으나 아이템의 연관 관계를 정확하게 반영하지는 못한다. 본 논문에서는 협력적 필터링의 문제점을 보완하기 위하여 단어 빈도와 ${\alpha}$-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템을 제안한다. 제안된 방법은 형태소 분석을 통한 웹문서에서 단어를 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘을 이용해서 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 적용한다. 그리고 연관 규칙 하이퍼그래프 분할을 이용하여 연관 단어간의 유사도를 계산한다. 마지막으로 유사 클래스를 기반으로 연관 웹문서를 ${\alpha}$-cut을 이용하여 분류하고 개선된 코사인 유사도를 이용하여 유사도를 계산한다. 실험 결과 제안한 방법이 기존의 방법들보다 우수함을 확인하였다.

연구 개발 트렌드 분석을 위한 기술 지식 온톨로지 구축 (Ontology Construction of Technological Knowledge for R&D Trend Analysis)

  • 황미녕;이승우;조민희;김순영;최성필;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권12호
    • /
    • pp.35-45
    • /
    • 2012
  • 과학기술 분야 연구자들은 이전 연구와 개발 결과에 대한 조사 연구에 많은 시간을 소비한다. 또한, 연구자들은 유리한 입지를 성공적으로 차지하기 위해 일반적으로 학술 논문, 특허, 최근 연구 동향에 대한 웹 문서 등의 다양한 학술 자원을 분석하여 새롭게 등장하는 연구 주제를 선점하려고 한다. 하지만 키워드 기반의 정보 검색이나 참고문헌 정보에 근거한 연관 문서 추출 방법을 사용해서는 방대한 문헌에서 투자 가능한 연구 주제를 효율적으로 찾는 일이 쉽지 않다. 본 논문에서는 대규모 기술 문헌 자료에서 추출되는 기술, 제품, 연구 주체 간의 의미론적으로 연결된 정보를 효율적으로 생성, 저장하고 활용할 수 있는 방법을 제안한다. 세부적으로 텍스트 마이닝 기술을 활용하여 문헌에서 나타나는 주요 개체들과 연관 관계를 추출하여 시맨틱 웹 환경에 적용 가능한 기술 지식으로 생성하는데 적합한 온톨로지를 구축한다. 이렇게 구축된 온톨로지는 연관 관계를 가진 기술 지식 탐색을 지원하기에 연구 개발 트렌드 예측 및 분석 서비스인 InSciTe Adaptive에 사용되었다.

코드 가시화부터 모델링 추출을 통한 역공학 적용 (Applying Reverse Engineering through extracting Models from Code Visualization)

  • 권하은;박보경;이근상;박용범;김영수;김영철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.646-649
    • /
    • 2014
  • 최근 레가시 소프트웨어 기능의 증가와 범위가 넓어져, 결함으로 발생하는 사고의 피해 규모가 증가하고 있다. 그로 인해 소프트웨어의 고품질화가 절대적으로 필요하다. 기존 NIPA의 소프트웨어 가시화는 코드로부터 아키텍처 추출을 중점을 고려한다. 이로부터 역공학 기법을 통한 객체지향 코드의 정적 분석과 가시화로 모델(클래스 모델, 순차적 모델, 패키지 모델, 그리고 유스 케이스 모델)과 요구사항을 추출하고자 한다. 이에 앞서 기존에 구축한 Tool-chain에서 가시화를 통한 클래스 모델 추출을 먼저 시도한다. 본 논문에서는 객체지향 패러다임에 맞게 수정된 결합도 측정 방법을 제안하고 추출된 UML 클래스 다이어그램에 적용한다. 그 방법은 측정된 결합도를 클래스 간 의존 관계와 비교하고 UML 클래스 다이어그램에 표현하는 것이다. 이를 통해 기존 레가시 소프트웨어의 재개발 과정에서 설계 문서의 추출과 고품질화가 가능하다.

과학기술분야 용어 간 관계추출 시스템의 평가를 위한 테스트컬렉션 구축 (Construction of Test Collection for Evaluation of Scientific Relation Extraction System)

  • 최윤수;최성필;정창후;윤화묵;류범종
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.754-758
    • /
    • 2009
  • 대용량 문서에서 포함된 정보를 추출하는 작업은 정보검색분야 뿐만 아니라 질의응답과 요약분야에서 매우 유용하다. 정보 추출 분야 중 관계추출 기술이 중요하게 인식되고 있으나, 기계학습모델을 기반으로 개발하기 위한 학습집합과 개발된 기술을 평가하기 위한 평가집합의 부재로 연구에 난항을 겪고 있다. 본 논문은 한국과학기술정보연구원(KISTI)이 보유하고 있는 해외학술지 데이터를 기반으로 과학기술용어에 대한 관계추출 기술 시스템을 개발하고 평가하기 위한 테스트 컬렉션(KREC2008) 구축을 위한 구축방법 및 절차를 기술한다. 해외 학술지 데이터의 초록을 대상으로 기술용어를 추출하였고, 기술용어의 쌍의 관계에 해당되는 단어를 Wordnet에 매핑하여 동사의 개념을 일반화하는 여러 개의 개념화된 후보군을 추출하였다. 평가기준 및 절차 교육이 이루어진 평가자가 개념화된 후보군에서 적합하다고 판단되는 "개념"을 "관계"로 지정하였다. Wordnet을 이용하여 "관계"에 대한 후보군을 생성하였기때문에, 일관성 있는 관계설정의 품질의 향상시켰고 비전문가도 쉽게 테스트컬렉션을 구축할 수 있는 방법을 제공하였다. 현재 KREC2008은 정보추출 연구자 및 개발자에게 공개되어 있으며, 과학기술분야 관계추출 시스템의 개발 및 신뢰도 평가를 목적으로 하는 학술대회의 연구결과 발표 및 제품 비교 등에 활용될 예정이다.

  • PDF

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

태그결합을 이용한 불리언 검색에서 순위화된 검색결과를 제공하기 위한 시스템 설계 및 구현 (Design and Implementation of Tag Coupling-based Boolean Query Matching System for Ranked Search Result)

  • 김용;주원균
    • 정보관리학회지
    • /
    • 제29권4호
    • /
    • pp.101-121
    • /
    • 2012
  • 불리언 검색만을 제공하는 정보시스템들은 순위화된 검색 결과를 제공하지 않아 이용자들이 많은 시간을 들여 수많은 결과를 일일이 확인해야하는 단점이 있다. 따라서 본 연구에서는 불리언 검색 모델의 단점을 극복하기 위한 방법으로써 불리언 검색에서 적용되고 있는 색인 가중치 정보 대신에 태그 간의 결합 관계 정보를 이용하여 순위화된 검색 결과를 제공하기 위한 시스템을 제안한다. 본 연구에서 제안하고 있는 방법은 일반적인 키워드 질의 대신에 문서를 질의로 사용하기 때문에 해당 문서에서 질의로 사용하는 핵심태그를 추출한다. 질의 생성 과정에서는 태그결합도에 따라 다양한 그룹의 불리언 질의를 생성하고, 매칭 과정에서는 해당 질의어 그룹 간에 차별성 정보와 태그 중요도 정보를 이용하여 순위화를 처리한다. 본 연구에서 제안하고 있는 방법의 유용성을 평가하기 위하여 선정된 연구정보와 관련된 동향분석정보를 추출하는 과정에 적용하여 실험을 수행하였다. 또한 제안된 방법에 대한 이용자 평가를 위하여 다수의 이용자들을 대상으로 약 1년간 서비스를 제공하였으며 그 결과 높은 이용자 만족도를 확보할 수 있다고 조사되었다.

효과적인 이진화를 위한 영상개선기법의 정의 및 구현 (Definition and Implementation of Image Enhancement Techniques for Efficient Binarization)

  • 최경주;변혜란;이일병
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권2호
    • /
    • pp.284-296
    • /
    • 1999
  • 문자 인식 및 영상 인식 분야의 대부분의 연구들은 이진영상(binary image)을 바탕으로 이루어진다. 하지만, 입력영상에서 보다 많은 정보를 얻기 위해 명도영상(grayscale image) 으로 입력받아 필요한 정보를 추출한후 이진영상으로 변환하여 처리하는 방법도 많이 사용되고 있다. 이런 경우, 명도영상으로부터의 보다 깨끗한 이진영상의 획득 여부는 시스템의 성능과도 밀접한 관계가 있다. 본 논문에서는 기존의 대부분의 이진화 방법과는 달리, 실제 이진화를 수행하기 이전에 여러 가지 필터링 기법을 사용하여 영상의 질을 개선시키는 영상개선기법을 사용한후, 기존의 이진화방법을 사용하여 명도영상을 이진화하는 방법을 제안하고자 한다. 영상의 질을 개선시키기 위해서 BM 필터링, 경게선 개선 필터링, Erosion필터링 방법을 사용하였으며 , 기존의 이진화방법으로는 전역적 이진화 방법중 하나로써 클래스간 분산을 이용한 Ostu 방법[1]을 사용하였다. 다양한 종류의 문서를 대상으로 실험하였는데 평가실험에 사용된 영상은 문서 특성에 따라 균일하지 않은 배경을 가진 영상, 순수하게 텍스트로만 구성된 영상, 선성분이 많으며 명도값이 다양하게 나타나는 영상, 텍스트와 선성분이 함께있는 영상 등 크게 4가지 부류로 구분하였고, 평가대상 영상에 대해 매개변수의 개수, 끊어진/잃어버린 /뭉게진 물체가 적은 정도, 실행속도, 매개변수 결정의 용이성, 잡영이 적은 정도를 평가기준으로 선정한 후, 정량적인 평가가 어려운 항목에 대해서는 9개의 등급으로 나누어 이진화 된 영상의 특성을 분석, 평가하였다.

키워드를 위한 시퀀셜 패턴 평가 지표와 SNS 팔로워의 관계를 이용한 사용자 관심사항 추출방법 (Extracting Method of User's Interests by Using SNS Follower's Relationship and Sequential Pattern Evaluation Indices for Keyword)

  • 신봉희;전혜경
    • 한국융합학회논문지
    • /
    • 제8권8호
    • /
    • pp.71-75
    • /
    • 2017
  • SNS 등의 보급으로 인해 Web 기반의 소비자 생성 데이터는 기하급수적으로 늘어나는 추세이다. 수많은 데이터 속에서 사용자의 관심에 맞는 콘텐츠를 정확히 추출하는 것은 여러 분야에서 중요하다. 특히 비즈니스 분야에서는 많은 사용자들 속에서 자신들에게 적합한 고객을 찾아 마케팅 정책을 수립하는 것이 중요하다. 본 논문에서는 트위터의 팔로우-팔로잉 관계를 통해 각 계정에 관심이 있는 고객들을 중심으로 중요한 정보를 얻고자 한다. 현재 트위터의 팔로워 간의 관계는 사용자의 세부 관심 사항을 반영하지 않는다. 그러므로 본 연구에서는 팔로우들의 트윗에 대한 키워드 추출 방법을 사용하여 세부 관심 사항을 파악하려고 한다. 이를 위해 국내 상업 트위터 계정 2곳을 선정하여 팔로워로부터 수집한 텍스트 데이터의 마이닝 핵심 문구에 대한 순차 패턴 평가 지표를 적용한다.