• 제목/요약/키워드: 자동추출

검색결과 2,631건 처리시간 0.034초

자동 평가 방법을 이용한 번역 지식 튜닝 시스템 (Translation Dictionary Tuning System By using of Auto-Evaluation Method)

  • 박은진;김운;권오욱;오영순;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.147-150
    • /
    • 2011
  • 본 논문에서는 병렬 말뭉치에서 오류가 있을 것으로 추정되는 문장을 자동 추출하여, 다수의 번역 사전 구축 작업자가 자동 번역시스템을 직접 사용하면서 번역 사전을 튜닝하는 방법에 대하여 제안하고자 한다. 작업자는 병렬 말뭉치의 대역문을 이용하여 자동 번역 결과의 BLEU를 측정하고, 사전 수정 전과 후의 BLEU 차이를 정량적으로 제시해 줌으로써 양질의 번역 사전을 구축하도록 하였다. 대량의 번역 사전이 이미 구축된 자동 번역시스템에서 추가적인 성능향상을 위해 대량의 말뭉치에서 미등록어, 번역패턴 등을 추출하여, 대량으로 구축하는 기존 방법에 비해 사전 구축 부작용이 적으며, 자동번역 성능향상에 더 기여하는 것을 실험을 통해 증명하였다. 이를 위해 본 논문에서는 중한 자동 번역시스템을 대상으로, 중국어 문장 2,193문장에 대해, 사전 구축 작업자 2명이 2주간 튜닝한 결과와 15만 말뭉치에서 추출한 미등록어 후보 2만 엔트리를 3명의 사전 구축 작업자가 미등록어 선별, 품사 및 대역어 부착한 결과 7,200 엔트리를 대상으로 자동평가를 실시하였다. 실험결과 미등록어 추가에 의한 BLEU 성능향상은 +3인데 반해, 약 2,000문장 튜닝 후 BLEU를 +12 향상시켰다.

  • PDF

영역확장을 이용한 뉴스 비디오 자막 자동 추출 (Automatic News Caption Segmentation Using Region Growing)

  • 이상호;손광훈;박철남
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 1998년도 학술대회
    • /
    • pp.67-70
    • /
    • 1998
  • 본 논문에서는 뉴스 비디오 자막의 구조적 문자 특성을 이용한 자동 자막추출방법을 기술하였다. 기존의 방법들은 경계 추출이나 이진화 과정 후에 화소값의 변화 profile에 나타나는 문자의 굵기, 간격 등의 문자 특징을 이용하는데 반해 본 논문에서 제안한 방식은 뉴스 비디오 자막에서 문자와 배경을 구분하는 테두리선을 배경과 문자를 구분하는 경계로 하여, 적절한 이진화 과정과 영역확장 기법을 이용하여 문자를 추출하였다. 제안한 방법은 문자에 대하 사전지식이 없어도 되며, 사용한 영역확장 기법은 기존의 방법에서의 경계 추출기법보다 간단하면서도 효과적인 문자추출 결과를 나타낸다.

  • PDF

IKONOS 정사영상을 이용한 건물의 자동추출 (Automatic Extraction of the Building Using IKONOS Ortho-Image)

  • 이재기;정성혁;임인섭
    • 한국측량학회지
    • /
    • 제21권1호
    • /
    • pp.19-26
    • /
    • 2003
  • 최근 1m 내외의 공간해상도를 가지는 고해상도 위성영상이 일반인에게 공개되고 상업적으로 이용이 가능해짐에 따라 고해상도 위성영상을 이용하여 정사영상을 제작하고 지도제작과 갱신 및 지형공간정보체계의 자료기반으로 활용하려는 연구가 활발히 이루어지고 있다. 따라서, 본 연구에서는 IKONOS 위성영상을 이용하여 정사영상을 제작하고, 인공지물중 도시지역에서 많은 분포를 나타내고 있는 건물을 자동 추출하는 처리기법을 정립하고, 관련된 알고리즘을 개발하는데 목적이 있다. 연구결과 전체 건물중 72%를 자동 추출할 수 있었으며, 대상영상과 중첩, 대상지역의 수치지도 및 수동으로 도화한 결과와 비교함으로써 오류발생의 경향을 분석하고, 본 연구에서 제시한 기법이 건물의 자동 추출에 비교적 양호한 결과를 얻을 수 있음을 알 수 있었다.

의학 전문용어의 정의문 자동 추출 (Automatic Extraction of Medical Term Definition from Texts)

  • 김재호;배선미;신효식;최기선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.922-924
    • /
    • 2004
  • 지식 정보의 확산에 따라 기존 전문분야 용어집에 수록되지 않은 용어의 수가 폭발적으로 증가하고 있다 이에 따라 용어집을 자동으로 구축하는 작업이 필요하게 되었다. 본 논문에서는 의학분야 코퍼스에서 주어진 전문용어에 대한 정의문을 자동으로 추출하는 방법을 제안한다. 우선, 정의문의 구문적 패턴과 용어의 어휘구성 패턴을 이용하여 용어의 상위개념을 추정한다. 상위개념별로 구축된 특성 어휘 목록을 이용하여 구문적 패턴으로 뽑힌 문장에 등장하는 어휘의 적합성 여부를 판단하여 정의문을 추출한다. 실험 결과 코퍼스에 정의 정보가 있는 48개의 용어에 대하여 71.43%의 정확률을 보인다.

  • PDF

한국어에 적합한 자동 온톨로지 생성을 위한 모델 제안 및 구현 (Implementation and Model to Automatically Generate an Ontology for Korean)

  • 정영규;박미성;최재혁;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.173-176
    • /
    • 2003
  • 본 논문은 언어학적 데이터로부터 자동으로 온톨로지를 생성하기 위한 모델을 제안하고 이를 구현한다. 모델 제안을 위해 온톨로지의 기본 구성 요소인 개념과 관계를 정의하고 이러한 개념과 관계 객체를 자동으로 추출하는 알고리즘을 제안한다. WordNet을 이용하여 개념을 자동으로 추출하고, 추출된 개념들간의 관계는 한국어의 구문적 특성을 이용하여 관계의 기본 형태를 정의하고 이를 기반으로 관계를 추출한다. 본 논문은 특허문서에서 전기통신기술문서를 대상으로 구현했으며, 제안된 알고리즘을 다른 영역으로 확장하여 이를 검증할 것이다.

  • PDF

칼라지도영상으로부터 도로 영역의 자동 추출에 관한 연구 (A Study on Automated Extraction of Road in Color-Printed Maps)

  • 김성영
    • 한국컴퓨터정보학회논문지
    • /
    • 제3권3호
    • /
    • pp.1-5
    • /
    • 1998
  • 본 논문에서는 일반 도로 안내 지도로부터 도로 영역들을 자동으로 추출하는 방법에 대해 제안하였다. 기본 추출 방법은〔1〕에서 제안한 선추적 방법을 이용하되 자동으로시작점을 선택할 수 있도록 함으로써 빈번한 사용자의 개입 없이 전체 도로 영역을 추출할수 있도록 하였다. 이 때 도로 종류(고속국도, 일반국도. 지방도 등)별로 색상을 분류하고 각색상에 대한 군집도를 분석하여 정리하여 클러스터를 생성함으로써 자동으로 시작점 선택이가능하도록 하였다. 본 연구에서 제안한 방법은 다양한 칼라지도에 적용하여 실험함으로써그 타당성을 검증하였다.

  • PDF

2D 실사 영상에 기반한 다중 가상 헤어스타일 생성 방법 (A Method for Generating Multiple Virtual Hairstyles Based on 2D Photo-realistic Images)

  • 이형진;곽노윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.1627-1630
    • /
    • 2005
  • 본 논문에서는 2D 실사 영상에서 추출한 헤어스타일을 임의의 인물 영상의 두상에 정렬시킨 상태에서 원래의 헤어스타일에서 추출한 헤어스타일로 변해가는 반자동 필드 모핑을 수행함으로써 여러 유형의 헤어스타일을 자동으로 생성할 수 있는 가상 헤어스타일 생성 방법에 관한 것이다. 제안된 방법은 사전에 준비된 그래픽 객체 외에도 실사 영상에서 직접 추출한 헤어스타일을 사용할 수 있고, 추출한 헤어스타일 외에도 다양한 유형의 헤어스타일을 자동으로 생성할 수 있는 이점이 있다. 또한, 반자동 필드 모핑에 기반한 편리한 사용자 인터페이스를 제공할 수 있기 때문에 작업자의 피로도를 경감시킴과 동시에 작업 시간을 단축할 수 있고 비숙련자도 간단한 사용자 입력을 통해 자연스러운 가상 헤어스타일을 생성할 수 있는 장점이 있다.

  • PDF

모바일 기기에 적합한 인체 추적 및 전송 시스템 (Human Body Tracking And Transmission System Suitable for Mobile Devices)

  • 곽내정;송특섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(C)
    • /
    • pp.437-439
    • /
    • 2011
  • 본 논문에서는 카메라에서 입력되는 영상에서 객체의 특징 자동 추출하고 모바일 기기로 전송하여 인체의 움직임을 표현하는 시스템을 제안한다. 제안시스템은 연속된 입력영상에서 인체의 실루엣과 조인트를 자동추출하고 조인트를 추적함으로 객체를 추적한다. 추출된 특징은 객체의 각 연결점의 위치정보로 사용되며 특징을 중심으로 블록매칭 알고리즘을 적용하여 특징의 위치정보를 추적하고 모바일기기로 정보를 전송한다. 모바일 기기에서는 전송된 조인트 정보를 이용하여 인체의 움직임을 재현한다. 제안방법을 실험 동영상에 적용한 결과 인체의 실루엣과 조인트를 자동 검출하며 추출된 조인트로 인체의 매핑이 효율적으로 이루어졌다. 또한 조인트의 추적이 매핑된 인체에 반영되어 인체의 움직임도 적절히 표현되었다.

Contrast map과 Salient point를 이용한 중요객체 자동추출 (Automatic salient-object extraction using the contrast map and salient point)

  • 곽수영;고병철;변혜란
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.808-810
    • /
    • 2004
  • 본 논문에서는 Contrast map과 Salient point를 이용하여 영상에서 중요한 객체를 자동으로 추출하는 방법을 제안한다. 우선 인간의 시각 체계와 유사한 밝기(luminance), 색상(color) 그리고 방향성(orientation) 3가지의 특징정보를 이용하여 각각의 특징정보로부터 feature map을 생성하고 이 3가지의 feature map을 선형 결합하여 contrast map을 생성한다. 이렇게 생성된 하나의 contrast map을 이용하여 대략적인 Attention Window (AW)의 위치를 결정한다. 다음으로, 영상으로부터 웨이블릿 변환을 적용하여 salient point를 찾고, salient point의 분포와 contrast map의 중요도에 따라 AW의 크기를 실제 중요 객체의 크기와 가장 유사하도록 축소시킨다. 이렇게 선택되고 축소된 AW안에서 실제 중요 객체를 추출하기 위해 AW 내부에 존재하는 영상에 대해서만 영상 분할을 하고 불필요한 영역을 제거하여 자동으로 중요객체를 추출하도록 한다.

  • PDF

Doc2Vec을 이용한 특허 문서 자동 분류 (Automatic Classification of Patent Documents Using Doc2Vec)

  • 송진주;강승식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.239-241
    • /
    • 2019
  • 지식과 정보의 중요성이 강조되는 지식기반사회에서는 지식재산권의 대표적인 유형인 특허의 중요성이 날로 높아지고 있고, 그 수 또한 급증하고 있다. 특허 문서의 효과적 검색과 이용을 위해서는 새롭게 출원되는 특허 문서의 체계적인 분류 작업이 선행되어야 하고, 따라서 방대한 양의 특허 문서를 자동으로 분류해주는 시스템이 필요하다. 본 연구에서는 Doc2Vec 모델을 이용하여 국내 특허 문서의 특징(feature)을 추출하고, 추출된 특징을 바탕으로 한 특허 문서의 자동 분류 모형을 제안한다. 먼저 국내에 등록된 31,495 건의 특허 문서의 IPC(International Patent Classification)와 요약정보를 바탕으로 Doc2Vec 모델을 구축하였다. 구축된 Doc2Vec 모델을 통하여 훈련데이터의 특징을 추출한 후, 이 특징 벡터를 이용하여 분류기를 학습하였다. 마지막으로 Doc2Vec 모델을 이용하여 실험데이터의 특징 벡터를 추출하고 분류기의 성능을 실험한 결과, 43%의 분류 정확도를 얻었다. 이를 통해, 특허 문서 분류 문제에 Doc2Vec 모델의 사용 가능성을 확인할 수 있었다.