• 제목/요약/키워드: 텍스트 특징

검색결과 545건 처리시간 0.026초

색 분산 특징을 이용한 텍스트 추출에서의 손실된 분산 복원 (Variance Recovery in Text Detection using Color Variance Feature)

  • 최영우;조은숙
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.73-82
    • /
    • 2009
  • 본 논문은 자연이미지에 포함된 텍스트 영역을 찾기 위한 방법으로서 기존에 제안한 색 분산 특징을 이용한 방법에서 분산이 제대로 추출되지 않는 문자 획들에 대한 복원 방법을 제안한다. 이전의 색 분산 특징을 이용한 추출방법에서는 고정된 크기의 수평 및 수직 분간 추출 윈도우를 사용함으로서 문자 획이 두껍거나 긴 경우에는 색 분산이 제대로 추출되지 않는 단점이 있었다. 따라서 본 논문에서는 미 추출된 색 분산을 연결요소 외곽사각형의 기하학적인 정보와 경험적인(Heuristic) 지식을 함께 이용하여 복원하는 방법을 제안한다. 제안한 방법은 다양한 종류의 디지털 카메라와 휴대폰 카메라를 이용해서 취득한 문서 유형의 이미지와 간판, 거리 표지판 등의 자연이미지를 사용하여 테스트 하였으며, 특히 큰 글자를 포함하는 자연이미지에 대해서도 텍스트 추출의 정확성이 향상된 것을 확인할 수 있었다.

다중 작업 학습의 단계적 특징을 활용한 한국어 속성 기반 감성 분석에서의 대상 추출 (Target extraction in Korean aspect-based sentiment analysis using stepwise feature of multi-task learning model)

  • 박호민;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.630-633
    • /
    • 2022
  • 속성기반 감성 분석은 텍스트 내에 존재하는 속성에 대해 세분화된 감성 분석을 수행하는 과제를 말한다. 세분화된 감성분석을 정확하게 수행하기 위해서는 텍스트에 존재하는 감성 표현과 그것이 수식하는 대상에 대한 정보가 반드시 필요하다. 그리고 순서대로 두 가지 정보는 이후 정보를 텍스트에서 추출하기 위해 중요한 단서가 된다. 따라서 본 논문에서는 KorBERT와 Bi-LSTM을 이용한 단계적 특징을 활용한 다중 작업 학습 모델을 사용하여 한국어 감성 분석 말뭉치의 감성 표현과 대상을 추출하는 작업을 수행하였다. 제안한 모델을 한국어 감성 분석 말뭉치로 학습 및 평가한 결과, 감성 표현 추출 작업의 출력을 추가적인 특성으로 전달하여 대상 추출 작업의 성능을 향상시킬 수 있음을 보였다.

  • PDF

발신번호 특징 및 음절단위 기계학습을 통한 모바일 스팸 SMS 필터링 시스템 (A Mobile Spam SMS Filtering System using Machine learning about syllable and the features of caller ID)

  • 유환일;채동규;임을규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.219-222
    • /
    • 2011
  • 본 논문에서는 스팸 SMS 발신번호와 메시지 텍스트의 특징을 기계학습한 스팸 필터링 시스템을 논한다. 최근 변화하는 스팸SMS에 대한 적응력을 위해서, 각 트레이닝 셋의 수신 텍스트를 음절단위로 분석 할 것을 제안한다. 그리고 기존의 분류기는 성능이 미흡하거나 구현의 복잡성으로 인해 실제로 스펨 필터엔진으로 활용되지 않는 점을 극복하기 위해서 보다 단순한 분류기를 사용한다. 제안하는 시스템은 트레이닝 셋의 발신번호 및 수신 텍스트의 음절단위를 빈도수와 묶어 학습데이터를 구성하고, 테스트 셋을 스팸적 논스팸적으로 분석하여 스팸일 확률을 계산한다. 또한 Naive baysian를 바탕으로 한 경계값 기반 분류기를 통해, 타 분류기에 비해 구현 및 활용면에서 실용성이 높으면서도 성능이 뒤처지지 않는 시스템을 제안한다.

명도 정보를 이용한 자연 영상에서의 기울기 보정 및 텍스트 추출 (Text Extraction and Skew Compensation in Natural Scenes using Gray-level Information)

  • 최규담;김성동;최기호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.215-218
    • /
    • 2004
  • 본 논문은 실내외에서 얻어진 자연 영상으로부터 기울어진 영상을 바로 보정하고 텍스트를 추출하는 방법을 제안한다. 본 연구는 명도 이미지를 대상으로 모든 과정이 4단계로 이루어진다. 첫째 자연 영상에서 에지 검출 처리를 위한 전처리 및 Canny 에지 추출을 수행하며, 둘째 영상의 기울기를 추출하기 위해 허프변환에 대한 전처리와 후처리를 한 후, 셋째로 잡음영상과 선을 제거하고 텍스트 특징을 이용한 후보영역 검출을 한다. 마지막으로 텍스트 후보영역 안에서 지역적 이진화를 수행하여 불필요한 비텍스트 연결 요소를 추려내기 위해 두 가지 텍스트 추출 방법을 수행한다. 본 연구는 게시판, 교통표지판, 책 표지 등 100장의 자연영상을 대상으로 실험한 결과 텍스트 추출에서 90.3% 추출 정확도를 가졌으며, 기울어진 각도 추출에서도 94.3%의 높은 추출률을 보였다.

  • PDF

NFP-Algorithm 알고리즘을 기반한 텍스트 연관 패턴 추출 (Text Assocation Pattern Extraction using NFP-tree Algorithm)

  • 유수경;김교정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.97-100
    • /
    • 2004
  • 인터넷상에서 존재하는 많은 데이터베이스들 중 현실적으로 유용한 정보를 가지고 있는 것은 텍스트 데이타베이스이다. 텍스트 마이닝 기법에서 비구조적인 특징을 가진 텍스트 데이타로부터 유용한 정보를 분석하고 추출하여 연관된 패턴을 탐색하는 과정은 중요한 연구과제이다. 이에 본 논문은 인터넷에서 저장된 텍스트 데이터를 가지고 기존 텍스트 마이닝 기법 중 연관탐색 기법을 적용하여 사용자 중심의 연관된 패턴을 찾아서 의미있는 정보를 얻고자 한다. 탐색하기 위해 먼저 전처리 작업으로 용어의 객체를 추출하고. 추출된 각 객체들은 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관탐색 기법인 NFP-Algorithm(N-most interesting k-itemsets Using FP-tree and FP-Growth)을 적용시켜서 의미있는 정보를 추출했다. 또한 Apriori계 Algorithm, FP-Algorithm, NFP-Algorithm을 비교하여 NFP-Algorithm이 시간적면에서 효율적임을 보여주었다.

  • PDF

영·한 통번역을 위한 성경 텍스트 클리셰(cliche)의 실증적 분석 (Empirical Analysis on the Holy Bible Texts' Cliche for English-Korean Interpretation and Translation)

  • 유선영
    • 한국콘텐츠학회논문지
    • /
    • 제17권10호
    • /
    • pp.54-64
    • /
    • 2017
  • 본 연구는 클리셰(cliche)의 개념화에 주목하여 성경 텍스트에 나타난 클리셰를 분석함으로써 클리셰의 개념과 범주를 올바로 규정짓고자 하였다. 클리셰의 개념을 비롯하여 클리셰와 관용어의 범주를 구분하여 설명하고, 성경 텍스트를 분석함으로써 클리셰의 개념과 정확한 사용을 위한 기준점을 제시하였다. 분석은 신뢰도를 높일 수 있도록 13권의 영어 성경 텍스트를 통해 클리셰를 정리하고 분석하였다. 분석 결과로는 성경 텍스트의 클리셰를 분석에 있어 그 의의를 발견함과 동시에 클리셰의 범주를 확실히 할 수 있었다. 본고는 영 한 통번역을 위해 성경 텍스트에 나타난 클리셰를 분석함으로써 클리셰의 흥미로움을 발견함과 동시에 클리셰의 기능을 모색하고, 이를 통해 통번역 분야에 개념적 발판을 마련한 데에 그 의미가 있다. 영 한 통번역에 있어서 관용어를 비롯하여 클리셰의 개념에 대한 학습과 교육적 가치에 있어서 매우 도움이 될 것으로 생각된다. 클리셰는 어느 언어에서나 다양하게 나타날 수 있는 비유 표현이자, 언어를 특징짓는 일부가 되는 언어 표현 도구로써 사회 문화적인 현실 속에서 사용되면서 그 사회와 문화를 특징짓는 중요한 요소가 되기 때문이다. 따라서 본고에서의 클리셰의 개념 이해와 분석을 토대로 독자로 하여금 영 한 통번역 현장에서의 클리셰 연구의 필요성이 인식되고 클리셰 연구가 더욱 활발해질 것으로 기대한다.

구조생성기호학적 관점에서의 디지털게임의 의미생성방식 연구 - 스타크래프트, 리니지, 스페셜포스에 대한 분석을 중심으로 -

  • 박태순
    • 한국게임학회지
    • /
    • 제6권1호
    • /
    • pp.41-43
    • /
    • 2009
  • 게임에서의 텍스트를 추출하고 이를 분석하고자 하였다. 기본적으로 그레마스의 구조생성기호학을 활용하여 텍스트를 분석하고자 하였는데, 연구방법론에서는 현상학, 해석에서는 정신분석학의 이론에서도 도움을 받았다. 구체적인 분석대상으로는 온라인게임인 스타크래프트, 리니지, 스페셜포스를 선택하였다. 연구문제는 이들 세 게임의 의미생성방식에 대한 탐구로 구성되었다. 각 게임의 의미생성방식은 구조생성기호학의 세 가지 층위에서 구분되어 연구되었다. 즉, 심층구조, 기호-설화구조, 담화구조의 세층위로 전환, 발화되면서 점진적으로 의미가 풍성해지는 과정이 탐구되었다. 각 게임의 차이, 나아가 게임 장르간의 차이는 주로 심층 수준의 차이에서 기인한다고 보인다. 이들 게임의 주요 공통점이자, 다른 매체와의 차이점은 행동자 모델에서 두드러지는데, 바로 이용자가 스스로 주체의 위치를 점하게 되는 것이다. 상호작용성으로 대변되는 게임의 특성은 이용자의 텍스트로의 적극적인 개입을 할 수 있게끔 한다. 이러한 적극적인 개입은 이용자가 스스로 텍스트의 주체가 되도록 허용하는데, 주체가 된다고 함은 곧 스스로의 욕망을 직접 대상에 투사하면서 텍스트를 창출함을 의미한다. 바로 이러한 점이 게임의 의미생성방식의 큰 특징이며 다른 매체들과의 주요한 차이점이기도 하다. 더불어 게임이 우리 문화와 사회에 커다란 영향을 미칠 수 있는 기제임이 입증되는 것이기도 하다.

  • PDF

인간의 감정을 인지하는 안드로이드 기반 컨텍스트폰 (An Android based Contextphone to aware Human Emotion)

  • 류윤지;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.558-561
    • /
    • 2010
  • 컨텍스트폰은 사용자의 주변 상황을 실시간으로 수집하고 시각화하는 휴대전화이며 인간의 여섯 번째 감각 도구로써 신체의 일부가 되고 있다. 이에 따라 사용자에 특화된 상황 인지 기능을 지원하는 모바일 플랫폼 기술이 많이 연구되고 있다. 하지만 모바일 기기간의 상호작용이 아니라 사용자간의 소셜 인터랙션을 지원하는 모바일 플랫폼 연구는 미비하며 감정 등의 고수준 정보는 지원하지 않는다. 따라서 본 논문에서는 감정을 포함한 다양한 정보들을 지원하는 컨텍스트폰 플랫폼을 이용하여 사용자간의 감정을 공유 할 수 있는 컨텍스트폰에 대해 기술한다. 또한 사용자의 감정을 인식하기 위해 컨텍스트폰 플랫폼은 휴대전화 카메라를 이용하여 사용자의 얼굴이미지를 수집하고 감정인식기로 전달한다. 감정인식기는 사용자의 얼굴을 특징추출하여 패턴인식에 적용되는 분류분석 알고리즘을 통해 사용자의 감정을 알아내고 컨텍스트 서버를 매개체로 사용자간 감정을 전달하며 모바일 화면에 시각화한다.

특허정보 검색을 위한 벡터스페이스 검색모텔의 적용 (Vector Space Model for Patent Information Retrieval System)

  • 원상훈;노태길;손기준;박정희;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.516-518
    • /
    • 2003
  • 본 논문은 특허 문서에 맞게 벡터스페이스 모델을 적용하여 특허정보 검색기를 구현한다. 기존의 상용 특허 검색 시스템의 문제점을 제시하고, 특허 문헌의 특징을 분석하여, 이를 반영한 특허 문헌 검색등의 벡터 스페이스 모델을 제시한다. 하나의 특허 문서는 서로 상이한 특성을 지닌 텍스트와 데이터의 조합으로 이루어져 있다. 따라서 이를 하나의 벡터로 표현하는 것이 용이하지 않다. 이에 대해 본 연구에서는 내용 필드들을 특성에 따라 둘 이상의 벡터로 표현하고, 수치 및 고유명 필드는 불린검색형태로 처리되는 혼합형 벡터 모델을 제안한다. 각 필드의 특징에 맞게 색인어를 추출하며, 텍스트 필드의 색인어률 벡터로 표현하는 과정에서는 잘 알려진 TF-IDF 가중치를 사용하되, 특허 문서가 IPC 특허 분류 기준에 따라 완전 분류되어 있는 문서라는 특징을 이용, 보다 정확한 가중치를 부여한다. 실험과 성능평가를 통하여 제안한 특허 모델의 유용성을 보인다.

  • PDF

사이버 박물관을 위한 내용 기반 멀티키디어 정보검색 시스템의 설계 및 구현 (Design and Implementation of a Content-Based Multimedia Information Retrieval System for Cyber Museums)

  • 심춘보;송광택;장재우
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권1호
    • /
    • pp.88-98
    • /
    • 1999
  • 사이버 박물관과 같은 응용 분야에서는 기존의 단순 속성, 텍스트 키워드 검색 이외에 색상, 형태, 질감과 같은 이미지 특징을 기반으로 하는 효율적인 내용-기반 검색이 요구된다. 본 논문에서는 사이버 박물관을위한 내용-기반 멀티미디어 정보검색 시스템을 설계 및 구현한다. 이를 위해, 박물관 문화재중에서 특히 도자기 이미지 객체에 대해 색상과 형태에 기반한 효율적인 이미지 특징벡터 추출방법을 제안한다. 아울러, 단순 속성 검색에대해서는 B+-트리, 텍스트 키워드 검색에 대해서는 역화일 기법, 그리고 이미지 특징 검색에 대해서는 TV-트리(Telescopic Vector)를 지원하는 통합 검색 기법을 제안한다. 그리고 UNIX OS와 X11R5 라이브러리 환경에서 표준 C 언어를 사용하여 내용 -기반 멀티미디어 정보검색 시스템을 구현한다.