• 제목/요약/키워드: 전자텍스트

검색결과 441건 처리시간 0.027초

하이퍼텍스트 문서의 자동분류를 위한 워드넷 기반 특징 합병 기법 (A WordNet-based Feature Merge Method for HyperText Classification)

  • 노준호;김한준;장재영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.406-409
    • /
    • 2012
  • 본 논문은 하이퍼텍스트 문서의 자동분류 성능을 높이기 위한 새로운 접근법을 제시한다. 하이퍼텍스트 문서는 일반 문서와 달리 하이퍼링크로 서로 연결된 구조를 가진다. 이 하이퍼링크 정보는 대상문서와 연관도가 높은 정보를 가지고 있으며, 이러한 링크 정보로부터 특징을 보다 잘 선별하기 위해서는 보다 정밀한 접근법이 필요하다. 본 논문은 단어간 의미 유사도를 기반으로 하이퍼텍스트 링크 정보를 활용한 특징 가공기법을 제안한다. 제안 기법은 하이퍼링크 문서로부터 대상문서와 연관도가 높은 특징을 추출하기 위해 단어간 유사도 함수를 사용하며, 유사도 함수는 워드넷의 상/하위어 관계를 이용한다. 그리고 추출된 특징들 중 의미적으로 비슷한 개념의 특징들을 합병함으로써 의미적으로 보다 견고한 분류 모델을 구축한다. 제안 기법을 검증하기 위해 Web-KB 문서집합을 이용하여 실험을 수행하였고 실험 결과 기존 방법보다 우수한 성능을 보였다.

색 변화 특징을 이용한 자연이미지에서의 장면 텍스트 추출 (Scene Text Extraction in Natural Images Using Color Variance Feature)

  • 송영자;최영우
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅳ
    • /
    • pp.1835-1838
    • /
    • 2003
  • 이미지에 포함되어 있는 텍스트들은 이미지의 내용을 함축적이며 구체적으로 표현하는 정보를 갖고 있다. 본 논문에서는 이러한 정보를 정확히 추출하기 위해서 색 변화 특징을 이용한 텍스트 영역 추출 방법을 제안한다. 관찰에 의하면 이미지 내의 텍스트들은 주변 배경과의 색 변화가 존재하며, 이러한 색 변화를 3차원 RGB공간에서 표현한다면, 명도이미지에서의 밝기 변화에서 표현하기 어려운 영역들을 강조시킬 수 있으며, 조명 변화에도 민감하지 않은 결과를 만들어 낼 수 있다. 색 변화 정도는 3차원 RBG 공간에서의 색 분산(Variance)으로 측정한다 처리 과정으로서 우선 수평 및 수직 방향의 분산 이미지를 구하는데, 텍스트 영역은 두 방향의 분산 값이 모두 높은 특징이 있다. 다음으로 두 결과의 논리적 AND 연산을 수행하여 불필요한 잡영들을 제거한 후 연결요소를 분석, 검증하여 영역을 최종 확정한다. 다양한 종류의 자연이미지로 제안한 방법을 검증한 결과 밝기 변화 또는 색 연속성 특징들을 이용한 방법에서 찾기 어려운 텍스트 영역들을 찾을 수 있는 것을 확인할 수 있었다.

  • PDF

모바일 시스템 응용을 위한 실외 한국어 간판 영상에서 텍스트 검출 및 인식 (Text Detection and Recognition in Outdoor Korean Signboards for Mobile System Applications)

  • 박종현;이귀상;김수형;이명훈
    • 전자공학회논문지CI
    • /
    • 제46권2호
    • /
    • pp.44-51
    • /
    • 2009
  • 자연 영상에서의 텍스트 이해는 지난 수년간 매우 활발한 연구 분야로 자리하고 있다. 논문에서 우리는 한국어 간판 영상으로부터 자동으로 텍스트를 인식하는 방법을 제안한다. 제안된 방법은 상호명의 인식을 위한 텍스트 영역의 검출 및 이진화를 포함하고 있다. 먼저 수직, 수평 방향의 에지 히스토그램을 이용하여 텍스트 영역의 정교한 검출을 수행하였다. 두 번째 단계는 검출된 텍스트 영역에 대해서 연결요소 기법을 적용하여 각각의 독립된 한 개의 문자 영역으로 분할되어지고, 마지막으로 최소 거리 분류법에 의해 각각의 글자를 인식한다. 각각의 문자 인식을 위해 모양 기반 통계적 특징을 추출한다. 실험에서 제안된 전체적인 효율성 및 정확성을 분석하였으며, 현재 구현된 모바일 시스템의 실용성을 확인할 수 있었다.

텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법 (A Clustering-based Undersampling Method to Prevent Information Loss from Text Data)

  • 김종휘;신사임;장진예
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

국내 전자정부 연구동향에 대한 정량적 분석: 텍스트 마이닝과 네트워크 분석 기법을 중심으로 (Quantitative Analysis of Research Trends in Korean E-Government Using Text Mining and Network Analysis Methods)

  • 이수인;신신애;강동석;김상현
    • 정보화정책
    • /
    • 제25권4호
    • /
    • pp.84-107
    • /
    • 2018
  • 기존에 수행된 국내 전자정부 동향연구는 정성적 연구방법에만 의존하는 약점을 지니고 있다. 이에 본 연구는 2018년 9월 현재 시점에서 1996~2017년까지의 데이터를 기반으로 정량적 분석을 수행하였다. 텍스트 마이닝을 통해 도출된 연구주제는 총 7가지였으며, 그중에서도 프레임워크와 공공정책 효과의 네트워크 중심성이 높은 것으로 식별되었다. 본 연구결과는 전자정부의 발전을 위해 필요한 학술적/정책적 시사점을 제공하였다. 시사점 중의 하나는 기존 연구가 주로 수행하던 방식인 정성적 분석방법 대신에 정량적 분석방법을 활용하여, 상대적으로 객관성 및 학문의 다양성 확보에 이바지한다는 점이다.

음성응답 기술동향

  • 이용주;이정철
    • 전자통신동향분석
    • /
    • 제4권1호
    • /
    • pp.3-15
    • /
    • 1989
  • 컴퓨터에 의한 처리 결과를 음성으로 회답해주는 각종 음성응답 기술의 현황과 응용 및 발전 방향을 정리하였고 이방면 신기술인 텍스트에 의한 음성합성에 관하여도 기술하였다.

증명서의 온라인 발급을 위한 텍스트 임베딩기법에 관한 연구 (A study of text embedding technique for issuing digital Certificate)

  • 최기철;최종욱
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.267-275
    • /
    • 2000
  • 최근 전자상거래가 활성화되면서, 거래 인증서와 같은 온라인 증명서가 광범위하게 사용되고 있다. 그리고 증명서의 위/변조기술이 발전함에 따라서 온라인 거래에 사용되는 증명서의 인증과 위조/변조를 방지하는 기술이 필요하게 되었다. 본 연구는 증명서의 인증에 필요한 기술로서, 메시지 인증함수가 가지는 성질을 포함하고 있다. 본 연구에서 개발한 알고리즘은 증명서에 포함된 텍스트문서가 위조/변조되었을 경우 그 변동 상황을 알아내며, 부정적으로 위조/변조된 부분을 검출하며, 변동상황 검출과 함께 원 증명서의 문서를 복원할 수 있는 기술이다. 만일 이 증명서에 대하여 변동이 진행된 흔적이 발견될 경우, 증명서를 인증하지 않으며, 삽입한 텍스트 데이터를 추출하고 변동을 확인하는 것과 함께 필요한 정보를 복원한다. 본 논문의 시험결과에 근거하면 256$\times$256BMP file Format 이미지에 3만2천자 정도의 텍스트문서를 삽입할 수 있었다.

  • PDF

동화 삽화 자동 생성 시스템 설계 (Design of Fairy Tale Illustrations Automatic Generation System)

  • 문영주;홍선기;이화민;김현빈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1121-1124
    • /
    • 2013
  • 프로그램 실행 시 동화(텍스트)를 읽을 수 있게 하는 입력 파일을 받을 수 있게 만든다. 이렇게 받은 텍스트를 프로그램이 읽어 들여 알고리즘으로 대입한다. 알고리즘은 읽은 텍스트 중에 중요 단어를 뽑아내어 DB에 이에 알맞은 삽화를 요청하게 된다. 요청을 받은 데이터베이스는 다시 프로그램에 이미지를 보내주고, 프로그램은 이 삽화를 그 텍스트에 출력시키게 된다. 이 과정이 한 페이지를 만드는 과정이며, 원하지 않는 페이지는 건너 뛸 수 있게 한다. 이러한 작업을 반복하여 새로운 책 한권이 완성이 된다.

스마트제조를 위한 머신러닝 기반의 설비 오류 발생 패턴 도출 프레임워크 (A Machine Learning Based Facility Error Pattern Extraction Framework for Smart Manufacturing)

  • 윤준서;안현태;최예림
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.97-110
    • /
    • 2018
  • 4차 산업혁명 시대를 맞아, 제조 기업들은 생산성 향상을 위해 축적된 설비 데이터를 활용하여 스마트제조를 실현하는 것에 높은 관심을 두고 있다. 하지만 기존의 설비 데이터 분석 연구들은 주로 센서 데이터 등 정형 데이터를 대상으로 하여, 실제 큰 비중을 차지하고 있는 텍스트와 같은 비정형 데이터에 대한 분석 연구는 부족한 실정이다. 특히, 작업자가 수기로 작성한 텍스트 데이터를 활용한 사례는 매우 적었다. 따라서 본 논문에서는 작업자가 수기로 작성한 설비 오류 데이터를 분석하여 연관 규칙 마이닝을 통해 설비 오류 발생 패턴을 도출하는 프레임워크를 제안하고자 한다. 이때, 일반적인 텍스트 분석 기법과 같이 단어를 분석 기준으로 사용하는 경우 전문 용어에 해당하는 설비 오류의 의미를 표현하는 데에 한계가 있다는 점에 착안하여 구절을 추출하여 텍스트 분석 기준으로 사용하였다. 제안하는 프레임워크의 성능을 실제 사례를 통해 검증하였으며, 본 연구 결과를 활용하면 설비 오류를 예방하여 가동률을 높이고 나아가 제조 기업의 생산성 향상에 기여할 수 있을 것으로 기대한다.

자동문서분류를 위한 텐서공간모델 기반 심층 신경망 (A Tensor Space Model based Deep Neural Network for Automated Text Classification)

  • 임푸름;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.3-13
    • /
    • 2018
  • 자동문서분류(Text Classification)는 주어진 텍스트 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로서 스팸메일 탐지, 뉴스분류, 자동응답, 감성분석, 쳇봇 등 다양한 분야에 활용되고 있다. 일반적으로 자동문서분류 시스템은 기계학습 알고리즘을 활용하며, 이 중에서 텍스트 데이터에 적합한 알고리즘인 나이브베이즈(Naive Bayes), 지지벡터머신(Support Vector Machine) 등이 합리적 수준의 성능을 보이는 것으로 알려져 있다. 최근 딥러닝 기술의 발전에 따라 자동문서분류 시스템의 성능을 개선하기 위해 순환신경망(Recurrent Neural Network)과 콘볼루션 신경망(Convolutional Neural Network)을 적용하는 연구가 소개되고 있다. 그러나 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하고 있다. 본 논문은 그 이유가 텍스트 데이터가 단어 차원 중심의 벡터로 표현되어 텍스트에 내재한 의미 정보를 훼손하는데 주목하고, 선행 연구에서 그 효능이 검증된 시멘틱 텐서공간모델에 기반하여 심층 신경망 아키텍처를 제안하고 이를 활용한 문서분류기의 성능이 대폭 상승함을 보인다.