• 제목/요약/키워드: Text Title

검색결과 150건 처리시간 0.028초

Title Extraction from Book Cover Images Using Histogram of Oriented Gradients and Color Information

  • Do, Yen;Kim, Soo Hyung;Na, In Seop
    • International Journal of Contents
    • /
    • 제8권4호
    • /
    • pp.95-102
    • /
    • 2012
  • In this paper, we present a technique to extract the title areas from book cover images. A typical book cover image may contain text, pictures, diagrams as well as complex and irregular background. In addition, the high variability of character features such as thickness, font, position, background and tilt of the text also makes the text extraction task more complicated. Therefore, we propose a two steps efficient method that uses Histogram of Oriented Gradients and color information to find the title areas. Firstly, text localization is carried out to find the title candidates. Finally, refinement process is performed to find the sufficient components of title areas. To obtain the best result, we also use other constraints about the size, ratio between the length and width of the title. We achieve encouraging results of extracted title regions from book cover images which prove the advantages and efficiency of the proposed method.

RNN과 강화 학습을 이용한 자동 문서 제목 생성 (Automatic Document Title Generation with RNN and Reinforcement Learning)

  • 조성민;김우생
    • Journal of Information Technology Applications and Management
    • /
    • 제27권1호
    • /
    • pp.49-58
    • /
    • 2020
  • Lately, a large amount of textual data have been poured out of the Internet and the technology to refine them is needed. Most of these data are long text and often have no title. Therefore, in this paper, we propose a technique to combine the sequence-to-sequence model of RNN and the REINFORCE algorithm to generate the title of the long text automatically. In addition, the TextRank algorithm was applied to extract a summarized text to minimize information loss in order to protect the shortcomings of the sequence-to-sequence model in which an information is lost when long texts are used. Through the experiment, the techniques proposed in this study are shown to be superior to the existing ones.

공간 정보와 투영 프로파일을 이용한 문서 영상에서의 타이틀 영역 추출 (Automatic Title Detection by Spatial Feature and Projection Profile for Document Images)

  • 박효진;김보람;김욱현
    • 융합신호처리학회논문지
    • /
    • 제11권3호
    • /
    • pp.209-214
    • /
    • 2010
  • 본 논문은 형태 처리기법과 연결요소 분석을 이용한 문서 영상의 분할과 구조적인 특징과 투영 프로파일 분석을 이용하여 문서영상에서 제목영역 추출방안을 제안한다. 문서 영상의 처리는 영상 분할과 제목 추출, 두 단계로 이루어진다. 영상 분할의 단계에서는 문서 영상을 구성요소 영역들로 나눈다. 영상 분할이 끝나면 분할된 영역들을 대상으로 구조적인 정보를 이용하여 제목이 될 후보 영역을 추출한다. 제목이 아닌 영역을 제거하여 제목 후보영역을 추출하고 난 후 투영 프로파일을 분석하여 제목 영역을 최종적으로 추출한다. 본 논문에서 제시된 투영 프로파일 분석을 이용한 제목 추출 방법은 다양한 문서 영상의 분할 및 제목 추출 결과를 보였으며, 문서 제목 인식, 멀티미디어 데이터 검색, 실시간 영상처리와 같은 다양한 응용분야에 활용될 것으로 기대된다.

투자전략 보고서의 제목이 주가 예측에 미치는 영향: 텍스트마이닝 중심으로 (How the Title of Investment Strategy Report Affects Stock Price Forecast: Using Text Mining Method)

  • 장준규;이규현;이준기
    • 한국빅데이터학회지
    • /
    • 제1권2호
    • /
    • pp.21-34
    • /
    • 2016
  • 재무분석가의 투자전략 보고서는 전문가의 금융정보 분석으로 사람들간의 금융 정보 격차를 줄일 수 있게 만들어 줄 수 있다. 하지만 여러 다른 인센티브로 말미암아 투자전략 보고서는 왜곡의 소지가 있을 수 있다. 만약, 투자전략 보고서 제목만으로 예측에 미치는 영향을 파악할 수 있다면, 예측력이 높은 투자전략 보고서를 분별할 수 있게 된다. 이에 본 연구는 재무분석가의 투자전략 보고서의 제목과 예측의 관계를 파악하려 한다. 텍스트 마이닝을 사용하여, 국내 재무분석가의 투자전략 보고서 제목으로부터 연구의 중요변수인 투자의견을 추출하고 모형을 구축하여 재무분석가의 예측 정확도와 예측 달성도를 측정하였다. 분석 결과, 강한 매수의견과 매도의견이 제목에 있을수록 재무분석가의 예측 정확도와 예측 달성도가 높아짐을 검증하였다. 본 연구 결과가 투자자에게 더 정확한 투자전략 보고서를 판단하는 기준를 제시하기를 바라고 빅데이터를 통한 분석 연구에 시사점을 주길 기대한다.

  • PDF

유사문헌집단에서 적합/부적합정보의 유용성에 관한 연구 (A Study on the Utility of Relevance/Non-relevance Information in Homogeneous Documents)

  • 문성빈
    • 정보관리학회지
    • /
    • 제32권3호
    • /
    • pp.277-293
    • /
    • 2015
  • 본 논문에서는 문헌의 적합성수준을 적합성정도에 따라 4그룹(부적합한, 조금 적합한, 적합한, 매우 적합한)으로 나눈 후 서로 다른 심사자가 적합성 판정을 내린 4개의 적합성 판정세트(A, B, C, D)에서 "조금 적합한" 문헌을 부적합문헌으로 분류했을 때와 적합문헌으로 분류하였을 때에, 초록/표제 시스템과 전문검색시스템에서 적합성피드백으로 인한 검색효율성의 증진은 어느 쪽이 더 혜택을 받게 되는 지를 연구하였다. "조금 적합한" 문헌을 적합문헌으로 포함시켰을 때 초록/표제시스템이 전문검색시스템보다 모든 적합성판정세트에서 검색효율성의 증가율이 높았고, 반면에 전문검색시스템에서는 "조금 적합한" 문헌을 적합문헌그룹에서 제외시켰을 때 검색효율성의 증가율이 일관성 있게 높아지는 것을 발견하였다. 이는 전문검색시스템에서는 적합문헌으로 포함된 "조금 적합한" 문헌으로부터 얻어지는 적합성피드백 정보는 잡음의 역할을 하게 되어 검색효율성의 증진에 도움이 안 되고 있음을 암시하고 있다. 특히, 매우 동질적인 문헌을 색인 및 검색대상으로 하고 있는 전문검색시스템에서는 잡음에 의해 초래되는 낮은 정확률을 개선하는 정교한 검색기법에 대한 연구가 지속되어야만 한다.

문서범주화 효율성 제고를 위한 정보원 평가에 관한 연구 (A Study on Information Resource Evaluation for Text Categorization)

  • 정은경
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.305-321
    • /
    • 2007
  • 이 연구는 색인가가 주제 색인하는 과정에서 참조하는 여러 문서구성요소를 문서 범주화의 정보원으로 인식하여 이들이 문서 범주화 성능에 미치는 영향을 살펴보는데 그 목적이 있다. 이는 기존의 문서 범주화 연구가 전문(full text)에 치중하는 것과는 달리 문서구성요소로서 정보원의 영향을 평가하여 문서 범주화에 효율적으로 사용될 수 있는지를 파악하고자 한다. 전형적인 과학기술분야의 저널 및 회의록 논문을 데이터 집합으로 하였을때 정보원은 본문정보 중심과 문서구성요소중심으로 나뉘어 질 수 있다. 본문정보중심은 본론자체와 서론과 결론으로 구성되며, 문서구성요소중심은 제목, 인용, 출처, 초록, 키워드로 파악된다. 실험결과를 살펴보면, 인용, 출처, 제목정보원은 본문정보원과 비교하여 유의한 차이를 보이지 않으며, 키워드정보원은 본문 정보원과 비교하여 유의한 차이를 보인다. 이러한 결과는 색인가가 참고하는 문서구성요소로서의 정보원이 문서 범주화에 본문을 대신하여 효율적으로 활용될 수 있음을 보여주고 있다.

이병하(李炳夏)의 『해혹변의(解惑辨疑)』 연구 (A Study on 『HaeHokByeonUi』 by Lee, ByungHa)

  • 朴薰平
    • 대한한의학원전학회지
    • /
    • 제34권1호
    • /
    • pp.1-25
    • /
    • 2021
  • Objectives : The purpose of this paper is to analyze the text of the 『HaeHokByeonUi(解惑辨疑)』 in detail and to collect information on its author, Lee, ByungHa. Methods : Family and life of Lee, ByungHa were reconstructed through genealogy and historical data published by the government. The contents and frequency of title items were analyzed. Results :1. The period of writing is estimated to be between 1827-1831. 2. At that time, there were one JeonUigam(典醫監)-bujigjang(副直長), and four medical officers who belonged to the Chijongcheong(治腫廳). 3. There was a total of 2434 title items, of which 472 items were overlaps. 4. The proportion of general vocabulary is higher than that of other vocabulary. 5. The overlapping title items are presumed to be important basic concepts within the medical text of that time. Conclusions : 『HaeHokByeonUi(解惑辨疑)』 was likely an introductory text to those preparing for the National Medical Examination of the 19th century. It provides useful basic medical vocabulary to learners of Korean Medicine even today.

"남충장공시고"의 편차와 산절에 관한 연구 (A Study on the Compilation and Revision of Texts in the Nam-chungjanggong-sigo)

  • 박문열
    • 한국도서관정보학회지
    • /
    • 제34권1호
    • /
    • pp.195-215
    • /
    • 2003
  • This study is a bibliographical analysis on the Nam-Chungjanggong-sigo(남충장공시고), a wooden block printed book. On the view of physical bibliography, a table of contents on the Nam-Chungjanggong-sigo is compiled by a preface, a Chungjanggong's poetical works, an extra appendixes and an epilogue; and its wooden printing block has made of 52 plates. On the row of textual bibliography, text of Chungjanggong's poetical works is revised second times, such as each title or text, also title and text; and shorten for verses. And some of verses are prepared for revised the same case of compilation, but omitted in the process of last compilation.

  • PDF

온라인 리뷰의 제목과 내용의 일치성이 리뷰 유용성에 미치는 영향 (The Effect of Text Consistency between the Review Title and Content on Review Helpfulness)

  • 이청용;김재경
    • 지식경영연구
    • /
    • 제23권3호
    • /
    • pp.193-212
    • /
    • 2022
  • 많은 연구에서 온라인 리뷰 유용성에 영향을 미치는 다양한 요인을 발견하였다. 기존 연구에서는 주로 온라인 리뷰와 관련되는 정량적(예: 평점) 및 정서적(예: 감성점수) 요인이 리뷰 유용성에 미치는 영향을 조사했다. 온라인 리뷰는 제목과 내용을 동시에 포함하고 있지만, 기존 연구는 주로 리뷰 내용에 중점을 두고 있다. 그러나 리뷰 제목을 고려하지 않고 단순히 리뷰 내용만을 고려하면 리뷰 유용성에 영향을 미치는 요인을 조사할 때 한계가 존재한다. 이에 따라 리뷰 제목과 내용을 모두 고려하는 연구가 주목받고 있지만, 대부분의 연구는 리뷰 유용성에 대한 리뷰 내용과 제목의 영향을 독립적으로 조사하였다. 이는 리뷰 제목과 내용 간의 일치성이 리뷰 유용성에 미치는 잠재적인 영향을 간과할 수 있다. 따라서 본 연구에서는 단순 노출 효과 이론을 통해 리뷰 제목과 내용 간의 텍스트 일치성이 리뷰 유용성에 미치는 영향을 확인하고, 정보 선명성, 리뷰 길이 및 정보원 신뢰성의 역할도 고려하였다. 분석 결과, 리뷰 제목과 내용 간의 텍스트 일치성은 리뷰 유용성에 부정적인 영향을 미치는 것을 확인하였다. 또한, 정보 선명성과 정보원 신뢰성은 리뷰 유용성에 대한 텍스트 일치성의 부정적인 영향을 완화한다는 것을 발견했다.

구조적 정보와 색인어 정보를 결합한 검색 모델 개발 (Development of Retrieval Model Using Structure Information and Term Information)

  • 임성신;한기덕;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.799-801
    • /
    • 2004
  • 인터넷 정보의 축적량이 증가함으로 인해 사용자는 원하는 정보를 찾기가 더욱 어려워졌다 따라서 수많은 문서들 중에서 원하는 정보를 효과적으로 찾아주는 정보검색 시스템의 중요성이 증가하게 되었으며 이에 대한 연구도 활발히 진행되었다. 인터넷 문서에서 추출할 수 있는 정보들은 링크 정보, Anchor Text 정보, Title Text 정보, 본문 Text 정보 등이 있으며, 이런 정보들을 이용한 수많은 정보검색 시스템이 개발되거나 모델이 연구되고 있다 본 논문에서는 기존에 이용되어 왔던 일반적인 추출 점보들을 정제 및 처리를 통해 성능을 높일 수 있는 방안을 연구했던 선행 연구를 기반으로 한 실험 결과 및 사이트 가중치를 추가한 모델을 제시한다.

  • PDF