• 제목/요약/키워드: Text line information

검색결과 147건 처리시간 0.023초

온라인$\cdot$모바일 환경에서 멀티미디어 컨텐츠 생성을 위한 학습 시스템의 설계 및 구현에 관한 연구 (Design and Implementation of Learning System for Generating Multimedia Contents at On-Line$\cdot$Mobile Environment)

  • 이현창;최광돈
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.217-222
    • /
    • 2005
  • 이동 통신 기술의 발전은 사용자에게 이동 중에도 정보를 공유할 수 있는 환경을 제공하였다. 그러나 온라인 혹은 모바일 환경에서 인터넷을 통해 다운로드 받은 파일에 대한 학습은 판독만 가능하다. 그렇기 때문에 오프라인 혹은 제한적인 온라인 상태의 학습 패턴인 중요부분 밑줄 긋기 혹은 글씨 색상 변경하기 등 멀티미디어 학습 컨텐츠 생성을 수행할 수 없다. 또한, 저장 할 때에도 사용중인 어플리케이션에 종속된 저장 형태로 저장하여야 한다. 이와 같이 학습 컨텐츠 생성과 학습 패턴을 변경한 이후에 저장 형식이 온라인모바일 환경의 표준 포맷으로 저장되지 않는 문제점이 존재한다. 이에 본 논문에서는 온라인모바일 환경에서 접속하려는 사이트를 인터넷을 통해 제공되는 수많은 전자책 내용을 개인 학습 패턴에 맞게 변형할수 있도록 새로운 형태의 학습 플랫폼을 제시하고, 온라인상에서 수행되는 전자책 학습 시스템을 구축한다.

  • PDF

사회기반시설물 안전관리 지원 데이터베이스 구축을 위한 구조계산서의 XML 문서화 방법론 (A methodology for XML documentation of the structural calculation document to build database supporting safety management of infrastructures)

  • 이진훈;박상일;김봉근;이상호
    • 한국방재학회:학술대회논문집
    • /
    • 한국방재학회 2007년도 정기총회 및 학술발표대회
    • /
    • pp.414-417
    • /
    • 2007
  • A methodology for XML documentation of the structural calculation document is presented to support manipulation of the design information on the internet. The text file format is chosen as a neutral format because it can be easily translated from office documents generated from engineering practice. The first word of each line is compared with the reserved numbering groups, and relative levels among the lines are defined to generate the hierarchically structured XML document of the text file. The demonstration subjected to sample general documents and structural calculation documents shows that the prototype application module based on the developed methodology can be adopted to build the database of design information which supports the safety management of infrastructures.

  • PDF

다중 뷰 편집환경을 위한 점진적 다중진입 지원 파서에 대한 연구 (A Study of Incremental and Multiple Entry Support Parser for Multi View Editing Environment)

  • 염세훈;방혜자
    • 디지털산업정보학회논문지
    • /
    • 제14권3호
    • /
    • pp.21-28
    • /
    • 2018
  • As computer performance and needs of user convenience increase, computer user interface are also changing. This changes had great effects on software development environment. In past, text editors like vi or emacs on UNIX OS were the main development environment. These editors are very strong to edit source code, but difficult and not intuitive compared to GUI(Graphical User Interface) based environment and were used by only some experts. Moreover, the trends of software development environment was changed from command line to GUI environment and GUI Editor provides usability and efficiency. As a result, the usage of text based editor had decreased. However, because GUI based editor use a lot of computer resources, computer performance and efficiency are decreasing. The more contents are, the more time to verify and display the contents it takes. In this paper, we provide a new parser that provide multi view editing, incremental parsing and multiple entry of abstract syntax tree.

인보이스 서류 영상의 테이블 헤더 문자 분류를 통한 구매 정보 추출 모델 (Purchase Information Extraction Model From Scanned Invoice Document Image By Classification Of Invoice Table Header Texts)

  • 신현경
    • 디지털융복합연구
    • /
    • 제10권11호
    • /
    • pp.383-387
    • /
    • 2012
  • 스캔된 인보이스에 특화된 서류 관리 자동화 시스템 구축에있어서 추출된 금전적 데이터의 정확도에대한 엄격한 요구는 인보이스 테이블을 위한 발생적 모델 설계에서 자체 인증 절차를 포함하는 것을 필요로 한다. 가격 = 단가 ${\times}$ 구매수량과 같은 내부적 관계식을 활용한 단순한 인증 절차를 사용하는 것이 전형적 방법론이다. 본 논문에서 는 영상내 테이블 헤더 부분의 탐색과 탐색된 헤더의 컬럼 구분자를 활용하는 개선된 자동 인증 절차를 갖춘 인보이스내 정보 추출 모델을 제안한다.

온라인 텍스트문서의 계층적 트리 기반 주제탐색 기법 (A Novel Technique of Topic Detection for On-line Text Documents: A Topic Tree-based Approach)

  • 현만;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.396-399
    • /
    • 2012
  • Topic detection is a problem of discovering the topics of online publishing documents. For topic detection, it is important to extract correct topic words and to show the topical words easily to understand. We consider a topic tree-based approach to more effectively and more briefly show the result of topic detection for online text documents. In this paper, to achieve the topic tree-based topic detection, we propose a new term weighting method, called CTF-CDF-IDF, which is simple yet effective. Moreover, we have modified a conventional clustering method, which we call incremental k-medoids algorithm. Our experimental results with Reuters-21578 and Google news collections show that the proposed method is very useful for topic detection.

한국어 텍스트 처리를 위한 줄 경계 띄어쓰기 복원 (Automatic Word-Segmentation at Line-Breaks for Korean Text Processing)

  • 정영미;이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1999년도 제6회 학술대회 논문집
    • /
    • pp.21-24
    • /
    • 1999
  • 한국어 텍스트의 줄 경계에서의 띄어쓰기 복원을 위해 음절쌍 통계를 이용한 복원 기법을 설계하고 신문기사를 대상으로 통계 정보원과 음절쌍 위치에 따른 가중치를 달리하는 실험을 수행하였다. 실험 결과 처리 대상 기사를 포함하는 1개월 분 기사를 통계 정보원으로 하고 가중치는 균등하게 할 때 가장 높은 성공률을 얻었다. 이 결과는 디지털 원문을 텍스트 방식으로 소급하여 구축하는 경우에 적용될 수 있을 것이다.

  • PDF

VoiceXML을 이용한 VUI 개발에 관한 연구 (A Study on Development of VUI(Voice User Interface) using VoiceXML)

  • 장민석;양운모
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (A)
    • /
    • pp.349-351
    • /
    • 2002
  • 한국현재의 컴퓨팅환경은 Text위주의 Command Line상에서의 입출력에서 GUI(Graphic User Interface)환경으로 전환되었다. 이는 사용자에게 좀더 친근한 방법으로의 컴퓨팅환경을 제공하고 있는 것이다. 하지만 아직까지 그러한 환경에 익숙해지기 위해서는 많은 습득시간이 필요하며 또한, 응용프로그램 간의 인터페이싱 기능 등을 익히기 위해서는 추가적인 학습을 통해야 원활한 작업을 수행할 수 있다. 이를 해결하고자 본 연구는 음성인식/ 합성과, 현재 음성마크업 언어인 VoiceXML 등을 통해서 모색해보고자 한다.

  • PDF

모바일 시스템 응용을 위한 실외 한국어 간판 영상에서 텍스트 검출 및 인식 (Text Detection and Recognition in Outdoor Korean Signboards for Mobile System Applications)

  • 박종현;이귀상;김수형;이명훈
    • 전자공학회논문지CI
    • /
    • 제46권2호
    • /
    • pp.44-51
    • /
    • 2009
  • 자연 영상에서의 텍스트 이해는 지난 수년간 매우 활발한 연구 분야로 자리하고 있다. 논문에서 우리는 한국어 간판 영상으로부터 자동으로 텍스트를 인식하는 방법을 제안한다. 제안된 방법은 상호명의 인식을 위한 텍스트 영역의 검출 및 이진화를 포함하고 있다. 먼저 수직, 수평 방향의 에지 히스토그램을 이용하여 텍스트 영역의 정교한 검출을 수행하였다. 두 번째 단계는 검출된 텍스트 영역에 대해서 연결요소 기법을 적용하여 각각의 독립된 한 개의 문자 영역으로 분할되어지고, 마지막으로 최소 거리 분류법에 의해 각각의 글자를 인식한다. 각각의 문자 인식을 위해 모양 기반 통계적 특징을 추출한다. 실험에서 제안된 전체적인 효율성 및 정확성을 분석하였으며, 현재 구현된 모바일 시스템의 실용성을 확인할 수 있었다.

문자열 검출을 위한 슬라브 영역 추정 (Slab Region Localization for Text Extraction using SIFT Features)

  • 최종현;최성후;윤종필;구근휘;김상우
    • 전기학회논문지
    • /
    • 제58권5호
    • /
    • pp.1025-1034
    • /
    • 2009
  • In steel making production line, steel slabs are given a unique identification number. This identification number, Slab management number(SMN), gives information about the use of the slab. Identification of SMN has been done by humans for several years, but this is expensive and not accurate and it has been a heavy burden on the workers. Consequently, to improve efficiency, automatic recognition system is desirable. Generally, a recognition system consists of text localization, text extraction, character segmentation, and character recognition. For exact SMN identification, all the stage of the recognition system must be successful. In particular, the text localization is great important stage and difficult to process. However, because of many text-like patterns in a complex background and high fuzziness between the slab and background, directly extracting text region is difficult to process. If the slab region including SMN can be detected precisely, text localization algorithm will be able to be developed on the more simple method and the processing time of the overall recognition system will be reduced. This paper describes about the slab region localization using SIFT(Scale Invariant Feature Transform) features in the image. First, SIFT algorithm is applied the captured background and slab image, then features of two images are matched by Nearest Neighbor(NN) algorithm. However, correct matching rate can be low when two images are matched. Thus, to remove incorrect match between the features of two images, geometric locations of the matched two feature points are used. Finally, search rectangle method is performed in correct matching features, and then the top boundary and side boundaries of the slab region are determined. For this processes, we can reduce search region for extraction of SMN from the slab image. Most cases, to extract text region, search region is heuristically fixed [1][2]. However, the proposed algorithm is more analytic than other algorithms, because the search region is not fixed and the slab region is searched in the whole image. Experimental results show that the proposed algorithm has a good performance.

Application of ChatGPT text extraction model in analyzing rhetorical principles of COVID-19 pandemic information on a question-and-answer community

  • Hyunwoo Moon;Beom Jun Bae;Sangwon Bae
    • International journal of advanced smart convergence
    • /
    • 제13권2호
    • /
    • pp.205-213
    • /
    • 2024
  • This study uses a large language model (LLM) to identify Aristotle's rhetorical principles (ethos, pathos, and logos) in COVID-19 information on Naver Knowledge-iN, South Korea's leading question-and-answer community. The research analyzed the differences of these rhetorical elements in the most upvoted answers with random answers. A total of 193 answer pairs were randomly selected, with 135 pairs for training and 58 for testing. These answers were then coded in line with the rhetorical principles to refine GPT 3.5-based models. The models achieved F1 scores of .88 (ethos), .81 (pathos), and .69 (logos). Subsequent analysis of 128 new answer pairs revealed that logos, particularly factual information and logical reasoning, was more frequently used in the most upvoted answers than the random answers, whereas there were no differences in ethos and pathos between the answer groups. The results suggest that health information consumers value information including logos while ethos and pathos were not associated with consumers' preference for health information. By utilizing an LLM for the analysis of persuasive content, which has been typically conducted manually with much labor and time, this study not only demonstrates the feasibility of using an LLM for latent content but also contributes to expanding the horizon in the field of AI text extraction.