• 제목/요약/키워드: Text Input

검색결과 356건 처리시간 0.027초

SVD-LDA: A Combined Model for Text Classification

  • Hai, Nguyen Cao Truong;Kim, Kyung-Im;Park, Hyuk-Ro
    • Journal of Information Processing Systems
    • /
    • 제5권1호
    • /
    • pp.5-10
    • /
    • 2009
  • Text data has always accounted for a major portion of the world's information. As the volume of information increases exponentially, the portion of text data also increases significantly. Text classification is therefore still an important area of research. LDA is an updated, probabilistic model which has been used in many applications in many other fields. As regards text data, LDA also has many applications, which has been applied various enhancements. However, it seems that no applications take care of the input for LDA. In this paper, we suggest a way to map the input space to a reduced space, which may avoid the unreliability, ambiguity and redundancy of individual terms as descriptors. The purpose of this paper is to show that LDA can be perfectly performed in a "clean and clear" space. Experiments are conducted on 20 News Groups data sets. The results show that the proposed method can boost the classification results when the appropriate choice of rank of the reduced space is determined.

고 품질 텍스트 압축 기능을 지원하는 정지영상 압축 시스템 (A Still Image Compression System with a High Quality Text Compression Capability)

  • 이제명;이호석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권3호
    • /
    • pp.275-302
    • /
    • 2007
  • 본 논문은 고품질 텍스트 압축 기능을 지원하는 우수한 정지영상 압축 시스템을 제안한다. 영상에서 텍스트 부분을 분리하여 압축을 수행함으로서 고품질의 텍스트 압축 기능을 지원한다. 시스템은 코드블록 단위로 적응 이진 산술부호화를 수행하여 48:1 이상의 높은 정지영상 압축률을 보여주고 있다. 코드블록은 비트평면을 구성하는 비트들을 서브블록 단위로 파악하여 산술부호에 적합한 코드블록을 구성한 것이다. 산술부호기는 구성된 코드블록을 문맥을 기반으로 압축한다. 시스템의 입력 모드는 분할(Segmentation) 모드와 ROI(Region Of Interest) 모드로 구성된다. 분할 모드는 입력 영상을 텍스트 부분과 배경 영상 부분으로 분할하여 입력할 수 있게 한다. ROI 모드는 입력 영상을 관심 영역과 그 밖의 영역으로 구분하여 입력할 수 있게 한다. 현재 시스템이 나타내는 텍스트 압축 기능과 높은 압축률은 다른 JPEG2000 시스템들과 충분히 비교할 수 있는 수준이다. 시스템은 그 밖에 그레이 코딩을 수행하여 압축률을 향상시킨다.

인식률을 향상한 한글문서 인식 알고리즘 개발 (Development of an image processing algorithm for korean document recognition)

  • 김희식;김영재;이평원
    • 제어로봇시스템학회:학술대회논문집
    • /
    • 제어로봇시스템학회 1997년도 한국자동제어학술회의논문집; 한국전력공사 서울연수원; 17-18 Oct. 1997
    • /
    • pp.1391-1394
    • /
    • 1997
  • This paper proposes a new image processing algorithm to recognize korean documents. It take out the region of text area form input image, then it makes esgmentation of lines, words and characters in the text. A precision segmentation is very important to recognize the input document. The input image has 8-bit gray scaled resolution. Not only the histogram but also brightness dispersion graph are used for segmentation. The result shows a higher accuracy of document recognition.

  • PDF

Representation of Texts into String Vectors for Text Categorization

  • Jo, Tae-Ho
    • Journal of Computing Science and Engineering
    • /
    • 제4권2호
    • /
    • pp.110-127
    • /
    • 2010
  • In this study, we propose a method for encoding documents into string vectors, instead of numerical vectors. A traditional approach to text categorization usually requires encoding documents into numerical vectors. The usual method of encoding documents therefore causes two main problems: huge dimensionality and sparse distribution. In this study, we modify or create machine learning-based approaches to text categorization, where string vectors are received as input vectors, instead of numerical vectors. As a result, we can improve text categorization performance by avoiding these two problems.

An Efficient Machine Learning-based Text Summarization in the Malayalam Language

  • P Haroon, Rosna;Gafur M, Abdul;Nisha U, Barakkath
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1778-1799
    • /
    • 2022
  • Automatic text summarization is a procedure that packs enormous content into a more limited book that incorporates significant data. Malayalam is one of the toughest languages utilized in certain areas of India, most normally in Kerala and in Lakshadweep. Natural language processing in the Malayalam language is relatively low due to the complexity of the language as well as the scarcity of available resources. In this paper, a way is proposed to deal with the text summarization process in Malayalam documents by training a model based on the Support Vector Machine classification algorithm. Different features of the text are taken into account for training the machine so that the system can output the most important data from the input text. The classifier can classify the most important, important, average, and least significant sentences into separate classes and based on this, the machine will be able to create a summary of the input document. The user can select a compression ratio so that the system will output that much fraction of the summary. The model performance is measured by using different genres of Malayalam documents as well as documents from the same domain. The model is evaluated by considering content evaluation measures precision, recall, F score, and relative utility. Obtained precision and recall value shows that the model is trustable and found to be more relevant compared to the other summarizers.

텍스트 영상에 대한 데이터 천이 최소화 알고리즘 (Data Transition Minimization Algorithm for Text Image)

  • 황보현;박병수;최명렬
    • 디지털융복합연구
    • /
    • 제10권11호
    • /
    • pp.371-376
    • /
    • 2012
  • 본 논문에서는 텍스트 영상에 대한 데이터 천이 최소화를 위한 새로운 데이터 코딩기법과 회로를 제안한다. 제안한 회로는 기존의 Modified LVDS(Low Voltage Differential Signaling)의 문제점인 입력되는 데이터간의 동기와 출력되는 데이터간의 동기 문제를 수정한 개선된 MLVDS 회로와 Text image에 대한 천이 최소화를 위한 추가적인 직렬 데이터 코딩 기법인 TMUX 알고리즘으로 한 클럭에 2비트의 신호를 동시에 전송하여 동작 주파수를 줄일 수 있으며, 전자파 장애와 전력 소비를 해결할 수 있다. 시뮬레이션 결과를 통해서 텍스트 영상 데이터 천이 최소화 향상과 입출력간의 동기문제를 보완되었음을 확인하였다.

Text-Driven Multiple-Path Discourse Processing for Descriptive Texts

  • Seo, Jungyun
    • Journal of Electrical Engineering and information Science
    • /
    • 제1권2호
    • /
    • pp.1-8
    • /
    • 1996
  • This paper presents a text-driven discourse analysis system, called DPAS. DPAS constructs a discourse structure by weaving together clauses in the text by finding discourse relations between a clause and the clauses in a context. The basic processing model of DPAS is based on the stack based model of discourse analysis suggested by Grosz and Sidner. We extend the model with dynamic programming method to handle various discourse ambiguities effectively and efficiently. We develop the idea of a context space to keep all information of a context. DPAS parses a text by considering all possible discourse relations between a clause and a context. Since different discourse relations may result in different states of a context, DPAS maintains multiple context spaces for an ambiguous text. Since maintaining all interpretations until the whole text is processed requires too much computing resources, DPAS uses the idea of depth-limited search to limit the search space. If there is more than one discourse relation between an input clause and a context, DPAS constructs context spaces one context space for each discourse relation. Then, DPAS applies heuristics to choose the most desirable context space after it processes some more input clauses. Since the basic idea of DPAS is domain independent, although we used descriptive texts to demonstrate DPAS, we believe the idea of DPAS can be extended to understand other styles of texts.

  • PDF

문장 독립 화자 인증을 위한 세그멘트 단위 혼합 계층 심층신경망 (Segment unit shuffling layer in deep neural networks for text-independent speaker verification)

  • 허정우;심혜진;김주호;유하진
    • 한국음향학회지
    • /
    • 제40권2호
    • /
    • pp.148-154
    • /
    • 2021
  • 문장 독립 화자 인증 연구에서는 일반화 성능 향상을 위해 문장 정보와 독립적인 화자 특징을 추출하는 것이 필수적이다. 그렇지만 심층 신경망은 학습 데이터에 의존적이므로, 동일한 시계열 정보를 반복 학습할 경우, 화자 정보를 학습하는 대신 문장 정보에 과적합 될 수 있다. 본 논문에서는 이러한 과적합을 방지하기 위해 시간 축으로 입력층 혹은 은닉층을 분할 및 무작위 재배열하여 시계열 정보의 순서를 뒤섞는 세그멘트 단위 혼합 계층을 제안한다. 세그멘트 단위 혼합 계층은 입력층 뿐만 아니라 은닉층에도 적용이 가능하므로, 입력층에서의 일반화 기법에 비해 효과적이라 알려진 은닉층에서의 일반화 기법으로 활용이 가능하며, 기존의 데이터 증강 방법과 동시에 적용할 수도 있다. 뿐만아니라, 세그멘트의 단위 크기를 조절하여 혼합의 정도를 조절할 수도 있다. 본 논문에서는 제안한 방법을 적용하여 문장 독립 화자 인증 성능이 개선됨을 확인하였다.

SHAP 분석 기반의 넙치 질병 분류 입력 파라미터 최적화 (Optimizing Input Parameters of Paralichthys olivaceus Disease Classification based on SHAP Analysis)

  • 조경원;백란
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1331-1336
    • /
    • 2023
  • 머신러닝을 이용한 텍스트 기반 어류 질병 분류에서 머신러닝 모델의 입력 파라미터가 너무 많은 문제가 존재하지만, 성능의 문제로 임의로 입력 파라미터를 줄일 수 없다. 본 논문에서는 이 문제를 해결하고자 SHAP 분석 기법을 활용해 넙치 질병 분류에 특화된 입력 파라미터 최적화 방안을 제시한다. 제안한 방법은 SHAP 분석 기법을 적용하여 넙치 질병 문진표에서 추출한 질병 정보의 데이터 전처리와 AutoML을 활용한 머신러닝 모델 평가 과정을 포함한다. 이를 통해 AutoML의 입력 파라미터의 성능을 평가하고, 최적의 입력 파라미터 조합을 도출한다. 본 연구에서 제안 방법은 필요한 입력 파라미터 수를 감소시키면서도 기존의 성능을 유지할 수 있을 것으로 기대되며, 이는 텍스트 기반 넙치 질병 분류의 효율성 및 실용성을 높이는 데 기여할 것이다.

E-business 웹사이트에서의 데이터 입력디자인에 관한 비교 연구 (A Comparative Study on Data Input Design of E-business Websites)

  • 정홍인
    • 디자인학연구
    • /
    • 제17권1호
    • /
    • pp.127-134
    • /
    • 2004
  • 본 연구를 통해 e-business 웹사이트에서 사용자의 입력에 사용되는 어느 정도 표준화된 인터페이스 디자인들을 실험을 통해 비교하고 최적의 사용법을 알아내었다. 풀다운 메뉴, 텍스트 입력 창, 리스트, 라디오 버튼 등의 입력 디자인(도구)들이 실험에 사용되었으며 이들은 호텔 객실의 예약 웹사이트 시뮬레이션을 통해 비교되었다. 실험 결과 사용자의 입력 선택 사양이 4가지 이상인 경우 전문가에겐 텍스트 입력 창이 입력시간을 줄여주고 일반 사용자에게는 풀다운 메뉴가 사용성 측면에서 효율적임을 알 수 있었다. 단지 두 가지의 선택 사양이 존재할 경우엔 만족도, 유연성, 단순성을 고려했을 땐 리스트가 우수하며 사용 편의성 면에선 라디오 버튼이 최적의 인터페이스로 나타났다. 연구 결과를 사용자의 데이터 입력이 필요한 인터렉티브한 웹사이트의 디자인에 적용할 경우 경제적 효율과 사용성을 증대시킬 것이다.

  • PDF