• Title/Summary/Keyword: 텍스트 연구

Search Result 3,492, Processing Time 0.032 seconds

A Study on Modelling Readability Formulas for Reading Instruction System (독서교육시스템을 위한 텍스트수준 측정 공식 구성에 관한 연구)

  • Choe, In-Sook
    • Journal of the Korean Society for information Management
    • /
    • v.22 no.3 s.57
    • /
    • pp.213-232
    • /
    • 2005
  • The purpose of this study is to determine factors affecting text difficulty and to model objective formulas which measure readability scores. Some readability-related factors such as total number of letters, total number of syllables, total number of unique syllables, total number of sentences and total number of paragraphs were found through correlation analysis. Some regression equations with these factors as their variables were produced through regression analysis. A model estimating readability score from total number of unique syllables was a good formula, while a model with two factors, total number of unique syllables and new syllable occurrence ratio, was a better enhanced one. The readability score represents detailed level so we can recommend students read texts corresponding to their reading levels.

Skew Estimation and Correction in Text Images using Shape Moments (형태 모멘트를 이용한 텍스트 이미지 경사 측정 및 교정)

  • Choo, Moon-Won;Chin, Seong-Ah
    • The Journal of the Korea Contents Association
    • /
    • v.3 no.1
    • /
    • pp.14-20
    • /
    • 2003
  • In this paper efficient skew estimation and correction approaches are proposed. To detect the skew of text images, Hough transform using the perpendicular angle view property and shape moments are peformed. The resultant primary text skew angle is used to align the original text. The performance evaluations of the proposed methods with respect to running time are shown.

  • PDF

Text Assocation Pattern Extraction using NFP-tree Algorithm (NFP-Algorithm 알고리즘을 기반한 텍스트 연관 패턴 추출)

  • Yu, Soo-Kung;Kim, Kio-chung
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.97-100
    • /
    • 2004
  • 인터넷상에서 존재하는 많은 데이터베이스들 중 현실적으로 유용한 정보를 가지고 있는 것은 텍스트 데이타베이스이다. 텍스트 마이닝 기법에서 비구조적인 특징을 가진 텍스트 데이타로부터 유용한 정보를 분석하고 추출하여 연관된 패턴을 탐색하는 과정은 중요한 연구과제이다. 이에 본 논문은 인터넷에서 저장된 텍스트 데이터를 가지고 기존 텍스트 마이닝 기법 중 연관탐색 기법을 적용하여 사용자 중심의 연관된 패턴을 찾아서 의미있는 정보를 얻고자 한다. 탐색하기 위해 먼저 전처리 작업으로 용어의 객체를 추출하고. 추출된 각 객체들은 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관탐색 기법인 NFP-Algorithm(N-most interesting k-itemsets Using FP-tree and FP-Growth)을 적용시켜서 의미있는 정보를 추출했다. 또한 Apriori계 Algorithm, FP-Algorithm, NFP-Algorithm을 비교하여 NFP-Algorithm이 시간적면에서 효율적임을 보여주었다.

  • PDF

Category-wise Neural Summarizer with Class Activation Map (클래스 활성화 맵을 이용한 카테고리 의존적 요약)

  • Kim, So-Eon;Park, Seong-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.287-292
    • /
    • 2019
  • 다양한 매체를 통해 텍스트 데이터가 빠르게 생성되면서 요약된 텍스트에 대한 수요가 증가하고 있다. 시퀀스-투-시퀀스 모델의 등장과 attention 기법의 출현은 추상적 요약의 난도를 낮추고 성능을 상승시켰다. 그러나 그동안 진행되어 온 attention 기반의 시퀀스-투-시퀀스 모델을 통한 요약 관련 연구들은 요약 시 텍스트의 카테고리 정보를 이용하지 않았다. 텍스트의 카테고리 정보는 Class Activation Map(CAM)을 통해 얻을 수 있는데, 텍스트를 요약할 때 핵심이 되는 단어와 CAM에서 높은 수치를 보이는 단어가 상당수 일치한다는 사실은 요약문 생성이 텍스트의 카테고리에 의존적일 필요가 있음을 증명한다. 본 논문에서는 요약문 생성 시 집중 정도에 대한 정보를 CAM을 통해 전달하여 attention matrix를 보강할 수 있는 모델을 제안하였다. 해당 모델을 사용하여 요약문을 생성하고 대표적인 요약 성능 지표인 ROUGE로 측정한 결과, attention 기반의 시퀀스-투-시퀀스 모델이 질이 떨어지는 요약문을 생성할 때 attention의 성능을 보강하여 요약문의 질을 높일 수 있음을 알 수 있었다.

  • PDF

Tool Utilization Strategy for Using Block Programming Language as a Preceding Organizer for Text Programming Language Learning (텍스트 프로그래밍 언어 학습을 위한 블록 프로그래밍 언어를 선행조직자로 활용할 수 있는 도구 활용 전략)

  • Go, HakNeung;Lee, Youngjun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.395-396
    • /
    • 2022
  • 본 논문에서는 블록 프로그래밍 언어를 선행조직자로 하여 텍스트 프로그래밍 언어를 학습하는 도구 활용 전략을 연구하였다. 텍스트 프로그래밍 언어는 파이썬이며, 블록 프로그래밍 언어는 엔트리, 활용하는 도구는 주피터 노트북으로 선정하였다. 주피터 노트북을 활용한 블록 프로그래밍 언어 선행조직자 학습 전략은 code cell에 IPython.display.IFrame 클래스를 활용하여 결과 창에 엔트리 작업환경을 불러와 선행조직자로 제시하여 엔트리를 학습 후 code cell에서 파이썬으로 학습한다. 주피터 노트북을 통해 블록 프로그래밍 언어를 선행조직자로 제시 후 텍스트 프로그래밍 언어를 제시함으로써 텍스트 프로그래밍 언어를 학습할 때 인지적 부담을 줄어들고 긍정적 전이가 일어나 효과적인 학습이 될 것으로 기대된다.

  • PDF

Implementation of Online Editing System based on Structural Documents (구조문서 기반 온라인 교정 시스템의 설계 및 구현)

  • Jung, Han-Sang;Kim, Jae-Kyung;Sohn, Won-Sung;Lim, Soon-Bum;Choy, Yoon-Chul
    • Annual Conference of KIPS
    • /
    • 2002.11c
    • /
    • pp.2289-2292
    • /
    • 2002
  • 최근 웹을 기반으로 한 문서의 전자화가 이루어지면서 기존의 전통적인 펜기반 교정 시스템 또한 온라인상의 전자 문서 환경에 맞게 변화하고 있다. 이러한 펜기반 입력 기법을 사용하는 교정 시스템에서는 일반문서와 달리 웹 문서의 구조정보를 고려한 편집이 지원되어야 하며 또한 교정부호와 텍스트간의 정확한 영역 인식이 이루어져야 한다. 본 연구에서는 온라인 교정 시스템 모델링을 통하여 온라인 환경에 적합한 교정 부호를 정의하고, 교정 대상 텍스트 영역을 편집 가능한 단위로 구분하여 효율적인 편집 연산이 이루어 질 수 있도록 하였다. 또한 웹 기반의 구조문서(HTML/XML) 편집 환경을 고려하여 편집으로 인한 문서의 구조 정보 변경을 지원하기 위하여 텍스트를 비구조 및 구조정보 텍스트로 분류하여 정의하였다. 본 연구에서는 이러한 모델에 기반하여 교정 부호의 특성에 따른 가변적인 편집 텍스트 영역 인식 규칙 모델을 정의하여 교정 부호와 편집 텍스트 영역간의 모호성을 최소화하고, 편집으로 인한 문서의 구조 정보 변경을 지원하는 시스템을 구현하였다. 결과적으로 온라인 웹 문서 환경에서 펜기반의 모호한 교정 부호의 입력을 인지적인 관점에서 해석하여 보다 정확한 교정 작업 수행을 지원하도록 하였다.

  • PDF

Research on Measuring Racial and Gender Bias in Large Language Model (Large Language Model에서의 인종 및 성별 편향 측정 연구)

  • Jueun Lee;Ho Bae
    • Annual Conference of KIPS
    • /
    • 2024.10a
    • /
    • pp.734-737
    • /
    • 2024
  • Large Language Model(LLM) 사용이 증가하면서, LLM의 성별 및 인종에 대한 편향성은 사회적 불평등을 심화시킬 수 있는 중요한 문제로 대두되고 있다. 이에 LLM의 편향을 정확하고 신뢰성 있게 측정하는 도구가 필요하다. 본 논문은 LLM의 편향을 평가하는 방법론을 워드 임베딩 분석과 텍스트 생성 편향 분석으로 나누어 검토한다. 워드 임베딩 분석 방법은 단어 벡터 간 거리를 측정해 편향을 정량적으로 평가하는 방식으로, 간호사나 군인과 같은 단어들이 성별이나 인종과 같은 특정 집단과 얼마나 가깝게 매핑되는지를 분석하는 방식이다. 그러나 이 방법은 단어의 문맥적 의미 변화를 충분히 반영하지 못하는 한계가 있다. 반면, 텍스트 생성 편향 분석 방법은 LLM이 실제로 생성한 텍스트에서 나타나는 편향을 직접 평가하는 방식이다. 이를 위해 연구자는 성별이나 인종과 관련된 편향이 드러날 수 있는 문장들로 데이터셋을 구성하고, LLM이 이를 어떻게 처리하는지 분석한다. 이방법은 문맥을 반영해 모델이 생성한 텍스트에서 편향을 평가할 수 있다는 장점이 있지만, 연구자가 데이터셋을 구축하는 과정에서 주관적 판단이나 편향이 개입될 가능성이 있으며, 평가할 수 있는 시나리오가 제한적이라는 한계가 있다. 본 논문은 이러한 한계를 극복하기 위한 향후 연구로, 합성 데이터를 활용하여 데이터셋을 구축하고, 이를 통해 텍스트 생성 편향을 분석하는 방법을 제안한다. 합성 데이터는 다양한 시나리오를 기반으로 무한히 생성할 수 있어, 특정 시나리오에 제한되지 않고 LLM의 편향을 폭넓게 평가할 수 있다. 또한 연구자의 개입을 줄여 데이터셋 구축 시 발생할 수 있는 편향을 최소화하고, 더 공정하고 신뢰성 있는 평가를 가능하게 한다. 이에 따라 합성 데이터를 이용한 텍스트 생성 편향 분석 방법은 LLM의 성별 및 인종 편향을 보다 객관적으로 평가하는 도구로서 중요한 역할을 할 것으로 기대한다.

The Effects of Paralanguage Utilization Training for Audiobook Text Shaping - Professor's Friendly Behavior as a Parameters - (유사언어 활용 훈련이 오디오북 텍스트 형상화에 미치는 영향 연구 - 교수자의 우호적 행동을 매개변수로 -)

  • Cho, Ye-Shin
    • Journal of Korea Entertainment Industry Association
    • /
    • v.14 no.2
    • /
    • pp.141-153
    • /
    • 2020
  • The purpose of study is to examine the role of the Professor's friendly behavior as a parameters in the course of Paralanguage Utilization Training using pronunciation, stress, voice tone, speed, pause and expression of feelings affecting of Audiobook text shaping. the results of this study will be a reference to training on the use of Paralanguage for dynamic shaping of Audiobook text and recognizing the need and influence of professors' friendly behavior as a parameters. The results of the study are as follows. First, training in the use of Paralanguage was shown to have a positive effect on the Shaping of Audiobook text and served as a key factor in conveying the original meaning of text. Therefore, if we look at the significance and content of training using Paralanguage and continue training using Paralanguage, it will actually help to shape Audiobook text. Second, the professor's friendly behavior partially acted as a parameters role between training in the use of Paralanguage and shaping Audiobook text. The professor's friendly behavior has helped form Audiobook text by providing a sense of trust and will increase the level of completion for training in the use of Paralanguage. Thus, training in the use of Paralanguage Utilization Training could result in more effective Audiobook text shaping when conducted in conjunction with the professors' friendly actions. Therefore, it was shown that the ability to use Paralanguage and the professor's caring and friendly behavior to help them perform better were more effective when they simultaneously affected Audiobook text shaping.

A study of text embedding technique for issuing digital Certificate (증명서의 온라인 발급을 위한 텍스트 임베딩기법에 관한 연구)

  • 최기철;최종욱
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2000.11a
    • /
    • pp.267-275
    • /
    • 2000
  • 최근 전자상거래가 활성화되면서, 거래 인증서와 같은 온라인 증명서가 광범위하게 사용되고 있다. 그리고 증명서의 위/변조기술이 발전함에 따라서 온라인 거래에 사용되는 증명서의 인증과 위조/변조를 방지하는 기술이 필요하게 되었다. 본 연구는 증명서의 인증에 필요한 기술로서, 메시지 인증함수가 가지는 성질을 포함하고 있다. 본 연구에서 개발한 알고리즘은 증명서에 포함된 텍스트문서가 위조/변조되었을 경우 그 변동 상황을 알아내며, 부정적으로 위조/변조된 부분을 검출하며, 변동상황 검출과 함께 원 증명서의 문서를 복원할 수 있는 기술이다. 만일 이 증명서에 대하여 변동이 진행된 흔적이 발견될 경우, 증명서를 인증하지 않으며, 삽입한 텍스트 데이터를 추출하고 변동을 확인하는 것과 함께 필요한 정보를 복원한다. 본 논문의 시험결과에 근거하면 256$\times$256BMP file Format 이미지에 3만2천자 정도의 텍스트문서를 삽입할 수 있었다.

  • PDF

Empirical Analysis on the Effect of Design Pattern of Web Page, Perceived Risk and Media Richness to Customer Satisfaction (콘텐츠 제작방식, 지각된 위험, 미디어 풍부성이 고객만족에 미치는 영향 분석)

  • Park, Bong-Won;Lee, Jung-Mann;Lee, Jong-Won
    • The Journal of the Korea Contents Association
    • /
    • v.11 no.6
    • /
    • pp.385-396
    • /
    • 2011
  • Internet web pages can be classified by three major types such as texts only, images with texts and videos with texts. The purpose of this paper is to analyze how customers recognize and respond perspective of perceived risk and media richness with regard to design patterns of internet web pages. Additionally, we will examine the extent to which aforementioned factors affect customer satisfaction. Analyses with perceived risks revealed that customers feel less personal risks including performance, psychology and time/convenience when used web pages of text-images and text-videos, compared to text only based web pages. However, customers feel that web pages consisting of image-text or video-text have higher points in terms of symbolism and social presence in media richness, compared to text only based web pages. Finally, we showed that personal risk and text-based Web page negatively affect but symbolism and social presence positively impact on customer satisfaction. Therefore, this study suggests a clue that why video-based Web content did not grow different from many people's expectation.