• Title/Summary/Keyword: 텍스트 구성

Search Result 865, Processing Time 0.038 seconds

Building an RST-tagged Corpus and its Classification Scheme for Korean News Texts (한국어 수사구조 분류체계 수립 및 주석 코퍼스 구축)

  • Noh, Eunchung;Lee, Yeonsoo;Kim, YeonWoo;Lee, Do-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.33-38
    • /
    • 2016
  • 수사구조는 텍스트의 각 구성 성분이 맺고 있는 관계를 의미하며, 필자의 의도는 논리적인 구조를 통해서 독자에게 더 잘 전달될 수 있다. 따라서 독자의 인지적 효과를 극대화할 수 있도록 수사구조를 고려하여 단락과 문장 구조를 구성하는 것이 필요하다. 그럼에도 불구하고 지금까지 수사구조에 기초한 한국어 분류체계를 만들거나 주석 코퍼스를 설계하려는 시도가 없었다. 본 연구에서는 기존 수사구조 이론을 기반으로, 한국어 보도문 형식에 적합한 30개 유형의 분류체계를 정제하고 최소 담화 단위별로 태깅한 코퍼스를 구축하였다. 또한 구축한 코퍼스를 토대로 중심문장을 비롯한 문장 구조의 특징과 분포 비율, 신문기사의 장르적 특성 등을 살펴봄으로써 텍스트에서 응집성의 실현 양상과 구문상의 특징을 확인하였다. 본 연구는 한국어 담화 구문에 적합한 수사구조 분류체계를 설계하고 이를 이용한 주석 코퍼스를 최초로 구축하였다는 점에서 의의를 갖는다.

  • PDF

Analysis of Vocabulary Relations by Dimensional Reduction for Word Vectors Visualization (차원감소 단어벡터 시각화를 통한 어휘별 관계 분석)

  • Ko, Kwang-Ho;Paik, Juryon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.01a
    • /
    • pp.13-16
    • /
    • 2022
  • LSTM과 같은 딥러닝 기법을 이용해 언어모델을 얻는 과정에서 일종의 부산물로 학습 대상인 말뭉치를 구성하는 어휘의 단어벡터를 얻을 수 있다. 단어벡터의 차원을 2차원으로 감소시킨 후 이를 평면에 도시하면 대상 문장/문서의 핵심 어휘 사이의 상대적인 거리와 각도 등을 직관적으로 확인할 수 있다. 본 연구에서는 기형도의 시(詩)을 중심으로 특정 작품을 선정한 후 시를 구성하는 핵심 어휘들의 차원 감소된 단어벡터를 2D 평면에 도시하여, 단어벡터를 얻기 위한 텍스트 전처리 방식에 따라 그 거리/각도가 달라지는 양상을 분석해 보았다. 어휘 사이의 거리에 의해 군집/분류의 결과가 달라질 수 있고, 각도에 의해 유사도/유추 연산의 결과가 달라질 수 있으므로, 평면상에서 핵심 어휘들의 상대적인 거리/각도의 직관적 확인을 통해 군집/분류작업과 유사도 추천/유추 등의 작업 결과의 양상 변화를 확인할 수 있었다. 이상의 결과를 통해, 영화 추천/리뷰나 문학작품과 같이 단어 하나하나의 배치에 따라 그 분위기와 정동이 달라지는 분야의 경우 텍스트 전처리에 따른 거리/각도 변화를 미리 직관적으로 확인한다면 분류/유사도 추천과 같은 작업을 좀 더 정밀하게 수행할 수 있을 것으로 판단된다.

  • PDF

A Study of Multi-scenario in Visual Novel (비주얼 노블 멀티 시나리오 분석)

  • Lee, So-Hee
    • Journal of Korea Game Society
    • /
    • v.18 no.2
    • /
    • pp.59-68
    • /
    • 2018
  • A visual novel, a type of digital content combining novel and game, was designed as hypermedia which includes various media, for instance, image, sound, and video. The narrative of visual novel contains multimedia elements and highlights multi-scenario structures based on hypertext. Prior to creating visual novel scenario, a writer should thoroughly consider two main points. First of all, the scenario should cover the multimedia features of visual novel. Secondly, the scenario should be structured as a multi-scenario providing with performativity to players for interaction with readers. This study examines the influence of changes in platforms on visual novel scenario adjusted to mobile environment. It would provide an opportunity to understand how storytelling changes and adapts to rapid transformation of digital media contents.

The Principle of Dual Semiotic Process in Animation - Within Structuralism Semiotics - (애니메이션의 이중적 기호작용 원리 - 구조주의 기호학의 관점에서 -)

  • Joo Young-Sook;Kim Chee-Yong
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.9
    • /
    • pp.1196-1207
    • /
    • 2006
  • In this paper, study on organization factors and algorithm of semiotics in Animation text within Roland Gerard Barthes's Structurism semiotics theory. It is possible through this approach that we can analyse the effective mechanism which delivers messages(or text) of animation, instead of plain analysis of classical semiotics. and then It will be able to keep watch on the blind viewpoint of the pure aesthetics which does not consider a social duty. In the expression of single sentence by the view of Barthes's semiotics theory, the text of animation is 'one sign has duplex role'. when it is explained another, the animation of mass media is special processing that makes conception and significance. in other words, the order of domination likely natural rule assimilate mass people to itself by the animation of mass media

  • PDF

Topographic Non-negative Matrix Factorization for Topic Visualization from Text Documents (Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화)

  • Chang, Jeong-Ho;Eom, Jae-Hong;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.324-329
    • /
    • 2006
  • Non-negative matrix factorization(NMF) 기법은 음이 아닌 값으로 구성된 데이터를 두 종류의 양의 행렬의 곱의 형식으로 분할하는 데이터 분석기법으로서, 텍스트마이닝, 바이오인포매틱스, 멀티미디어 데이터 분석 등에 활용되었다. 본 연구에서는 기본 NMF 기법에 기반하여 텍스트 문서로부터 토픽을 추출하고 동시에 이를 가시적으로 도시하기 위한 Topographic NMF (TNMF) 기법을 제안한다. TNMF에 의한 토픽 가시화는 데이터를 전체적인 관점에서 보다 직관적으로 파악하는데 도움이 될 수 있다. TNMF는 생성모델 관점에서 볼 때, 2개의 은닉층을 갖는 계층적 모델로 표현할 수 있으며, 상위 은닉층에서 하위 은닉층으로의 연결은 토픽공간상에서 토픽간의 전이확률 또는 이웃함수를 정의한다. TNMF에서의 학습은 전이확률값의 연속적 스케줄링 과정 속에서 반복적 파리미터 갱신 과정을 통해 학습이 이루어지는데, 파라미터 갱신은 기본 NMF 기반 학습 과정으로부터 유사한 형태로 유도될 수 있음을 보인다. 추가적으로 Probabilistic LSA에 기초한 토픽 가시화 기법 및 희소(sparse)한 해(解) 도출을 목적으로 한 non-smooth NMF 기법과의 연관성을 분석, 제시한다. NIPS 학회 논문 데이터에 대한 실험을 통해 제안된 방법론이 문서 내에 내재된 토픽들을 효과적으로 가시화 할 수 있음을 제시한다.

  • PDF

Scaling Documents' Semantic Transparency Spectrum with Semantic Hypernetwork (Semantic Hypernetwork 학습에 의한 자연언어 텍스트의 의미 구분)

  • Lee, Eun-Seok;Kim, Joon-Shik;Shin, Won-Jin;Park, Chan-Hoon;Zhang, Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06c
    • /
    • pp.289-294
    • /
    • 2008
  • 어떤 자연언어 문서가 전달하려는 의미는 그 텍스트의 성격에 따라 아주 명확할 수도(예: 뉴스 문서), 아주 불분명할 수도 있다(예: 시). 이 연구는 이러한 '의미의 명확성(semantic transparency)'을 정량적으로 측정할 수 있다고 가정하고, 이 의미의 명확성을 판단하는 데에 단어들의 연쇄(word association)의 확률통계적 성질들이 어떻게 기능하는지에 대해 논한다. 이를 위해 특정 단어가 연쇄체를 형성하면서 발생하는 neighboring frequency와 degeneracy를 중심으로 Markov chain Monte Carlo scheme을 적용하여 의미망('Semantic Hypernetwork')으로 학습시킨 후 문서의 구성 단어들과 그 집합들 간의 연결 상태를 파악하였다. 우리는 의미적으로 그 표상이 분명하게 나뉘는 문서들(뉴스와 시)을 대상으로 이 모델이 어떻게 이들의 의미적 명확성을 분류하는지 분석하였다. Neighboring frequency와 degeneracy, 이 두 속성이 언어구조에서의 의미망 기억과 학습 탐색 기제에 유의한 기질로서 제안될 수 있다. 본 연구의 주요 결과로 1) 텍스트의 의미론적 투명성을 구별하는 통계적 증거와, 2) 문서의 의미구조에 대한 새로운 기질 발견, 3) 기존의 문서의 카테고리 별 분류와는 다른 방식의 분류 방식 제안을 들 수 있다.

  • PDF

A Content based Web Image Retrieval System using MPEG-7 Visual Descriptors and Textual Information (MPEG-7 시각 정보 기술자와 텍스트 정보를 이용한 내용 기반 웹 이미지 검색 시스템)

  • Park Joo-Hyoun;Nang Jong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06a
    • /
    • pp.232-234
    • /
    • 2006
  • 인터넷 기술의 발달과 디지털 카메라와 같은 디지털 미디어 생산 장비의 발달로 WWW에 이미지 데이터의 양이 급격하게 늘어나면서 웹 이미지에 대한 효율적인 검색에 대한 요구가 증가하고 있다. 본 논문에서는 사용자의 다양한 검색 요구를 만족시킬 수 있도록 기존의 텍스트 기반의 검색과 시각 정보 기반의 검색을 병합하여 수행할 수 있는 웹 이미지 검색 시스템을 설계하고 구현한다. 제안한 웹 이미지 검색 시스템은 웹 이미지 수집 및 검색정보 추출 도구. 검색 서버. 그리고 검색 클라이언트로 구성된다. 웹 이미지 수집 및 검색 정보 추출 도구는 웹에서 이미지를 수집하여 이미지가 속해있는 웹 문서 구조를 이용하여 적절한 키워드를 선택하며 시각 정보 기반의 검색을 지원하기 위해 MPEG-7 시각 정보 기술자(1)를 추출한다. 빠른 검색을 위해 추출된 텍스트 정보는 상용 데이터베이스에 저장되며 MPEG-7 시각 정보 기술자는 고차원 데이터 색인 방법인 HBI (Hierarchical Bitmap Index)(2)를 사용하여 색인 정보를 만들어 사용한다. 검색 클라이언트는 사용자가 각 검색 요소에 가중치를 부여하여 검색 할 수 있도록 하며 원하는 검색 결과를 얻을 때까지 반복하여 검색할 수 있는 연관 피드백 과정도 포함한다.

  • PDF

A SMIL 1.0 Contents Generating Tool Implemented by JAVA (JAVA로 구현한 SMIL 1.0 컨텐츠 생성도구)

  • Song, Jun-Hong;Kim, Se-Young;Lee, Jong-Youl;Kim, Hyun-Hee;Shin, Dong-Kyoo;Shin, Dong-Il
    • Annual Conference of KIPS
    • /
    • 2001.04a
    • /
    • pp.565-568
    • /
    • 2001
  • 고속 인터넷과 멀티미디어 관련 기술의 발달에 따라 통합 멀티미디어 서비스의 기반 구축이 활발히 진행되고 있으며, 이에 따라 단순 이미지, 텍스트만으로 구성되었던 기존의 웹 서비스 환경은 급격히 변화하고 있다. 그러나, 과거의 정적인 텍스트 위주의 고정된 내용을 표현하는 웹 페이지 저작으로는 멀티미디어에 대한 급격히 증대되는 사용자의 요구를 수용할 수 없게 되었다. 이에 따라 1998년도에 시간에 기반을 둔 멀티미디어 데이터의 통합 및 동기화를 위한 효과적인 프리젠테이션(Presentation)을 기술할 수 있는 SMIL(Synchronized Multimedia Integration Language)이 W3C(World Wide Web Consortium)에 의해 제안되었다. SMIL은 XML(eXended Markup Language)에 기반 한 선언적 마크업(Markup) 언어이며 텍스트 편집기 등으로 쉽게 저작할 수 있으나, 태그(Tag)기반 언어이므로 태그의 사용법을 숙지하여야만 효과적인 멀티미디어 프리젠테이션 제작이 가능하다. 이러한 난점을 극복하기 위해 본 논문에서는 Java를 기반으로 한 SMIL 문서 템플릿 기능과 멀티미디어 소스의 미리 보기 기능을 지원하는 SMIL 저작도구의 설계, 구현에 대하여 서술한다.

  • PDF

Building Modeling for Unstructured Data Analysis Using Big Data Processing Technology (빅데이터 처리 기술을 활용한 비정형데이터 분석 모델링 구축)

  • Kim, Jung-Hoon;Kim, Sung-Jin;Kwon, Gi-Yeol;Ju, Da-Hye;Oh, Jae-Yong;Lee, Jun-Dong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.253-255
    • /
    • 2020
  • 기업 및 기관 데이터는 워드프로세서, 프레젠테이션, 이메일, open api, 엑셀, XML, JSON 등과 같은 텍스트 기반의 비정형 데이터로 구성되어 있습니다. 텍스트 마이닝(Textmining)을 통해서 자연어 처리 및 기계학습 등의 기술을 이용하여 정보의 추출부터 요약·분류·군집·연관도 분석 등의 과정을 수행울 진행한다. 다양한 시각화 데이터를 보여줄 수 있는 다양한 모델 구축을 진행한 후 민원 신청 내용을 분석 및 변환 작업을 진행한다. 본 논문은 AI 기술과 빅데이터를 활용하여 민원을 분석을 하여 알맞은 부서에 민원을 자동으로 할당해 주는 기술을 다룬다.

  • PDF

Incremental Early Text Classification system for Early Risk Detection (조기 위험 검출을 위한 점진적 조기 텍스트 분류 시스템)

  • Bae, Sohyeun;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.91-96
    • /
    • 2021
  • 조기 위험 검출은 실시간으로 들어오는 텍스트를 순차적으로 처리하면서 해당 대화에 위험이 있는지 조기에 분류하는 작업으로, 정확도 저하를 최소화하는 동시에 가능한 한 빨리 대화를 분류하는 것을 목적으로 한다. 이러한, 조기 위험 검출은 온라인 그루밍 검출, 보이스 피싱 검출과 같은 다양한 영역에 활용될 수 있다. 이에, 본 논문에서는 조기 위험 검출 문제를 정의하고, 이를 평가할 수 있는 데이터 셋과 Latency F1 평가 지표를 소개한다. 또한, 점진적 문장 분류 모듈과 위험 검출 결정 모듈로 구성된 점진적 조기 텍스트 분류 시스템을 제안한다. 점진적 문장 분류 모듈은 이전 문장들에 대한 메모리 벡터와 현재 문장 벡터를 통해 현재까지의 대화를 분류한다. 위험 검출 결정 모듈은 softmax 분류 점수와 강화학습을 기반으로 하여 Read 또는 Stop 판단을 내린다. 결정 모듈이 Stop 판단을 내리면, 현재까지의 대화에 대한 분류 결과를 전체 대화의 분류 결과로 간주하고 작업을 종료한다. 해당 시스템은 micro F1과 Latency F1 지표 각각에서 0.9684와 0.8918로 높은 검출 정확성 및 검출 신속성을 달성하였다.

  • PDF