• Title/Summary/Keyword: 디지털 텍스트 데이터

Search Result 202, Processing Time 0.024 seconds

A Design and Implementation for processing Query Links in Virtual Documents (가상문서에서 질의 링크 처리를 위한 설계 및 구현)

  • 강민구;김철수;강지훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.169-171
    • /
    • 2001
  • XML을 기반으로 하는 가상문서는 인터넷 상의 정보 공유를 가능하게 하여 새로운 지식을 생성할 수 있도록 한다. 가상문서에서는 비정형(텍스트, 이미지, 멀티미디어 데이터)과 준정형(HTML, XML) 데이터를 링크로 연결하여 정보를 제공하고 있다. HTML과 같은 기존의 웹 문서에서는 스크립트나 CGI 같은 것을 통하여 정형 데이터(데이터베이스)의 정보를 제공하고 있으므로 가상문서에서도 자연스럽게 정형 데이터를 연결하여 사용이 가능하다. 본 논문에서는 디지털 도서관 시스템에서 정형 데이터를 지원하기 위해 질의 링크를 포함하는 가상문서를 효율적으로 처리할 수 있도록 데이터베이스를 설계 및 구현하며, 데이터베이스 스키마 정보를 관리하여 필요한 데이터베이스를 검색하여 질의 링크의 생성을 돕도록 하였다.

  • PDF

TAGS: Text Augmentation with Generation and Selection (생성-선정을 통한 텍스트 증강 프레임워크)

  • Kim Kyung Min;Dong Hwan Kim;Seongung Jo;Heung-Seon Oh;Myeong-Ha Hwang
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.12 no.10
    • /
    • pp.455-460
    • /
    • 2023
  • Text augmentation is a methodology that creates new augmented texts by transforming or generating original texts for the purpose of improving the performance of NLP models. However existing text augmentation techniques have limitations such as lack of expressive diversity semantic distortion and limited number of augmented texts. Recently text augmentation using large language models and few-shot learning can overcome these limitations but there is also a risk of noise generation due to incorrect generation. In this paper, we propose a text augmentation method called TAGS that generates multiple candidate texts and selects the appropriate text as the augmented text. TAGS generates various expressions using few-shot learning while effectively selecting suitable data even with a small amount of original text by using contrastive learning and similarity comparison. We applied this method to task-oriented chatbot data and achieved more than sixty times quantitative improvement. We also analyzed the generated texts to confirm that they produced semantically and expressively diverse texts compared to the original texts. Moreover, we trained and evaluated a classification model using the augmented texts and showed that it improved the performance by more than 0.1915, confirming that it helps to improve the actual model performance.

Shape-based Leaf Image Indexing (모양 기반의 식물 잎 이미지 인덱싱)

  • 남윤영;손정민;황인준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10c
    • /
    • pp.493-495
    • /
    • 2004
  • 최근, 디지털 카메라와 디지털 캠코더처럼 디지털 장비가 대중화됨에 따라, 이미지 데이터가 급증하게 되었다. 이와 함께, 이미지 검색에 대한 요구도 증가하게 되었으며, 단순한 텍스트 검색이 아닌 이미지의 특징에 기반한 검색이 요구되고 있다. 특징 기반의 검색은 색상, 질감, 모양 등과 같은 특성에 기반한 검색으로 사람이 일일이 주석을 입력하는 방식보다 자동화가 가능하며, 빠르게 인덱싱할 수 있는 장점이 있다. 본 연구에서는 모양을 이용하여 이미지를 인덱싱 하였으며, 스케치된 식물의 잎 모양의 이미지를 이용 하였다. 또한, 식물의 잎에 뻗어있는 잎맥의 모양을 이용하여 검색의 정확도를 높였다.

  • PDF

Case Analysis of Bible Visualization based on Text Data Traits -Focused on Content, Structure, Quotation of Text- (텍스트 데이터의 특성에 따른 성경 시각화 사례 분석 -텍스트의 내용적, 구조적 특성 및 인용 정보를 중심으로-)

  • Kim, Hyoyoung;Park, Jin Wan
    • The Journal of the Korea Contents Association
    • /
    • v.13 no.8
    • /
    • pp.83-92
    • /
    • 2013
  • Text visualization begins with understanding text itself which is material of visual expression. To visualize any text data, sufficient understanding about characteristics of the text first and the expressive approaches can be decided depending on the derived unique characteristics of the text. In this research we aimed to establish theoretical foundation about the approaches for text visualization by diverse examples of text visualization which are derived through the various characteristics of the text. To do this, we chose the 'Bible' text which is well known globally and digital data of it can be accessed easily and thus diverse text visualization examples exist and analyzed the examples of the bible text visualization. We derived the unique characteristics of text-content, structure, quotation- as criteria for analyzing and supported validity of analysis by adopting at least 2-3 examples for each criterion. In the result, we can comprehend that the goals and expressive approaches are decided depending on the unique characteristics of the Bible text. We expect to build theoretical method for choosing the materials and approaches by analyzing more diverse examples with various point of views on the basis of this research.

A weighted method for evaluating software quality (가중치를 적용한 소프트웨어 품질 평가 방법)

  • Jung, Hye Jung
    • Journal of Digital Convergence
    • /
    • v.19 no.8
    • /
    • pp.249-255
    • /
    • 2021
  • This study proposed a method for determining weights for the eight quality characteristics, such as functionality, reliability, usability, maintainability, portability, efficiency, security, and interoperability, which are suggested by international standards, focusing on software test reports. Currently, the test results for software quality evaluation apply the same weight to 8 quality characteristics to obtain the arithmetic average. Weights for 8 quality characteristics were applied using the results from text analysis, and weights were applied using the results of text analysis of test reports for two products. It was confirmed that the average of test reports according to the weighted quality characteristics was more efficient.

WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS (WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법)

  • Song, Ae-Rin;Park, Young-Ho
    • Journal of Digital Contents Society
    • /
    • v.19 no.1
    • /
    • pp.51-58
    • /
    • 2018
  • As the amount of users and data of NS explosively increased, research based on SNS Big data became active. In social mining, Latent Dirichlet Allocation(LDA), which is a typical topic model technique, is used to identify the similarity of each text from non-classified large-volume SNS text big data and to extract trends therefrom. However, LDA has the limitation that it is difficult to deduce a high-level topic due to the semantic sparsity of non-frequent word occurrence in the short sentence data. The BTM study improved the limitations of this LDA through a combination of two words. However, BTM also has a limitation that it is impossible to calculate the weight considering the relation with each subject because it is influenced more by the high frequency word among the combined words. In this paper, we propose a technique to improve the accuracy of existing BTM by reflecting semantic relation between words.

A Study of the Middleware System for the Construction of u-Healthcare System (u-Healthcare 시스템 구축을 위한 미들웨어 시스템에 관한 연구)

  • Kim, Yei-Chang
    • Journal of Digital Convergence
    • /
    • v.6 no.3
    • /
    • pp.139-147
    • /
    • 2008
  • -Healthcare란 건강관련 정보를 시간과 공간의 제약 없이 수집, 처리, 전달, 관리할 수 있게 해줌으로써 원격지 의료서비스를 제공하는 것을 말한다. 본 논문은 USN을 활용하여 원격에서 측정된 의료정보를 수집하여 서버에 전달하는 미들웨어 시스템을 시뮬레이션 했다. 헬스 케어기기에서 측정된 데이터를 USN을 통해 원격지의 서버로 전송하는데, 데이터의 전송에는 근거리 무선통신기술인 Zigbee를 사용하였다. 이러한 과정에서 헬스 케어기기와 서버사이에 미들웨어를 두어 측정된 이진코드 데이터를 텍스트데이터로 변환하여 서버의 헬스케어 시스템에 저장한다. 서버에 저장된 환자들의 의료정보는 의료진이 활용할 수 있도록 했다. 또한, 미들웨어 시스템에서는 데이터의 필터링을 통해 불필요한 데이터를 삭제해 서버의 부하를 줄여서, 외부 어플리케이션의 질의에 대한 정보제공을 용이하게 했다.

  • PDF

Analysis on Patent Trends for Mobile Richmedia Service Technology (모바일 리치미디어 서비스 기술 특허 동향 분석)

  • Choe, Jin-Su;Jeong, Se-Yun;Cha, Ji-Hun;Lee, Tae-Jin;Gang, Gyeong-Ok;Mun, Gyeong-Ae;Lee, Yong-Il
    • Electronics and Telecommunications Trends
    • /
    • v.23 no.1 s.109
    • /
    • pp.130-144
    • /
    • 2008
  • 최근 초고속 인터넷, WiBro, HSDPA 등의 통신 환경과 지상파, 케이블, 위성, DMB 망등의 디지털 방송 환경의 발전으로 인해 음성, 영상, 이미지, 텍스트 등의 다양한 멀티미디어 서비스 제공이 휠씬 용이하게 됨에 따라 IPTV, 디지털 TV, DMB 방송, DVD, 영상 회의 등과 같은 응용분야가 각광을 받고 있다. 이러한 응용 분야에서 멀티미디어 데이터를 효율적으로 저장하거나 전송하기 위해서는 음성 및 영상의 압축부호화가 필수적으로 요구되며, 또한 대화형 데이터 서비스를 제공하기 위해서는 데이터 표현, 전송 및 처리가 아주 중요하다. 특히 제한된 대역폭과 낮은 성능의 단말과 같은 모바일 방송통신 환경에서 오디오, 비디오, 이미지 등의 다양한 멀티미디어 서비스를 제공 받기 위해서는 높은 압축률의 고효율 오디오/비디오 부호화 기술과 초경량의 데이터 서비스 기술이 필수적으로 요구된다. 본 고에서는 최신 고효율 오디오/비디오 부호화 기술 및 초경량 데이터 서비스 기술 동향을 살펴보고, 관련 기술의 특허 동향을 살펴본다.

The Transition of Reading/Writing Culture and Emerging Digital Contents-Focusing on Bakhtin's "The prose of everyday life" (읽기/쓰기 문화의 변천에 따른 디지털 콘텐츠의 부상(浮上) : 바흐친의 '일상생활의 산문'을 중심으로)

  • Gu, Mo-Ni-Ka
    • Journal of Digital Contents Society
    • /
    • v.12 no.3
    • /
    • pp.371-382
    • /
    • 2011
  • Reading and writing in the past make noble significance in 'narration', in other words, in 'the creation of narration', through the process of 'recording'; but in the modern times, it engenders controversies over narration and linearity. In other words, reading/writing in digital era, is devalued as the simple arrangement of test or the connection of vast information without narration nor linearity. However, the reading/writing through text and hypertext reading is not the phenomenon which should be criticized because of the lack of narration or linearity-not only the lack of narration and linearity -, a process of social and cultural transition; it should be revalued as a result. The change of reading and writing methods will inevitably accompany the layers, status, significance and value of the contents; thus it makes more sense, when the reading and writing methods in digital contents are approached as new pop culture phenomenon. This is the "The prose of everyday life", based on pop culture and "The society of Conversation", based on communication; proposed 'Digitelling' ; this is the reason why we should pay attention to the digital contents, created infinitely by the citizens of the world, as new mass-culture phenomenon.

Development of B-tree Analyzing Tool for macOS Filesystem (macOS 파일시스템의 B-tree분석 디지털 포렌식 도구의 개발)

  • Cho, Gyu-Sang
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.01a
    • /
    • pp.287-288
    • /
    • 2021
  • 본 논문에서는 macOS의 파일시스템인 HFS+의 B-tree구조를 디지털 포렌식의 관점에서 분석할 수 있는 기능을 갖춘 도구의 구현에 대하여 다룬다. HFS+ 파일시스템의 파일과 디렉토리에 대한 메타정보를 카탈로그 B-tree에서 구하여 디지털 포렌식 정보로 활용한다. HFS+파일시스템 포렌식 분석도구는 C/C++언어로 구현된다. 텍스트 기반의 명령행 프로그램으로 구현되며 macOS/Windows에서 터미널/명령프롬프트에서 각각 실행될 수 있도록 제작된다. 타임스탬프/파일크기/위치 등의 메타데이터의 파싱기능, 리프노드에 저장된 데이터를 이용한 파일/디렉토리 트리 구조의 재구성, B-tree구조에 의한 키워드 탐색 기능, 인덱스 노드 없이 B-tree 리프노드의 구성에 의한 파일/디렉토리 파싱/검색 기능 등이 구현된다.

  • PDF