• Title/Summary/Keyword: 텍스트 데이터

Search Result 1,778, Processing Time 0.033 seconds

An efficient compression method of metadata using BiM (BiM을 이용한 메타데이터의 효율적인 부호화 방법)

  • 양승준;남제호;김영태;강경옥
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2001.11b
    • /
    • pp.199-202
    • /
    • 2001
  • ISO/IEC 15938-1(MPEG-7 Systems)에서는 멀티미디어 컨텐츠에 대한 메타데이터의 효율적인 전송과 저장을 위한 이진 표현 방법인 BiM(binary format for MPEC-7)을 제공한다. 멀티미디어 컨텐츠를 기술(description)하는 메타데이터의 텍스트 표현은 대체로 많은 저장 용량과 전송 리소스를 요구하기 때문에 효율적인 압축을 위해서는 이진 형식으로의 변환이 요구된다. 또한 텍스트 형식은 방송 환경과 같은 스트리밍 전송에는 적절하지 못한 단점이 있다. BiM은 컨텐츠에 대한 기술을 전체 또는 2개 이상의 AU(access units) 단위로 분할하며 부호화하는 방법을 지원함으로써 스트리밍 전송을 가능하게 한다. 이러한 구조는 이진 포맷 형태로 표현되는 헤더를 가지는 패킷 기반 형태이며, 융통성이 있는 전송 순서를 제공한다. 또한, 비트 스트림의 전체를 해석(parsing)하지 않고 랜덤 엑세스 기능을 제공하는 장점이 있다. BiM이 지닌 이러한 장점들로 인하여 현재 방송산업계를 중심으로 메타데이터를 방송에 활용하기 위한 기술을 표준화하는 국제 민간 표준화 기구인 TV-Anytime 포럼에서는 방송 컨텐츠에 대한 메타데이터의 압축에 관한 요구사항을 만족하는 하나의 방법으로 BiM을 고려하고 있다 본 논문에서는 이러한 MPEG-7 시스템의 BiM을 소개하고, 이를 이용하여 TV-Anytime 포럼의 메타데이터를 이진 포맷으로 부호화한 실험과 그 결과를 기술한다.

  • PDF

Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis (키워드 기반 주제중심 분석을 이용한 비정형데이터 처리)

  • Ko, Myung-Sook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.6 no.11
    • /
    • pp.521-526
    • /
    • 2017
  • Data format of Big data is diverse and vast, and its generation speed is very fast, requiring new management and analysis methods, not traditional data processing methods. Textual mining techniques can be used to extract useful information from unstructured text written in human language in online documents on social networks. Identifying trends in the message of politics, economy, and culture left behind in social media is a factor in understanding what topics they are interested in. In this study, text mining was performed on online news related to a given keyword using topic - oriented analysis technique. We use Latent Dirichiet Allocation (LDA) to extract information from web documents and analyze which subjects are interested in a given keyword, and which topics are related to which core values are related.

Frequency and Social Network Analysis of the Bible Data using Big Data Analytics Tools R (R을 이용한 성경 데이터의 빈도와 소셜 네트워크 분석)

  • Ban, ChaeHoon;Ha, JongSoo
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2018.10a
    • /
    • pp.93-96
    • /
    • 2018
  • Big datatics technology that can store and analyze data and obtain new knowledge has been adjusted for importance in many fields of the society. Big data is emerging as an important problem in the field of information and communication technology, but the mind of continuous technology is rising. R, a tool that can analyze big data, is a language and environment that enables information analysis of statistical bases. In this thesis, we use this to analyze the Bible data. R is used to investigate the frequency of what text is distributed and analyze the Bible through analysis of social network.

  • PDF

Implementation of Query Expansion Multimedia Data Retrieval System using "FUN" Based Ontology of Emotion (재미 감성 주제 온톨로지를 이용한 질의어 확장 멀티미디어 데이터 검색 시스템 구현)

  • Lee, Jung-Song;Byun, Dong-Ryul;Park, Soon-Cheol
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.279-284
    • /
    • 2010
  • 최근 컴퓨터와 네트워크의 기술 발달로 멀티미디어 데이터가 폭발적으로 증가하고 있다. 따라서 정보검색 시스템도 텍스트 데이터 위주에서 벗어나 멀티미디어 데이터 검색이 큰 비중을 차지하고 있다. 또한 멀티미디어 데이터 질의어처리도 기술적인 변화와 함께 다양한 질의어 확장으로 검색의 정확성을 높이고 있다. 본 논문에서는 인간의 감성에 대한 '재미' 주제 온톨로지를 구축하여 질의어 확장에 응용하였고, 한편의 동영상에서 재미 요소를 찾아내는 멀티미디어 데이터 검색 시스템을 구축하였다. 온톨로지 구축은 한글 워드넷(KorLex)에서 "재미"라는 특정 감소 요소의 의미 계층 구조를 파악하고 토픽맵을 이용하여 구축하였다. 또한, 온톨로지에 정의된 용어들 사이의 가중치는 실시간으로 계산하여 질의어를 확장에 적용하였으며, 따라서 검색의 효율성과 질을 높였다. 검색방법은 사용자가 질의어를 직접 입력하는 텍스트 입력 검색과 온톨로지 구조를 이용한 GUI 인터페이스 검색방법으로 나누어 사용자의 편의성을 증대시켰다.

  • PDF

Technology of Distributed Stream Computing (분산 스트림 컴퓨팅 기술 동향)

  • Lee, M.Y.
    • Electronics and Telecommunications Trends
    • /
    • v.26 no.1
    • /
    • pp.80-88
    • /
    • 2011
  • 데이터의 효과적인 활용이 경쟁력 확보에 주요한 요인이나, 데이터 폭증은 유용한 정보를 얻는데 필요한 처리 시간의 지연을 야기하고 있다. 개인 맞춤형 서비스, 방범 방재 서비스 등 모니터링 & 대응 서비스를 위해 분석할 데이터의 양이 급증하고 있으며, 텍스트, 영상, 오디오 등 비정형 데이터에 대한 실시간 분석 필요성이 증대하고 있다. 대량의 폭증하는 데이터에 대한 실시간 분석 처리 환경을 제공하기 위해 분산 병렬 컴퓨팅 기술과 데이터 스트림 연속 처리 기술이 활용되고 있다. 본고에서는 폭증하는 데이터 스트림 처리를 위하여 확장성 및 유연한 처리 환경을 제공하는 분산 스트림 컴퓨팅 기술에 대해 소개한다.

  • PDF

Meta Data Design for Video Data based on XML (XML 기반 비디오 데이터의 메타데이터 설계)

  • Ko, Eun-Kyung;Hwang, Bu-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1659-1662
    • /
    • 2003
  • 웹 환경에서 사용되고 있는 데이터의 종류는 텍스트뿐만 아니라 멀티미디어 데이터까지 다양하게 사용되어 지고 있다. 그러나 오디오, 이미지, 비디오와 같은 미디어 객체들은 2진화, 비구조화 되어 있으므로 기계 번역이 용이하지 않다. 이런 비정형화 된 비디오 데이터에 대한 검색을 효율적으로 처리하기 위해서는 비디오의 논리적 구조와 의미적 내용을 표현할 수 있어야 한다. 멀티미디어 데이터의 메타 데이터를 표현하기 위해서 XML 문서를 이용하여 표현하고, 표현된 문서를 효율적으로 검색 할 수 있도록 설계하였다.

  • PDF

Analysis of Weather News using Big Data Analytics Tools R (빅데이터 분석도구 R을 활용한 기상뉴스 데이터분석)

  • Kim, YongSu;Ban, ChaeHoon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2016.10a
    • /
    • pp.448-450
    • /
    • 2016
  • 정보기술과 디지털 경제의 확산으로 대규모의 데이터가 생산되는 정보화시대에서 빅 데이터의 중요성이 강조되고 있으며 다양한 분야에서 이를 응용하고 있다. 빅 데이터 분석도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 R을 이용하여 기상뉴스에 나타난 기상관련 빅 데이터를 분석한다. 다양한 뉴스에서 기상 관련 데이터를 수집하고 어떠한 텍스트가 분포되어 있는지 빈도 조사를 수행한다.

  • PDF

자율운항 선박 원격모니터링 방법 및 시험에 관한 연구

  • 옥경석;박규성
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2022.11a
    • /
    • pp.67-69
    • /
    • 2022
  • 자율운항 선박의 모니터링을 위한 데이터는 센서신호와 같은 텍스트 형태의 데이터와 이미지와 같은 바이너리 데이터로 나눌수 있다. 선박의 위성 통신환경 특성상 네트워크 속도 및 대역폭이 제한적이므로, 효율적인 전송 방법이 필요하며, 이를 위해서는 고용량의 이미지 데이터를 수집하고 처리하는 과정의 분석과 실제 선박의 데이터 분석이 필요하였다. 이를 토대로 선박의 통신환경을 분석하고 개선방향을 모색하고자 하였다.

  • PDF

A Bloom filter-based Sentiment-aware Web Crawling Algorithm (블룸 필터를 이용한 감성 웹 문서 크롤링 알고리즘)

  • Na, Chul-Won;On, Byung-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.69-74
    • /
    • 2018
  • 최근 빅 데이터와 인공지능의 발달과 함께 감성 분석에 대한 연구가 활발해지고 있다. 더불어 감성 분석을 위한 긍/부정 어휘가 풍부한 텍스트 문서들에 대한 수집의 필요성도 높아지고 있다. 본 논문은 긍/부정어휘가 풍부한 텍스트 문서들을 수집하는 기존의 수집 방법에 대한 문제점에 대하여 해결방안을 제시한다. 기존의 수집 방법으로 일단 모든 URL들을 저장하고 필터링 과정을 거쳐 긍/부정 어휘가 풍부한 텍스트 문서들을 수집하고자 한다면 불필요한 텍스트 문서 저장과 필터링 과정에서 메모리와 시간을 낭비하게 된다. 기존의 수집 방법에 블룸 필터라는 자료구조를 적용시켜 메모리와 시간을 낭비하게 되는 문제점을 해결하고자 한다.

  • PDF

A Feature Selection Technique for an Efficient Document Automatic Classification (효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법)

  • 김지숙;문현정;김영지;우용태
    • Proceedings of the Korea Database Society Conference
    • /
    • 2001.06a
    • /
    • pp.295-302
    • /
    • 2001
  • 최근 대량의 텍스트 문서로부터 의미 있는 패턴이나 연관 규칙을 발견하기 위한 텍스트마이닝 기법에 대한 연구가 활발히 전개되고 있다. 하지만 비정형 텍스트 문서로부터 추출된 용어의 수는 불규칙적이고 일반적인 용어가 많이 추출되는 관계로 기존의 연관 규칙 탐사 방법을 사용하게 되면 무의미한 연관 규칙이 대량으로 생성되어 지식 정보를 효과적으로 검색하기 어렵다. 본 논문에서는 연관 규칙 탐사 기법을 이용하여 비감독학습 기법에 의해 대량의 문서를 효율적으로 분류하기 위한 대표 색인어 추출 기법을 제안하였다. 컴퓨터 분야의 논문을 대상으로 각 분야별 대표 색인어를 추출하여 유사한 문서끼리 분류하는 실험을 통해 제안된 방법의 효율성을 보였다.

  • PDF