• 제목/요약/키워드: Large tag data

검색결과 67건 처리시간 0.02초

모바일 환경에서 사용자 정의 규칙과 추론을 이용한 의미 기반 이미지 어노테이션의 확장 (Extending Semantic Image Annotation using User- Defined Rules and Inference in Mobile Environments)

  • 서광원;임동혁
    • 한국멀티미디어학회논문지
    • /
    • 제21권2호
    • /
    • pp.158-165
    • /
    • 2018
  • Since a large amount of multimedia image has dramatically increased, it is important to search semantically relevant image. Thus, several semantic image annotation methods using RDF(Resource Description Framework) model in mobile environment are introduced. Earlier studies on annotating image semantically focused on both the image tag and the context-aware information such as temporal and spatial data. However, in order to fully express their semantics of image, we need more annotations which are described in RDF model. In this paper, we propose an annotation method inferencing with RDFS entailment rules and user defined rules. Our approach implemented in Moment system shows that it can more fully represent the semantics of image with more annotation triples.

모바일 환경에서 의미 기반 이미지 어노테이션 및 검색 (Semantic Image Annotation and Retrieval in Mobile Environments)

  • 노현덕;서광원;임동혁
    • 한국멀티미디어학회논문지
    • /
    • 제19권8호
    • /
    • pp.1498-1504
    • /
    • 2016
  • The progress of mobile computing technology is bringing a large amount of multimedia contents such as image. Thus, we need an image retrieval system which searches semantically relevant image. In this paper, we propose a semantic image annotation and retrieval in mobile environments. Previous mobile-based annotation approaches cannot fully express the semantics of image due to the limitation of current form (i.e., keyword tagging). Our approach allows mobile devices to annotate the image automatically using the context-aware information such as temporal and spatial data. In addition, since we annotate the image using RDF(Resource Description Framework) model, we are able to query SPARQL for semantic image retrieval. Our system implemented in android environment shows that it can more fully represent the semantics of image and retrieve the images semantically comparing with other image annotation systems.

온톨로지 및 순서 규칙 기반 대용량 스트리밍 미디어 이벤트 인지 (Ontology and Sequential Rule Based Streaming Media Event Recognition)

  • 소치승;박현규;박영택
    • 정보과학회 논문지
    • /
    • 제43권4호
    • /
    • pp.470-479
    • /
    • 2016
  • UCC(User Created Contents) 형태의 다양한 영상 미디어 데이터가 증가함에 따라 의미 있는 서비스를 제공하기 위해 많은 분야에서 활발한 연구가 진행 중이다. 그 중 시맨틱 웹 기반의 미디어 분류에 대한 연구가 진행되고 있지만 기존의 미디어 온톨로지는 메타 정보를 이용하기 때문에 정보의 부재에 따른 한계점이 있다. 따라서 본 논문에서는 영상에서 인지되는 객체를 정하고 그 조합으로 구성된 서술 논리 기반의 온톨로지를 구축하고 영상의 장면에 따른 순서 기반의 규칙을 정의하여 이벤트 인지에 대한 기틀을 제안한다. 또한 증가하는 미디어 데이터에 대한 처리를 위해 분산 인-메모리 기반 프레임워크인 아파치 스파크 스트리밍을 이용하여, 영상 분류를 병렬로 처리하는 방법에 대해 설명한다. 유튜브에서 추출한 영상을 대상으로 대용량 미디어 온톨로지 데이터를 생성하고, 이를 이용하여 제시된 기법에 대한 성능 평가를 진행하여 타당성을 입증한다.

Food Detection by Fine-Tuning Pre-trained Convolutional Neural Network Using Noisy Labels

  • Alshomrani, Shroog;Aljoudi, Lina;Aljabri, Banan;Al-Shareef, Sarah
    • International Journal of Computer Science & Network Security
    • /
    • 제21권7호
    • /
    • pp.182-190
    • /
    • 2021
  • Deep learning is an advanced technology for large-scale data analysis, with numerous promising cases like image processing, object detection and significantly more. It becomes customarily to use transfer learning and fine-tune a pre-trained CNN model for most image recognition tasks. Having people taking photos and tag themselves provides a valuable resource of in-data. However, these tags and labels might be noisy as people who annotate these images might not be experts. This paper aims to explore the impact of noisy labels on fine-tuning pre-trained CNN models. Such effect is measured on a food recognition task using Food101 as a benchmark. Four pre-trained CNN models are included in this study: InceptionV3, VGG19, MobileNetV2 and DenseNet121. Symmetric label noise will be added with different ratios. In all cases, models based on DenseNet121 outperformed the other models. When noisy labels were introduced to the data, the performance of all models degraded almost linearly with the amount of added noise.

위치기반 소셜 미디어 데이터의 텍스트 마이닝 기반 공간적 클러스터링 분석 연구 (Spatial Clustering Analysis based on Text Mining of Location-Based Social Media Data)

  • 박우진;유기윤
    • 대한공간정보학회지
    • /
    • 제23권2호
    • /
    • pp.89-96
    • /
    • 2015
  • 위치기반 소셜 미디어 데이터는 빅데이터, 위치기반서비스 등 다양한 분야에서 활용가능성이 매우 큰 데이터이다. 본 연구에서는 위치기반 소셜 미디어 데이터의 텍스트 정보를 분석하여 주요한 키워드들이 공간적으로 어떻게 분포하고 있는지를 파악할 수 있는 일련의 분석방법론을 적용해보았다. 이를 위해, 위치태그를 지닌 트윗 데이터를 서울시 강남지역과 그 주변지역에 대하여 2013년 8월 한달 간 수집하였으며, 이 데이터를 대상으로 하여 텍스트 마이닝을 통해 주요 키워드들을 도출하였다. 이러한 키워드들 중 음식, 엔터테인먼트, 업무 및 공부의 세 카테고리에 해당하는 키워드들만 추출, 분류하였으며 각 카테고리에 해당하는 트윗 데이터들에 대해서 공간적 클러스터링을 실시하였다. 도출된 각 카테고리별 클러스터들을 실제 그 지역의 건물 또는 벤치마크 POI들과 비교한 결과, 음식 카테고리 클러스터는 대규모 상업지역들과 일치도가 높았고 엔터테인먼트 카테고리의 클러스터는 공연장, 극장, 잠실운동장 등과 일치하였다. 업무 및 공부 카테고리 클러스터들은 학원 밀집지역 및 사무용 빌딩 밀집지역과 높은 일치도를 나타내었다.

마이크로프로세서 전력소모 절감을 위한 명령어 큐 구조 (Instruction Queue Architecture for Low Power Microprocessors)

  • 최민;맹승렬
    • 대한전자공학회논문지SD
    • /
    • 제45권11호
    • /
    • pp.56-62
    • /
    • 2008
  • 현대 마이크로프로세서는 적정수준의 전력소모에 고성능의 애플리케이션성능을 요구한다. 전력소모와 성능향상의 상호보정 측면에서 볼때, 명령어 윈도우(Instruction window)는 특별히 중요한 구성요소이다. 이는 명령어 윈도우의 크기를 확장하면 성능향상을 가능하도록 하지만, 기존의 명령어 구조를 그대로 이용하여 크기만 늘리는 것은 전력소모와 복잡도 측면에서 불리하기 때문이다. 본 연구에서는 전력소모를 감소하기 위해서 직접 검색 테이블(Direct table lookup :DTL)을 사용하여 명령어 윈도우에서 발생하는 연관 검색을 최소화한다. 이를 위해 비트 벡터(bit-vector) 기반의 태그 변환 기법을 제안하여 데이터 종속성 및 자원 충돌 현상을 효과적으로 해결한다. 본 논문에서는 SPEC2000 벤치마크를 활용하여 성능평가를 수행하여 제안된 기법이 기존 방법 대비 24.45%의 전력소모 개선 효과를 나타냄을 확인하였다.

지리 데이타베이스 시스템에서의 효율적인 공간 데이타 수집 (Efficient Capturing of Spatial Data in Geographic Database System)

  • 김종훈;김재홍;배해영
    • 한국정보처리학회논문지
    • /
    • 제1권3호
    • /
    • pp.279-289
    • /
    • 1994
  • 지리 데이타베이스 시스템은 지도 형태의 데이타를 출력할 뿐만 아니라 공간 데이 타와 비공간 데이타에 대해서, 저장, 검색, 조작 및 분석 등을 처리하는 데이타베이 스 시스템이다. 이러한 지리 데이타시스템에서 관리하는 공간 데이타는 그라는 크기가 매우 방대하므로 공간 데이타의 입력시 많은 시간이 요구되며 저장 공간을 많이 차지 하게 된다. 따라서 지리 데이타베이스 시스템은 공간 데이타의 입력시간을 줄이고, 저 장 공간을 효과적으로 사용할 수 있는 공간 데이타 수집 시스템이 필수적으로 요구 된다. 본 논문에서는 공간 데이타에 대한 입력시간을 줄이기 위해 전체를 한번에 벡터 화하는 기존의 방법에 대한 문제점을 분석하여 이를 개선한 벡터화 기법을 제안한다. 제안된 벡터화 방법은 도면 전체를 벡터화하지 않고, 공간 데이타의 특성을 고려하여 사용자가 속성 정보를 입력하는 시점에서 그 공간 데이타만을 벡터화한다. 이와 함께 수집된 데이타의 저장 공간을 효율적으로 사용하기 위해 태그 비트를 사용한 압축 저 장 형식을 제안한다.

  • PDF

지속가능한 농업 환경을 위한 블록체인과 AI 기반 빅 데이터 처리 기법 (Blockchain and AI-based big data processing techniques for sustainable agricultural environments)

  • 정윤수
    • 산업과 과학
    • /
    • 제3권2호
    • /
    • pp.17-22
    • /
    • 2024
  • 최근 ICT분야가 다양한 환경에서 사용되면서 지속가능한 농업 환경에서는 ICT 기술들을 활용하여 농작물별 병충해 분석, 농작물 수확시 로봇 사용, 빅 데이터로 인한 예측 등이 가능해졌다. 그러나, 지속 가능한 농업 환경에서는 자원의 고갈, 농업 인구 감소, 빈곤 증가, 환경 파괴 등을 해결하기 위한 노력이 꾸준히 요구되고 있다. 본 연구에서는 지속 가능한 농업 환경 기반의 농작물의 생산 비용 감소 및 효율성을 증가하기 위한 인공지능 기반 빅 데이터 처리 기법을 제안한다. 제안 기법은 AI를 결합한 농작물의 빅 데이터를 처리함으로써 데이터의 보안성과 신뢰성을 강화하고, 더 나은 의사 결정과 비즈니스 가치 추출이 가능하다. 이는 다양한 산업과 분야에서 혁신적인 변화를 이끌어내고, 데이터 중심의 비즈니스 모델의 발전을 촉진할 수 있다. 실험과정에서 제안 기법은 다량의 데이터가 생성되나, 일일이 정답을 태깅하기 힘든 농장 현장에서, 소량의 데이터에 대해서만 정확한 정답을 부여하고, 정답이 부여되지 않은 다량의 데이터와 함께 학습하여, 다량의 정답 데이터로 학습했을 때와 유사한 성능(오차율:0.05 이내)이 나타났다.

공문서의 기계가독형(Machine Readable) 전환 방법 제언 (Suggestions on how to convert official documents to Machine Readable)

  • 임진희
    • 기록학연구
    • /
    • 제67호
    • /
    • pp.99-138
    • /
    • 2021
  • 빅데이터 시대에 정형데이터 뿐만 아니라 비정형데이터를 분석하는 것이 중요한 과제로 대두되고 있다. 정부기관이 생산하는 공문서도 텍스트 기반의 대형 비정형데이터로 빅데이터 분석의 대상이 된다. 기관 내부의 업무효율, 지식관리, 기록관리 등의 관점에서 공문서 빅데이터를 분석하여 유용한 시사점을 도출해 나가야 할 것이다. 그러나, 현재 공공기관이 보유 중인 공문서의 상당수가 개방포맷이 아니어서 빅데이터 분석을 하려면 비트스트림에서 텍스트를 추출하는 전처리 과정이 요구된다. 또한, 문서파일 내에 맥락 메타데이터가 충분히 저장되어 있지 못하여 품질 높은 분석을 하려면 별도의 메타데이터 확보 노력이 필요하다. 결론적으로 현재의 공문서는 기계가독(machine readable) 수준이 낮아 빅데이터 분석에 비용이 많이 들게 된다. 이 연구에서는 향후 공문서가 기계가독 수준을 높이기 위해서는 공문서의 개방포맷화, 기안문 서식의 표준태그화, 자기 기술(self-descriptive) 메타데이터 확보, 문서 텍스트 태깅 등이 선행될 필요가 있다는 점을 제안한다. 첫째, 문서가 스스로를 설명하기 위해 추가되어야 하는 메타데이터 항목들을 제시하고 이 메타데이터들이 기계가독형이 되도록 문서파일에 저장하는 방법을 제안한다. 둘째, 문서 내용 분석 시 자연어 처리에만 의존하지 않고 행정 맥락에 따라 중요한 키워드를 미리 국제표준 태그로 마킹하여 기계가독형이 되도록 하는 방안을 제안한다.

텍스트 분석의 신뢰성 확보를 위한 스팸 데이터 식별 방안 (Detecting Spam Data for Securing the Reliability of Text Analysis)

  • 현윤진;김남규
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.493-504
    • /
    • 2017
  • 최근 뉴스, 블로그, 소셜미디어 등을 통해 방대한 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터는 풍부한 정보 및 의견을 거의 실시간으로 반영하고 있다는 측면에서 그 활용도가 매우 높아, 학계는 물론 산업계에서도 분석 수요가 증가하고 있다. 하지만 텍스트 데이터의 유용성이 증가함과 동시에 이러한 텍스트 데이터를 왜곡하여 특정 목적을 달성하려는 시도도 늘어나고 있다. 이러한 스팸성 텍스트 데이터의 증가는 방대한 정보 가운데 필요한 정보를 획득하는 일을 더욱 어렵게 만드는 것은 물론, 정보 자체 및 정보 제공 매체에 대한 신뢰도를 떨어뜨리는 현상을 초래하게 된다. 따라서 원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써, 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 노력이 반드시 필요하다. 이러한 목적으로 스팸을 식별하기 위한 연구가 오피니언 스팸 탐지, 스팸 이메일 검출, 웹 스팸 탐지 등의 분야에서 매우 활발하게 수행되었다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 자세히 소개하고, 블로그 정보의 신뢰성 향상을 위한 방안 중 하나로 블로그의 스팸 태그를 식별하기 위한 방안을 제안한다.