• 제목/요약/키워드: learning through the image

검색결과 925건 처리시간 0.027초

Land Use Feature Extraction and Sprawl Development Prediction from Quickbird Satellite Imagery Using Dempster-Shafer and Land Transformation Model

  • Saharkhiz, Maryam Adel;Pradhan, Biswajeet;Rizeei, Hossein Mojaddadi;Jung, Hyung-Sup
    • 대한원격탐사학회지
    • /
    • 제36권1호
    • /
    • pp.15-27
    • /
    • 2020
  • Accurate knowledge of land use/land cover (LULC) features and their relative changes over upon the time are essential for sustainable urban management. Urban sprawl growth has been always also a worldwide concern that needs to carefully monitor particularly in a developing country where unplanned building constriction has been expanding at a high rate. Recently, remotely sensed imageries with a very high spatial/spectral resolution and state of the art machine learning approaches sent the urban classification and growth monitoring to a higher level. In this research, we classified the Quickbird satellite imagery by object-based image analysis of Dempster-Shafer (OBIA-DS) for the years of 2002 and 2015 at Karbala-Iraq. The real LULC changes including, residential sprawl expansion, amongst these years, were identified via change detection procedure. In accordance with extracted features of LULC and detected trend of urban pattern, the future LULC dynamic was simulated by using land transformation model (LTM) in geospatial information system (GIS) platform. Both classification and prediction stages were successfully validated using ground control points (GCPs) through accuracy assessment metric of Kappa coefficient that indicated 0.87 and 0.91 for 2002 and 2015 classification as well as 0.79 for prediction part. Detail results revealed a substantial growth in building over fifteen years that mostly replaced by agriculture and orchard field. The prediction scenario of LULC sprawl development for 2030 revealed a substantial decline in green and agriculture land as well as an extensive increment in build-up area especially at the countryside of the city without following the residential pattern standard. The proposed method helps urban decision-makers to identify the detail temporal-spatial growth pattern of highly populated cities like Karbala. Additionally, the results of this study can be considered as a probable future map in order to design enough future social services and amenities for the local inhabitants.

스킵 연결 형태 기반의 손 관절 2D 및 3D 검출 기법 (2D and 3D Hand Pose Estimation Based on Skip Connection Form)

  • 구종회;김미경;차의영
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1574-1580
    • /
    • 2020
  • 기존의 신체 인식 방법은 특수한 기기를 사용하거나 이미지로부터 영상처리를 통해 검출하는 방법들이 있다. 특수 기기를 사용할 경우 기기를 사용할 수 있는 환경이 제약되고 기기의 비용이 많이 든다는 단점이 있다. 카메라와 영상처리를 사용할 경우 환경의 제약과 비용이 낮아지는 장점이 있지만, 성능이 떨어진다. 이런 단점을 해결하기 위해 카메라와 합성 곱 심층 신경망을 사용한 신체 인식 방법들이 연구되었다. 합성 곱 심층 신경망의 성능을 올리기 위해 다양한 기법들이 제안되었다. 본 논문에서는 합성 곱 심층 신경망의 성능을 올리기 위한 기법 중 스킵 연결을 다양한 형태로 사용하여 스킵 연결이 손 검출 망에 끼치는 영향을 실험하였다. 실험을 통해 기본 스킵 연결 이외 추가적인 스킵 연결의 존재가 성능에 나은 영향을 끼치고 하향 스킵 연결만 추가된 망이 가장 나은 성능을 보임을 확인하였다.

임베디드 엣지 플랫폼에서의 경량 비전 트랜스포머 성능 평가 (Performance Evaluation of Efficient Vision Transformers on Embedded Edge Platforms)

  • 이민하;이성재;김태현
    • 대한임베디드공학회논문지
    • /
    • 제18권3호
    • /
    • pp.89-100
    • /
    • 2023
  • Recently, on-device artificial intelligence (AI) solutions using mobile devices and embedded edge devices have emerged in various fields, such as computer vision, to address network traffic burdens, low-energy operations, and security problems. Although vision transformer deep learning models have outperformed conventional convolutional neural network (CNN) models in computer vision, they require more computations and parameters than CNN models. Thus, they are not directly applicable to embedded edge devices with limited hardware resources. Many researchers have proposed various model compression methods or lightweight architectures for vision transformers; however, there are only a few studies evaluating the effects of model compression techniques of vision transformers on performance. Regarding this problem, this paper presents a performance evaluation of vision transformers on embedded platforms. We investigated the behaviors of three vision transformers: DeiT, LeViT, and MobileViT. Each model performance was evaluated by accuracy and inference time on edge devices using the ImageNet dataset. We assessed the effects of the quantization method applied to the models on latency enhancement and accuracy degradation by profiling the proportion of response time occupied by major operations. In addition, we evaluated the performance of each model on GPU and EdgeTPU-based edge devices. In our experimental results, LeViT showed the best performance in CPU-based edge devices, and DeiT-small showed the highest performance improvement in GPU-based edge devices. In addition, only MobileViT models showed performance improvement on EdgeTPU. Summarizing the analysis results through profiling, the degree of performance improvement of each vision transformer model was highly dependent on the proportion of parts that could be optimized in the target edge device. In summary, to apply vision transformers to on-device AI solutions, either proper operation composition and optimizations specific to target edge devices must be considered.

경량형 임베디드 프로세서를 위한 라이다 거리 기반 클러스터링 기법을 활용한 의미론적 물체 인식 (Semantic Object Detection based on LiDAR Distance-based Clustering Techniques for Lightweight Embedded Processors)

  • 정동규;박대진
    • 한국정보통신학회논문지
    • /
    • 제26권10호
    • /
    • pp.1453-1461
    • /
    • 2022
  • 자율주행차량에서 LiDAR와 같은 3D 데이터 센서를 사용한 주변 물체인식 알고리즘의 정확도는 많은 연구를 통해 상승하고 있으나 그에 따라 높은 성능의 하드웨어와 복잡한 구조를 요구하게 되었다. 이러한 물체인식 알고리즘은 주행 중 많은 프로세서를 수행하고 관리해야 하는 자율주행차량의 메인 프로세서에 큰 부하로 작용한다. 이러한 부하를 감소시킴과 동시에 3D 센서 데이터의 장점을 활용하기 위하여, 3D 센서 데이터에서 물리적 특성을 추출하고 이를 이용하여 생성한 ROI를 이용하여 2D 데이터 기반 인식을 제안한다. 기본 이미지에서 밝기 값을 50% 감소시킨 환경에서 기존 2D 기반 모델 대비 5.3% 높은 정확도와 28.57% 감소한 수행 시간을 보였다. 기본 이미지에서 3D 기반 모델 대비 2.46% 낮은 정확도를 가지는 대신 6.25% 감소한 수행 시간을 가진다.

표준시방서 기반의 의미론적 분석을 반영한 건설 현장 사진 자동 분류 모델 개발 (Development of an Automatic Classification Model for Construction Site Photos with Semantic Analysis based on Korean Construction Specification )

  • 박민건;김경환
    • 한국건설관리학회논문집
    • /
    • 제25권3호
    • /
    • pp.58-67
    • /
    • 2024
  • 4차 산업 시대에서의 데이터는 산업의 생산성을 높이는 데 매우 중요한 역할을 하고 있다. 활용 가능한 데이터가 부족한 건설산업의 디지털화 수준을 높이기 위해서 본 연구에서는 건설 현장 사진을 공종별로 분류하는 모델을 연구하였다. 이미지만을 가지고 분류하는 기존의 이미지 분류 모델과 달리, 본 연구는 표준시방서에서 객체와 공종 간의 중요도를 추출하여 이를 분류 과정에 반영하는 방식으로 공종에 대한 의미론적인 분석을 포함한 분류 모델을 제안하였다. 객체와 공종 간의 중요도는 사진 내에서 탐지한 객체와 표준시방서의 정보를 연결하여 추출한 후 모델에 반영하였고, 이러한 방식으로 개발된 모델을 분류 프로그램에 적용하여 실제 실무에서의 유용성을 확인해 보았다. 제안한 모델은 결과에 해석가능성과 신뢰도를 높여주는 것뿐만 아니라 현장 기사들이 사진을 분류하는데 용이성을 주게 되며, 이러한 연구의 결과는 건설산업의 디지털화에 기여할 수 있을 것이다.

이동 객체 검출을 통한 승객 인원 개수에 대한 연구 (A study on counting number of passengers by moving object detection)

  • 유상현
    • 인터넷정보학회논문지
    • /
    • 제21권2호
    • /
    • pp.9-18
    • /
    • 2020
  • 영상 처리 기법을 이용한 영상 인식 분야는 버스 승차 및 하차 시에 승객을 움직이는 객체로 검출하고 개수하는 방법이 연구되고 있다. 이러한 기술 중에는 인공지능 기법의 하나인 딥러닝 기법이 사용되고 있다. 또 다른 방법으로 스테레오 비전 카메라를 이용하여 객체를 검출하는 방법도 사용되고 있다. 그러나 이러한 방법들은 객체를 검출할 때 사용되는 장비의 연산량이 많이 들어 고가의 하드웨어 장비가 필요하다. 그러나 대중교통 중 하나인 버스 승객을 검출하기 위해 상대적으로 연산량이 적은 기법을 이용하여 다양한 장비에 맞는 영상 처리 기술이 필요하다. 이에 본 논문에서는 다양한 장비에 맞는 이동 객체 검출 기법 중 배경 제거를 통한 객체의 윤곽선을 검출하여 대중교통 중의 하나인 버스에 탑승객의 수를 효율적으로 획득 할 수 있는 기법을 제안한다. 실험 결과 스테레오 비전을 장착한 장비보다 더 저사양의 장비에서 약 70%의 정확도로 승객을 개수하였다.

개선된 네이버 임베딩에 의한 초해상도 기법 (Super Resolution Technique Through Improved Neighbor Embedding)

  • 엄경배
    • 디지털콘텐츠학회 논문지
    • /
    • 제15권6호
    • /
    • pp.737-743
    • /
    • 2014
  • 단일 영상 초해상도 기법에는 보간 기반 방법과 표본 기반 방법 등이 있다. 보간 기반 방법들은 간결성에 강점을 가지고 있으나, 이들 방법들은 선지식을 이용할 수 없기 때문에 톱니 모양의 윤곽선을 가진 고해상도 영상을 생성하는 경향이 있다. 표본 기반 초해상도 기법에서는 최근방 기반 알고리즘들이 널리 이용되어 지고 있다. 그들 중, 네이버 임베딩은 지역적 선형 임베딩이라는 매니폴드 학습 방법의 개념과 같다. 그러나, 네이버 임베딩은 국부 학습 데이터 집합의 크기가 너무 작은데에 따른 빈약한 일반화 능력으로 인하여, 시각적으로나 정량적인 척도에 의해 취약한 성능을 보인다. 본 논문에서는 이와 같은 문제점을 해결하기 위해 개선된 네이버 임베딩 알고리즘을 제안하였다. 저해상도 입력 영상이 주어지면 고해상도 버전의 화소 값들은 개선된 네이버 임베딩 알고리즘에 의해 구해진다. 실험 결과 제안된 방법이 바이큐빅 보간법이나 네이버 임베딩에 비해 정량적인 척도 및 시각적으로도 우수한 결과를 보였다.

TV-G 분해를 이용한 초해상도 알고리즘 (Super Resolution Algorithm using TV-G Decomposition)

  • 엄경배;범동규
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권8호
    • /
    • pp.1517-1522
    • /
    • 2017
  • 단일 영상 기반 초해상도(SR) 기법 중 TV 기반 초해상도 기법은 에지 보존과 artifact가 없다는 점에서 성공적인 방법으로 평가되어 왔으나, 텍스쳐 성분에서는 개선을 보이지 못했다. 본 논문에서는 이와 같은 문제점을 개선하기 위해서 새로운 TV-G 분해 기반 초해상도 기법을 제안하였다. 제안된 초해상도 방법에서는 에지와 같은 구조적 성분의 해상도를 보다 더 개선하기 위해 SVR 기반 up-sampling 방법을 제안하였다. 또한, Neighbor Embedding(NE)을 개선하기 위해 완화된 제약조건을 이용한 Non-negative Embedding(NNE) 방법에 기반한 학습 방법을 이용하여 텍스쳐 성분의 해상도를 개선하였다. 실험을 통하여 본 논문에서 제안된 방법이 기존의 보간법, ScSR, 기존의 TV 및 NNE 기법들에 비해 정량적인 척도 및 시각적으로도 향상된 좋은 결과들을 보였다.

S-FDS : 퍼지로직과 딥러닝 통합 기반의 스마트 화재감지 시스템 (S-FDS : a Smart Fire Detection System based on the Integration of Fuzzy Logic and Deep Learning)

  • 장준영;이강운;김영진;김원태
    • 전자공학회논문지
    • /
    • 제54권4호
    • /
    • pp.50-58
    • /
    • 2017
  • 최근 들어, 효과적인 화재감지를 위해 이종 화재센서 데이터들을 융합하는 방안들이 제안되었으나, 룰 기반의 방법의 경우 적응성과 정밀도가 낮고, 퍼지추론의 경우 영상에 대한 고려 미흡으로 검출 속도와 정밀도가 떨어지는 등의 문제점들이 있다. 더불어 영상기반 딥러닝 기술들도 제안되었으나, 실제 상황에서 카메라가 없거나 카메라 영역 밖의 화재 발생에 대한 신속한 탐지가 어렵다. 이에 본 논문에서는 CNN 기반의 딥러닝 알고리즘과 온도 습도 가스 연기를 포함하는 이종 화재센서 데이터기반의 퍼지추론엔진을 결합시킨 새로운 방식의 화재 감지 시스템을 제안한다. 이로써 영상 데이터를 활용한 신속한 화재 감지와 이종 센서 데이터들을 이용한 신뢰성 있는 화재 감지가 가능해짐을 보인다. 또한, 대규모 시스템에서 컴퓨팅 파워의 지나친 서버 집중을 방지하기 위해 화재 인식 알고리즘에 분산 컴퓨팅 구조를 채택하여 확장성을 높인다. 마지막으로, NIST 화재 동역학 시뮬레이터를 이용한 화재 시뮬레이션 데이터와 화재영상을 활용하여 화재가 점진적으로 번지는 환경과 급작스럽게 폭발이 발생하는 환경에서 실험을 수행함으로써 시스템의 성능을 검증한다.

블로그 포스팅을 이용한 방송 콘텐츠 영상의 타임라인 단위 태그 클라우드 생성 (Timeline Tag Cloud Generation for Broadcasting Contents using Blog Postings)

  • 손정우;김화숙;김선중;조기성
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.637-641
    • /
    • 2015
  • 최근 SNS, 블로그 등 사용자 참여형 인터넷 매체가 늘어나면서, 방송 콘텐츠에 대한 사용자의 재생산이 활발히 일어나고 있다. 특히, 드라마와 같은 장르에서는 배우가 착용한 옷, 시계 등에서부터, 자동차, 촬영 장소 등 다양한 종류의 정보들이 블로그를 통해 다른 사용자에게 전달되고 있다. 이러한 정보들은 방송 콘텐츠에 대한 직접적인 부가 정보가 되기 때문에, 이를 활용할 경우 양질의 서비스를 제공할 수 있다. 본 논문에서는 이를 위해, 블로그 포스팅을 이용하여 방송 콘텐츠의 특정 타임라인에 태그 클라우드를 생성하는 기술을 제안한다. 제안한 방법에서는 방송 콘텐츠에 대한 블로그 포스팅을 수집하고, 수집된 포스팅으로부터 이미지 주변 단어를 활용하여 태그 셋을 구축한다. 구축된 태그 클라우드는 방송 콘텐츠 프레임과의 이미지 매칭을 통해 특정 타임라인에 태깅된다. 실험에서는 이미지 매칭의 성능과 생성된 태깅된 태그 클라우드를 보임으로써 제안한 방법의 성능을 입증한다.