• 제목/요약/키워드: Vocabulary Dataset

검색결과 13건 처리시간 0.018초

작물 수확 자동화를 위한 시각 언어 모델 기반의 환경적응형 과수 검출 기술 (Domain Adaptive Fruit Detection Method based on a Vision-Language Model for Harvest Automation)

  • 남창우;송지민;진용식;이상준
    • 대한임베디드공학회논문지
    • /
    • 제19권2호
    • /
    • pp.73-81
    • /
    • 2024
  • Recently, mobile manipulators have been utilized in agriculture industry for weed removal and harvest automation. This paper proposes a domain adaptive fruit detection method for harvest automation, by utilizing OWL-ViT model which is an open-vocabulary object detection model. The vision-language model can detect objects based on text prompt, and therefore, it can be extended to detect objects of undefined categories. In the development of deep learning models for real-world problems, constructing a large-scale labeled dataset is a time-consuming task and heavily relies on human effort. To reduce the labor-intensive workload, we utilized a large-scale public dataset as a source domain data and employed a domain adaptation method. Adversarial learning was conducted between a domain discriminator and feature extractor to reduce the gap between the distribution of feature vectors from the source domain and our target domain data. We collected a target domain dataset in a real-like environment and conducted experiments to demonstrate the effectiveness of the proposed method. In experiments, the domain adaptation method improved the AP50 metric from 38.88% to 78.59% for detecting objects within the range of 2m, and we achieved 81.7% of manipulation success rate.

Utilizing Deep Learning for Early Diagnosis of Autism: Detecting Self-Stimulatory Behavior

  • Seongwoo Park;Sukbeom Chang;JooHee Oh
    • International Journal of Advanced Culture Technology
    • /
    • 제12권3호
    • /
    • pp.148-158
    • /
    • 2024
  • We investigate Autism Spectrum Disorder (ASD), which is typified by deficits in social interaction, repetitive behaviors, limited vocabulary, and cognitive delays. Traditional diagnostic methodologies, reliant on expert evaluations, frequently result in deferred detection and intervention, particularly in South Korea, where there is a dearth of qualified professionals and limited public awareness. In this study, we employ advanced deep learning algorithms to enhance early ASD screening through automated video analysis. Utilizing architectures such as Convolutional Long Short-Term Memory (ConvLSTM), Long-term Recurrent Convolutional Network (LRCN), and Convolutional Neural Networks with Gated Recurrent Units (CNN+GRU), we analyze video data from platforms like YouTube and TikTok to identify stereotypic behaviors (arm flapping, head banging, spinning). Our results indicate that the LRCN model exhibited superior performance with 79.61% accuracy on the augmented platform video dataset and 79.37% on the original SSBD dataset. The ConvLSTM and CNN+GRU models also achieved higher accuracy than the original SSBD dataset. Through this research, we underscore AI's potential in early ASD detection by automating the identification of stereotypic behaviors, thereby enabling timely intervention. We also emphasize the significance of utilizing expanded datasets from social media platform videos in augmenting model accuracy and robustness, thus paving the way for more accessible diagnostic methods.

해외 도서관 링크드 데이터 구축의 최근 동향 연구 - 발행 데이터세트, 재사용 어휘집, 인터링킹 외부 데이터세트를 중심으로 - (A Study on Recent Trends in Building Linked Data for Overseas Libraries: Focusing on Published Datasets, Reused Vocabulary, and Interlinked External Datasets)

  • 이성숙
    • 한국문헌정보학회지
    • /
    • 제56권4호
    • /
    • pp.5-28
    • /
    • 2022
  • 이 연구에서는 해외 도서관의 LD 구축 사례를 발행 데이터세트, 재사용 어휘집, 인터링킹 외부 데이터세트를 중심으로 분석하고, 분석 결과를 토대로 국내도서관의 LD 구축 방안에 대한 기초적인 데이터를 확보하였다. 21개 해외 도서관 사례 분석 결과, 해외 도서관은 충실한 전거 LD를 구축하였고, 발행 LD를 활용한 새로운 서비스를 진행하였다. 이를 위해 해외 도서관은 도서관의 주도하에 다른 도서관과 문화기관들과 지역 내에서, 국가 내에서, 국가적으로 협력하였고, 이러한 협력을 바탕으로 특성화된 데이터세트를 발행하였다. 해외 도서관은 발행 LD의 가시성을 높이기 위해 Schema.org를 사용하였고, 기술의 세분화를 위해 BIBFRAME 등을 사용하여 다양한 개체를 정의하고, 정의된 개체에 기반하여 LD를 구축하였다. 해외 도서관은 다양한 개체를 관련 정보 연계와 검색 결과 디스플레이, 브라우징, 대량 다운로드에 활용하였다. 해외 도서관은 인터링킹 외부 데이터세트를 지속해서 현행화하였고, 외부 데이터를 직접적으로 활용하여 목록정보를 보강하였다. 이 연구에서는 도출된 시사점을 토대로 국내도서관의 LD 구축 시 고려할 점을 제안하였다. 연구 결과는 향후 국내도서관이 LD 서비스를 계획하거나 기존 서비스를 고도화할 때 기초자료로 활용될 수 있을 것이다.

Improved Character-Based Neural Network for POS Tagging on Morphologically Rich Languages

  • Samat Ali;Alim Murat
    • Journal of Information Processing Systems
    • /
    • 제19권3호
    • /
    • pp.355-369
    • /
    • 2023
  • Since the widespread adoption of deep-learning and related distributed representation, there have been substantial advancements in part-of-speech (POS) tagging for many languages. When training word representations, morphology and shape are typically ignored, as these representations rely primarily on collecting syntactic and semantic aspects of words. However, for tasks like POS tagging, notably in morphologically rich and resource-limited language environments, the intra-word information is essential. In this study, we introduce a deep neural network (DNN) for POS tagging that learns character-level word representations and combines them with general word representations. Using the proposed approach and omitting hand-crafted features, we achieve 90.47%, 80.16%, and 79.32% accuracy on our own dataset for three morphologically rich languages: Uyghur, Uzbek, and Kyrgyz. The experimental results reveal that the presented character-based strategy greatly improves POS tagging performance for several morphologically rich languages (MRL) where character information is significant. Furthermore, when compared to the previously reported state-of-the-art POS tagging results for Turkish on the METU Turkish Treebank dataset, the proposed approach improved on the prior work slightly. As a result, the experimental results indicate that character-based representations outperform word-level representations for MRL performance. Our technique is also robust towards the-out-of-vocabulary issues and performs better on manually edited text.

딥러닝을 이용한 언어별 단어 분류 기법 (Language-based Classification of Words using Deep Learning)

  • 듀크;다후다;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.411-414
    • /
    • 2021
  • One of the elements of technology that has become extremely critical within the field of education today is Deep learning. It has been especially used in the area of natural language processing, with some word-representation vectors playing a critical role. However, some of the low-resource languages, such as Swahili, which is spoken in East and Central Africa, do not fall into this category. Natural Language Processing is a field of artificial intelligence where systems and computational algorithms are built that can automatically understand, analyze, manipulate, and potentially generate human language. After coming to discover that some African languages fail to have a proper representation within language processing, even going so far as to describe them as lower resource languages because of inadequate data for NLP, we decided to study the Swahili language. As it stands currently, language modeling using neural networks requires adequate data to guarantee quality word representation, which is important for natural language processing (NLP) tasks. Most African languages have no data for such processing. The main aim of this project is to recognize and focus on the classification of words in English, Swahili, and Korean with a particular emphasis on the low-resource Swahili language. Finally, we are going to create our own dataset and reprocess the data using Python Script, formulate the syllabic alphabet, and finally develop an English, Swahili, and Korean word analogy dataset.

트랜스포머를 이용한 중국어 NER 관련 문자와 단어 통합 임배딩 (Integrated Char-Word Embedding on Chinese NER using Transformer)

  • 김춘광;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.415-417
    • /
    • 2021
  • Since the words and words in Chinese sentences are continuous and the length of vocabulary is huge, Chinese NER(Named Entity Recognition) always based on character representation. In recent years, many Chinese research has been reconsidered how to integrate the word information into the Chinese NER model. However, the traditional sequence model has complex structure, the slow inference speed, and an additional dictionary information is needed, which is difficult to implement in the industry. The approach in this paper has the state of the art and parallelizable, which is integrated the char-word embeddings, so that the model learns word information. The proposed model is easy to implement, and outperforms traditional model in terms of speed and efficiency, which is improved f1-score on two dataset.

A Digital Thesaurus of the Traditional Common Culture of the Greater Mekong Subregion

  • Suwannee Hoaihongthong;Kanyarat Kwiecien
    • Journal of Information Science Theory and Practice
    • /
    • 제12권3호
    • /
    • pp.63-74
    • /
    • 2024
  • This study aimed to develop a digital thesaurus dedicated to cataloging the traditional common culture of the Greater Mekong Subregion. The process followed a meticulous seven-step methodology, including scoping, vocabulary collection, knowledge structure analysis, relationship delineation, related word adjustments, list validation, and evaluation. Leveraging principles from knowledge organization, thesaurus construction, and digital platform development, the TemaTres web application emerged as the primary tool for constructing this thesaurus. The study's results showed that 2,042 principal words related to the traditional common culture of the Greater Mekong Subregion were compiled and classified into terms for each of the seven deep levels. Each term was accompanied by essential metadata, including broader and narrower terms, related terms, cross-references, and scope notes. This rich dataset empowered semantic search capabilities across diverse applications and web services, providing access to knowledge pertaining to the traditional common culture of the Greater Mekong Subregion and contributing to a deeper understanding of this cultural domain.

효율적인 개방형 어휘 3차원 개체 분할을 위한 클래스-독립적인 3차원 마스크 제안과 2차원-3차원 시각적 특징 앙상블 (Class-Agnostic 3D Mask Proposal and 2D-3D Visual Feature Ensemble for Efficient Open-Vocabulary 3D Instance Segmentation)

  • 송성호;박경민;김인철
    • 정보처리학회 논문지
    • /
    • 제13권7호
    • /
    • pp.335-347
    • /
    • 2024
  • 개방형 어휘 3차원 포인트 클라우드 개체 분할은 3차원 장면 포인트 클라우드를 훈련단계에서 등장하였던 기본 클래스의 개체들뿐만 아니라 새로운 신규 클래스의 개체들로도 분할해야 하는 어려운 시각적 작업이다. 본 논문에서는 중요한 모델 설계 이슈별 기존 모델들의 한계점들을 극복하기 위해, 새로운 개방형 어휘 3차원 개체 분할 모델인 Open3DME를 제안한다. 첫째, 제안 모델은 클래스-독립적인 3차원 마스크의 품질을 향상시키기 위해, 새로운 트랜스포머 기반 3차원 포인트 클라우드 개체 분할 모델인 T3DIS[6]를 마스크 제안 모듈로 채용한다. 둘째, 제안 모델은 각 포인트 세그먼트별로 텍스트와 의미적으로 정렬된 시각적 특징을 얻기 위해, 사전 학습된 OpenScene 인코더와 CLIP 인코더를 적용하여 포인트 클라우드와 멀티-뷰 RGB 영상들로부터 각각 3차원 및 2차원 특징들을 추출한다. 마지막으로, 제안 모델은 개방형 어휘 레이블 할당 과정동안 각 포인트 클라우드 세그먼트별로 추출한 2차원 시각적 특징과 3차원 시각적 특징을 상호 보완적으로 함께 이용하기 위해, 특징 앙상블 기법을 적용한다. 본 논문에서는 ScanNet-V2 벤치마크 데이터 집합을 이용한 다양한 정량적, 정성적 실험들을 통해, 제안 모델의 성능 우수성을 입증한다.

KONG-DB: 웹 상의 어휘 사전을 활용한 한국 소설 지명 DB, 검색 및 시각화 시스템 (KONG-DB: Korean Novel Geo-name DB & Search and Visualization System Using Dictionary from the Web)

  • 박성희
    • 정보관리학회지
    • /
    • 제33권3호
    • /
    • pp.321-343
    • /
    • 2016
  • 본 연구의 목적은 1) 소설 속 지명 데이터베이스(DB)를 구축하고, 2) 확장 가능한 지명 DB를 위해 자동으로 지명을 추출하여 데이터베이스를 갱신하며, 3) 데이터베이스 내의 소설지명과 용례를 검색하고 시각화하는 파일럿시스템을 구현하는 데 있다. 특히, 학습자료(training)에 해당하는 말뭉치(corpus)를 확보하기 어려운, 소설지명과 같이 현재 잘 쓰이지 않는 개체명을 자동으로 추출하는 것은 매우 어려운 문제이다. 효과적인 지명 정보 추출용 학습자료 말뭉치 확보 문제를 해결하기 위해 본 논문에서는 이미 수작업으로 구축된 웹 지식(어휘사전)을 활용하여 학습에 필요한 충분한 양의 학습말뭉치를 확보하는 방안을 적용하였다. 이렇게 확보된 학습용 코퍼스와 학습된 자동추출 모듈을 가지고, 새로운 지명 용례를 찾아 추가하는 지명 데이터베이스 확장 도구를 만들었으며, 소설지명을 지도 위에 시각화하는 시스템을 설계하였다. 또한, 시범시스템을 구현함으로써 실험적으로 그 타당성을 입증하였다. 끝으로, 현재 시스템의 보완점을 제시하였다.

세미-마르코프 조건 랜덤 필드 기반의 수화 적출 (Sign Language Spotting Based on Semi-Markov Conditional Random Field)

  • 조성식;이성환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권12호
    • /
    • pp.1034-1037
    • /
    • 2009
  • 수화 적출이란 연속된 영상에서 수화의 시작과 끝점을 찾고, 이를 사전에 정의된 수화 단어로 인식하는 방법을 말한다. 수화는 매우 다양한 손의 움직임과 모양으로 구성되어 있고, 그 변화가 다양하여 적출에 많은 어려움이 있다. 특히, 다양한 길이의 궤적 정보로 구성된 수화는 길이가 긴 수화에 대해 짧은 길이를 갖는 수화가 인식에 필요한 정보를 추출하기 어려운 문제점 있다. 본 논문에서는 다양한 길이를 갖는 입력 데이터의 특징을 반영할 수 있는 Semi-Markov Conditional Random Field에 기반하여 다양한 수화의 길이에 강인하게 수화를 적출하는 방법을 제안한다. 성능 평가를 위해 미국 수화와 한국 수화 데이터베이스를 사용하여 연속된 수화 영상에서의 수화 적출 성능을 평가하였고, 실험 결과 기존의 Hidden Markov Model과 Conditional Random Field보다 뛰어난 성능을 보였다.