• Title/Summary/Keyword: 데이터 수집

Search Result 8,165, Processing Time 0.041 seconds

Multi-Session Open Domain Knowledge-based dialog collection Tool (멀티-세션 오픈 도메인 지식기반 대화 수집 툴)

  • Tae-Yong Kim;San Kim;Saim Shin
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.491-496
    • /
    • 2022
  • 최근 멀티-세션 데이터로 장기간 페르소나와 대화 일관성을 유지하며 인터넷에서 대화와 관련된 지식을 활용하는 대화모델 연구가 활발히 진행되고 있다. 하지만 이를 위한 한국어 멀티-세션 오픈 도메인 지식 기반 대화 데이터는 공개되지 않아 한국어 대화모델 연구에 어려움이 있다. 따라서 본 논문에서는 한국어 멀티-세션 오픈 도메인 지식 기반 데이터의 필요성을 시사하고, 데이터 수집을 위한 툴을 제안한다. 제안하는 수집 툴은 양질의 데이터 수집을 위해 작업자들이 사용하기 편하도록 UI/UX를 구성하였으며, 대화 생성 시 텍스트뿐만 아니라 정보가 밀집된 테이블도 대화에 활용할 지식으로 참조할 수 있도록 구현하였다. 제안하는 수집 툴은 웹 랜덤채팅 시스템에 기반을 두어 작업자가 여러 다른 작업자와 같은 확률로 매칭되게 구현되었으며, 일정 확률로 기존 대화로부터 대화를 시작하도록 함으로써 멀티-세션 대화 수집이 가능하도록 하였다.

  • PDF

Development of Data Collection Application using Smart Phone (스마트 폰을 이용한 데이터 수집 어플리케이션 개발)

  • Jung, Yong-jin;Oh, Chang-heon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2014.10a
    • /
    • pp.664-666
    • /
    • 2014
  • Recently, it is issued that the big data collecting meaningless data, and then extracting meaningful data from analyzed relationship to provide various information for users. However, original data collecting methods have difficulty in collecting information Because they analyze data by using sensors installed at exterior and interior of buildings and information of users. In this paper, we develop a data collection application using smart phone to resolve this problem. Developed application transmits data about Wi-Fi and measured information such as temperature, humidity, acceleration, gyro to server through web. The data transmitted is used as a context inference for users. According to the inference result, it is possible to provide various services on user conditions.

  • PDF

Filtering function embodiment of duplicated contents in integrated apparatus of content metadata aggregation (컨텐츠 메타데이터 통합 수집 장치에서의 중복 컨텐츠 필터링 기능 구현)

  • Cho, Sang-Wook;Lee, Min-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2008.06d
    • /
    • pp.150-154
    • /
    • 2008
  • 무한 웹 컨텐츠 환경에서는 사용자의 컨텐츠 선택을 용이하게 하기 위하여 메타데이터를 다양한 방법으로 수집할 수 있다. 그러나 한 가지 방법으로는 메타데이터의 수신이 제한적이고 풍부한 메타데이터 수신을 위해서는 다양한 방법을 이용해야 한다. 그래서 본 논문에서는 메타데이터 수집 방법들을 통합하는 장치를 제안하고, 통합 메타데이터의 품질 향상을 위해 통합과정에서 발생하는 중복 메타데이터의 필터링 방법을 제시 및 검증한다. 구체적으로는 현재 웹 상에서 다양하게 제공되고 있는 메타데이터 수집 기능들을 분석하고, 통합 장치의 개념적인 구조를 제시하며, 웹 상에서 많이 보급되고 있는 RSS Reader를 통해 메타데이터를 수집하고 이를 토대로 분석하여 중복 컨텐츠를 판단하는 방법을 제안하였다.

  • PDF

Wrapper-based Economy Data Collection System Design And Implementation (래퍼 기반 경제 데이터 수집 시스템 설계 및 구현)

  • Piao, Zhegao;Gu, Yeong Hyeon;Yoo, Seong Joon
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2015.05a
    • /
    • pp.227-230
    • /
    • 2015
  • For analyzing and prediction of economic trends, it is necessary to collect particular economic news and stock data. Typical Web crawler to analyze the page content, collects document and extracts URL automatically. On the other hand there are forms of crawler that can collect only document of a particular topic. In order to collect economic news on a particular Web site, we need to design a crawler which could directly analyze its structure and gather data from it. The wrapper-based web crawler design is required. In this paper, we design a crawler wrapper for Economic news analysis system based on big data and implemented to collect data. we collect the data which stock data, sales data from USA auto market since 2000 with wrapper-based crawler. USA and South Korea's economic news data are also collected by wrapper-based crawler. To determining the data update frequency on the site. And periodically updated. We remove duplicate data and build a structured data set for next analysis. Primary to remove the noise data, such as advertising and public relations, etc.

  • PDF

A Specification-Based Methodology for Data Collection in Artificial Intelligence System (명세 기반 인공지능 학습 데이터 수집 방법)

  • Kim, Donggi;Choi, Byunggi;Lee, Jaeho
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.11 no.11
    • /
    • pp.479-488
    • /
    • 2022
  • In recent years, with the rapid development of machine learning technology, research utilizing machine learning has been actively conducted in fields such as cognition, reasoning and judgment, and action among various technologies constituting intelligent systems. In order to utilize this machine learning, it is indispensable to collect data for learning. However, the types of data generated vary according to the environment in which the data is generated, and the types and forms of data required are different depending on the learning model to be used for machine learning. Due to this, there is a problem that the existing data collection method cannot be reused in a new environment, and a specialized data collection module must be developed each time. In this paper, we propose a specification-based methology for data collection in artificial intelligence system to solve the above problems, ensure the reusability of the data collection method according to the data collection environment, and automate the implementation of the data collection function.

Designing Bigdata Platform for Multi-Source Maritime Information

  • Junsang Kim
    • Journal of the Korea Society of Computer and Information
    • /
    • v.29 no.1
    • /
    • pp.111-119
    • /
    • 2024
  • In this paper, we propose a big data platform that can collect information from various sources collected at ocean. Currently operating ocean-related big data platforms are focused on storing and sharing created data, and each data provider is responsible for data collection and preprocessing. There are high costs and inefficiencies in collecting and integrating data in a marine environment using communication networks that are poor compared to those on land, making it difficult to implement related infrastructure. In particular, in fields that require real-time data collection and analysis, such as weather information, radar and sensor data, a number of issues must be considered compared to land-based systems, such as data security, characteristics of organizations and ships, and data collection costs, in addition to communication network issues. First, this paper defines these problems and presents solutions. In order to design a big data platform that reflects this, we first propose a data source, hierarchical MEC, and data flow structure, and then present an overall platform structure that integrates them all.

A study on the Collection and Conveyance Service of the Management Data of Surface Facilities (지상시설물 관리를 위한 데이터 수집 및 전송 서비스에 관한 연구)

  • Lee, Byung-Bog;Bae, Myung-Nam;Choi, Byeong-Cheol;Lee, In-Hwan;Kim, Nae-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.1049-1052
    • /
    • 2009
  • 본 논문에서는 센서노드들을 관리 대상이 되는 지상시설물에 부착하여 다양한 사건 및 상황 감지 기능을 가지고 수집한 데이터를 특정 메시지 형식으로 정의하여 IP(Internet Protocol) 네트워크에 연결된 운용자 시스템에 전달하는 센싱 데이터 수집 및 전달 서비스 개발에 관한 사항들을 기술한다. 센싱 데이터 수집 및 전달 서비스는 게이트웨이 시스템에 설치되는 순수 소프트웨어이며, 센서네트워크의 싱크노드로 부터 센싱 데이터를 수집하여 XML 형식으로 구성되어 IP 네트워크에 연결된 운용자 시스템에 전달된다. 또한, 센싱 데이터 수집 및 전달 서비스는 운용자가 요구하는 센서네트워크 제어 서비스 컴포넌트, 센싱 데이터 수집에 관한 특성 변경 서비스 컴포넌트, 센싱 데이터 보고 서비스 컴포넌트, XML 파서/인코더, C-구조체 메시지 파서/인코더 컴포넌트 등의 추가 및 변경이 용이한 유연한 소프트웨어 구조를 갖도록 서비스 로직 개념을 도입하였다.

Correction Method by Pattern Matching for Loss Data of Real-time Environment Information (패턴 매칭을 통한 실시간 환경 정보 손실 데이터 보정 방법)

  • Youn, jae-hong;Park, jun-hyung;Choi, hyo-seong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2017.05a
    • /
    • pp.379-380
    • /
    • 2017
  • 가상현실 기술의 발전과 환경 정보 수집을 위한 센서 기술의 발전에 따라 실감형 시뮬레이터에 실제 환경과 동일한 실감효과를 재현하기 위한 연구들이 많이 진행되고 있다. 컴퓨터를 이용한 가상환경에서 실감형 시뮬레이션을 위한 MPEG-V 표준에서는 바람, 진동, 속도, 풍향, 풍속, 온도, 안개 등의 효과들을 제공하기 위한 명세를 제공하고 있다. 본 연구에서는 사용된 이동형 환경데이터 수집 장치를 통해 수집된 데이터는 실감 재현 장치에 적용하기 위해서는 재현 장치의 구동 지연 및 성능에 따른 데이터의 보정이 필요하게 된다. 본 연구에서는 이동형 환경데이터 수집 장치를 통해 수집된 환경 데이터의 패턴 분석을 통해 실감 재현 장치에 적합한 실감 환경 데이터를 제공하기 위한 손실 데이터의 보정방법을 제안하고자 한다.

  • PDF

과학기술데이터위원회(CODATA)의 조직과 활동

  • Waddington, Guy
    • Journal of Information Management
    • /
    • v.6 no.5
    • /
    • pp.127-130
    • /
    • 1973
  • 1966년에 국제학술연합회의(ICSU)는 과학기술데이터위원회(CODATA)를 조직하였는데 이는 세계적으로 수치데이터 수집에 관한 조정(調整)을 꾀하고 유도해주며 해당 사기관, 정부기관 및 정부간기관의 데이터 수집을 적극 지원해 주기 위한 것이었다. 현재 위원회는 8개국으로부터의 회원과 10개의 국제연맹을 가지고 있으며 이들은 CODATA의 목적을 달성하기 위하여 내부적인 수법을 사용해 오고 있고, 또한 각국의 관련단체들은 비공식적인 전달수단을 통하여 서로 연결되어져 있다. CODATA의 중앙국은 원래 워싱턴에 있었으나, 지금은 독일의 프랑크푸르트에 위치하고 있으며, 중요한 데이터평가 및 수집센터의 간행물을 분석한 요약판이 곧 발행될 것이다. 그밖에 특수한 문제를 해결하기 위하여 기본상수, 수치데이터처리를 위한 전자계산기의 응용, 수집가가 사용하는 중요입력데이터의 표준 등에 관한 작업반이 설치되었다. 한편, 세계적으로 수치데이터 수집가들간의 협력이 활발히 이루어지고 있다.

  • PDF

A Method for Efficiently Collecting Data from Multiple Data Streams (다차원 스트림 데이터 환경에서의 효율적인 데이터 수집 기법)

  • Kim, Jae-In;Hwang, Bu-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.815-818
    • /
    • 2009
  • USN 환경에서의 센서는 일반적으로 많은 제약사항을 가지고 있다. 센서의 제한된 전원의 문제는 센서의 동작 수명과 관련된 것으로 최근의 연구들에서 중요 이슈가 되고 있다. 본 논문에서는 고도화되는 USN 환경에서 발생되는 다차원 스트림데이터를 수집하는데 있어서 센서의 전원 문제를 해결하고 데이터를 효율적으로 수집하기 위한 기법을 제안한다. 제안하는 기법은 센서에 이상 이벤트를 정의하고 이상 이벤트에 해당하는 데이터를 수집하는 경우에만 데이터를 전송하도록 하여 센서의 통신 빈도를 줄여 센서의 전원 문제를 해결하고 스트림 데이터를 기호화 하여 처리함으로써 스트림 데이터를 효율적으로 수집할 수 있다.