• 제목/요약/키워드: 데이터 수집 툴

검색결과 46건 처리시간 0.022초

멀티-세션 오픈 도메인 지식기반 대화 수집 툴 (Multi-Session Open Domain Knowledge-based dialog collection Tool)

  • 김태용;김산;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.491-496
    • /
    • 2022
  • 최근 멀티-세션 데이터로 장기간 페르소나와 대화 일관성을 유지하며 인터넷에서 대화와 관련된 지식을 활용하는 대화모델 연구가 활발히 진행되고 있다. 하지만 이를 위한 한국어 멀티-세션 오픈 도메인 지식 기반 대화 데이터는 공개되지 않아 한국어 대화모델 연구에 어려움이 있다. 따라서 본 논문에서는 한국어 멀티-세션 오픈 도메인 지식 기반 데이터의 필요성을 시사하고, 데이터 수집을 위한 툴을 제안한다. 제안하는 수집 툴은 양질의 데이터 수집을 위해 작업자들이 사용하기 편하도록 UI/UX를 구성하였으며, 대화 생성 시 텍스트뿐만 아니라 정보가 밀집된 테이블도 대화에 활용할 지식으로 참조할 수 있도록 구현하였다. 제안하는 수집 툴은 웹 랜덤채팅 시스템에 기반을 두어 작업자가 여러 다른 작업자와 같은 확률로 매칭되게 구현되었으며, 일정 확률로 기존 대화로부터 대화를 시작하도록 함으로써 멀티-세션 대화 수집이 가능하도록 하였다.

  • PDF

Hadoop 클러스터를 위한 모니터링 툴 (Monitoring Tool for Hadoop Cluster)

  • 금태훈;이원주;전창호
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2010년도 제42차 하계학술발표논문집 18권2호
    • /
    • pp.17-18
    • /
    • 2010
  • 최근 이슈가 되고 있는 클라우드 컴퓨팅은 다수의 노드를 이용한 클러스터를 사용한다. 이러한 클러스터를 효율적으로 관리하기 위해 모니터링 툴을 사용하고 있다. 하지만, 기존의 모니터링 툴은 클러스터를 구성하는 노드의 가용성과 오버헤드, 데이터 수집/전송 방식에 중심을 둔 모니터링 툴이기 때문에 클라우드 클러스터의 세부 정보까지 모니터링 할 수 없다. 따라서 본 논문에서는 클라우드 컴퓨팅을 구축할 수 있는 플랫폼인 Hadoop을 위한 모니터링 툴을 제안한다.

  • PDF

차세대 웨이퍼 생산시스템을 위한 클러스터 툴 디스패칭 알고리즘 개발 (Development of Cluster Tool Dispatching Algorithm for Next Generation Wafer Production System)

  • 허선;이현;박유진
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2010년도 추계학술발표논문집 2부
    • /
    • pp.792-796
    • /
    • 2010
  • 차세대 반도체 공정인 450mm 웨이퍼 생산 환경의 가장 큰 특징은 반도체 생산의 전 공정에 대한 완전 자동화이다. 이러한 완전 자동화는 작업자의 공정개입을 불가능하게 하고 개별 웨이퍼의 중요도를 크게 증가시키며 전체 반도체 생산 공정에 대한 견고한 디스패칭 시스템을 필요로 한다. 또한, 차세대 반도체 공정의 디스패칭 시스템은 개별 웨이퍼에 대한 실시간 모니터링과 데이터 수집이 가능해야 하며, 수집된 반도체 공정의 정보를 반영한 실시간 디스패칭이 가능해야 한다. 본 연구에서는 차세대 반도체 환경인 450mm 웨이퍼 생산 환경에서 중요한 역할을 하는 클러스터 툴에 대해 분석하고 클러스터 툴에서 웨이퍼의 작업순서를 결정할 수 있는 디스패칭 알고리즘을 제안한다.

  • PDF

머신러닝을 위한 데이터셋 수집 RPA 개발 (Development of Dataset Cllection RPA for Machine Learning)

  • 김기태;서보인;윤상혁;이세훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.295-296
    • /
    • 2020
  • 본 논문에서는 RPA(Robotic Process Automation) Tool 개발 과정 중 머신 러닝, 딥러닝에 필요한 이미지 크롤링 및 전처리 기능을 이용한 가공된 데이터 셋 처리 과정을 기술한다. 개발된 RPA 툴에서 머신러닝 및 딥러닝에 사용될 데이터 확보 기능을 제공하며, 세부적으로 이미지 전처리(Convert Gray, Histogram Equalization, Binary, Resize)등 반복적으로 사용되는 기능들을 제공한다. 개발된 툴을 통해 RPA의 자동화 기능과, 전처리 기능의 융합을 통해 업무의 효율성을 제공한다.

  • PDF

프라이버시 보존 데이터 수집을 지원하기 위한 시뮬레이션 툴 개발 (Development of Simulation Tool to Support Privacy-Preserving Data Collection)

  • 김대호;김종욱
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권8호
    • /
    • pp.1671-1676
    • /
    • 2017
  • 빅데이터 시대의 도래로 다양한 데이터들이 발생되고 있다. 많은 산업 부분에서는 이러한 데이터들을 수집하여 분석하고자 한다. 하지만 사용자 정보 수집은 직접적인 개인정보 유출을 초래할 수 있다. 구글(Google) 사에서 제안한 지역 차분 프라이버시 기법은 데이터 변조를 통해 사용자 정보 수집에 있어 발생할 수 있는 개인정보 유출을 방지한다. 이러한 데이터 변조를 통한 개인정보 유출 방지는 그 변조되는 정도가 높을수록 개인정보를 강력히 보장하지만 이와 반대로 데이터의 활용도는 현저히 떨어진다. 그래서 데이터 변조의 정도를 데이터 수집목적에 적합하게 설정해야한다. 본 논문에서 제시하는 시뮬레이션 도구는 지역 차분 프라이버시를 만족하는 사용자 정보 수집에 있어 설정해야하는 다양한 변수값을 데이터 수집환경에 맞게 적용함으로써 데이터 수집가가 자신의 환경에 맞는 데이터 수집을 할 수 있도록 지원한다.

특수교 계측 데이터 자동 통계 분석 툴 개발 (Development of Automated Statistical Analysis Tool using Measurement Data in Cable-Supported Bridges)

  • 김재환;박상기;정규산;서동우
    • 한국방재안전학회논문집
    • /
    • 제15권3호
    • /
    • pp.79-88
    • /
    • 2022
  • 특수교는 중요한 대형 시설물로 장기적이고 체계적인 유지관리 전략을 필요로 한다. 특히, 시설물 부재별 및 위치별로 다양한 센서를 설치하고 계측 항목별 관리 기준치 설정과 같은 시설물의 안전 확보를 위해 여러 방안들이 제시되고 있다. 이 중 지속적으로 증가하는 특수교의 수와 여러 센서에서 수집되는 데이터를 효율적으로 관리하기 위한 전략적인 방안을 제시해야 할 필요가 있다. 본 연구에서는 특수교 계측 시스템에서 수집되는 광범위한 데이터를 효율적으로 분석하기 위한 목적으로 자동적으로 이상신호를 처리하고 통계 결과를 산출할 수 있는 분석 툴을 개발하고자 한다. 분석 툴 개발을 위해 우선 특수교에 설치된 주요 센서 종류 및 수량과 같은 기본적인 정보와 수집된 데이터에 대한 신호 특성을 분석하였다. 이후 험펠 필터 기법을 활용 신호의 이상 유무를 판별하고 필터링하여 통계 결과를 산출하였다. 마지막으로 개발된 분석 툴의 성능 검증을 위해 현재 공용 중인 사장교와 현수교 형식의 교량을 각 1개소씩 성능검증 대상 교량으로 선정하여 신호처리 및 자동 통계 분석 성능을 실시하였고, 기존의 통계 작업 결과와 유사한 결과를 산출 할 수 있었다.

물체인식 딥러닝 모델 구성을 위한 파이썬 기반의 Annotation 툴 개발 (Development of Python-based Annotation Tool Program for Constructing Object Recognition Deep-Learning Model)

  • 임송원;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.162-164
    • /
    • 2019
  • 본 논문에서는 물체인식 딥러닝 모델 생성에 필요한 라벨링(Labeling)과정에서 사용자가 다양한 기능을 활용하여 효과적인 학습 데이터를 구성할 수 있는 GUI 프로그램을 구현했다. 프로그램의 인터페이스는 파이썬 기반의 GUI 모듈인 Tkinter 를 활용하여, 실시간으로 이미지 데이터를 수집할 수 있는 크롤링(Crawling)기능과 미리 학습된 Retinanet 을 통해 이미지 데이터를 인식함으로써 자동으로 주석(Annotation) 과정을 수행할 수 있는 기능을 구성했다. 또한, 수집한 이미지 데이터를 다양한 효과와 노이즈, 변형 등으로 Augmentation 기능을 추가함으로써, 사용자가 모델을 학습하기 위한 데이터 전처리 단계를 하나의 GUI 프로그램에서 수행할 수 있도록 했다. 또한 사용자가 직접 학습한 모델을 추정 모델(Inference Model)로 변환하여 프로그램에 입력할 수 있도록 설계한다.

  • PDF

국내 수사 환경을 고려한 LiveCD 활용 방법 제안 (Practical Methods of Live-CD usage for Case-Relevance Response in Korea)

  • 이승봉;최재민;이상진;임종인
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2008년도 동계학술대회
    • /
    • pp.43-46
    • /
    • 2008
  • 디지털 증거의 수집은 컴퓨터 포렌식 수사절차에서 매우 중요하다. 디지털 증거는 특히 용의자가 범죄 과정에서 노출한 증거들을 획득한다는 것에 의미가 있으며, 현재 이러한 디지털 증거 수집을 위한 많은 도구들이 활용되고 있다. 그 중 LiveCD는 대상 운영체제의 영향을 받지 않고, CD 자체를 통해 저장된 다양한 포렌식 툴을 사용 할 수가 있다. 또한 여러 종류의 파일 시스템을 지원하기 때문에 초기 대응에 아주 유용하게 사용되며, 위 과정을 통해 수집된 데이터는 무결성 검증을 통해 증거 수사에 활용된다. 현재 여러 가지 LiveCD를 수사에 활용하고 있으나, 각 도구들 마다 지원하는 포렌식 툴이 다르고 지원하는 운영체제도 다양하다. 따라서 상황에 따라 적절한 LiveCD를 활용하는 것은 매우 중요하며, 이를 통해 증거의 수집을 용이하게 할 수 있다. 따라서 본고에서는 국외의 포렌식용 LiveCD 현황에 대한 조사 및 비교 분석하여 국내 수사 환경을 고려한 LiveCD 활용 방안에 대해 제시 한다.

  • PDF

스마트폰과 뇌파 분석 툴을 이용한 중증장애인 모니터링 시스템 (Monitoring System of Severe Disability using Smart Phones and EEG Analysis Tools)

  • 오세빈;장현우;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.66-68
    • /
    • 2012
  • 본 논문에서는 자체 개발한 Java Platform 기반의 뇌파 분석 도구와 Android 기반의 Mobile 기기를 연계하여 중증 장애인의 상태 및 상황 등을 모니터링 할 수 있는 시스템을 제시한다. 제안된 시스템은 뇌파 측정기, 뇌파 분석 툴(PC Client) 그리고 Mobile 기기(Android)로 크게 3부분으로 구성된다. 뇌파 측정기로부터 수집된 원 주파수에서 저주파 대역의 잡음을 제거하기 위해 고주파 필터를 적용한 후, 적용된 데이터를 주파수 영역에서 분석하기 위해 FFT를 적용한다. FFT를 적용한 데이터를 Power Spectrum 분석 기법을 이용하여 Theta, Delta, Alpha, SMR, Beta 파형의 값을 추출하고, 14 채널의 뇌파 측정 위치에 따른 상관관계 분석기법을 통해 중증 장애인의 상태를 표현한다. 본 논문에서 제안한 방법으로 실험한 결과, 중증 장애인 모니터링 시스템에 효율적으로 적용되는 것을 확인하였다.

  • PDF

개인정보보호를 위한 안드로이드 로그캣 시스템 연구 (Android Log Cat Systems Research for Privacy)

  • 장혜숙
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권11호
    • /
    • pp.101-105
    • /
    • 2012
  • 최근 스마트폰의 급격한 보급으로 개인정보 침해사고 및 프라이버시 침해를 통한 여러 가지 사회문제가 급속도로 증가하고 있으며, 이에 따라 개인 정보보호를 위한 다양한 연구 및 기술 개발이 이루어지고 있다. 개인의 모든 정보가 거의 들어 있다고 해도 과언이 아닌 스마트폰의 정보유출은 우리의 일상에서 쉽고 빈번하게 발생할 수 있는데, 포렌식 분석 툴을 이용하여 증거를 수집하거나 분석하기란 쉽지 않은 일이다. 현재 안드로이드 포렌식 연구는 비휘발성 메모리로부터 데이터를 수집하여 분석하는 기법에 집중되어 왔으며, 휘발성 데이터에 대한 연구는 미미한 실정이다. 안드로이드 로그는 휘발성 저장매체로부터 수집될 수 있는 휘발성 데이터이다. 안드로이드 로그는 안드로이드 시스템에서부터 애플리케이션에 이르기까지 최근의 모든 구동내역과 관련한 기록이 로그로 저장되기 때문에 안드로이드폰 사용을 추적할 수 있는 자료로 활용이 충분하다. 본 논문에서는 포렌식 분석 툴을 이용하지 않고 로그를 필터링하여 개인의 정보 유출 유무를 판단하여 대응할 수 있는 방법을 제시한다.