• 제목/요약/키워드: 데이터 정제

검색결과 469건 처리시간 0.036초

의미연결망 분석을 활용한 영화 리뷰 시각화 (A Visualization of Movie Review based on a Semantic Network Analysis)

  • 김슬기;김장현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 추계학술대회
    • /
    • pp.197-200
    • /
    • 2018
  • 본 연구에서는 <네이버 영화> 페이지의 리뷰 데이터를 수집하여, 출현 빈도가 높은 단어를 중심으로 영화 관람객의 반응을 시각화하는 작업을 수행하였다. 이를 위해 총 6편의 영화를 선정하여 데이터 수집 및 정제과정을 거쳤으며, 의미연결망 분석(Semantic network analysis)을 활용하여 단어 간 관계성을 파악하고자 하였다. 데이터 시각화 작업에는 UCINET과 함께 패키지화된 NetDraw가 사용되었다. 본 연구의 시사점은 문장으로 작성된 영화 관람객의 리뷰를 키워드 중심으로 시각화하여, 소비자들의 반응을 한 눈에 확인하는 리뷰 인터페이스 구현이 가능한지 탐색하였다는 점이다.

  • PDF

3차원 건물모델의 정규화 (Regularization of 3D Building Models)

  • 김성준;이임평
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2009년도 춘계학술대회 논문집
    • /
    • pp.296-300
    • /
    • 2009
  • 가상현실이나 인터넷 웹지도 서비스와 같이 3차원의 실세계를 시스템 상에 그대로 재현(reconstruction)하기 위해서는 정교하고 세밀한 3차원 도시모델이 필수적이다. 이러한 3차원 도시모델의 자동생성은 원격탐사 및 사진측량 분야에서 많은 연구가 수행되고 있다. 이러한 연구들은 다양한 센서 데이터와 기 구축되어 있는 GIS자료를 이용하여 건물, 도로, 지형 등의 도시모델을 자동으로 생성하고자 한다. 그러나 대부분의 연구에서 추출한 각 기본요소(primitives)-평면패치(planar patches), 에지(edges), 모서리(corners)에 대한 국부적인 정제(refinement)는 수행하였으나, 생성한 건물 모델에 대한 광역적인 조정을 통한 정규화에 대한 연구는 미비한 상태이다. 본 연구에서는 다양한 데이터로부터 생성된 B-rep (boundary representation) 형태의 건물 모델에 대하여 기하학적인 제약요소(constraints)를 이용한 정규화(regularization) 방법론을 제시하고자 한다. 제안하는 방법은 건물의 Domain Knowledge에 기반하여 도출한 건물을 구성하는 기본요소(primitives)간의 인접성, 직교성, 평행성, 교차성 등의 다양한 제약조건을 이용하여 광역적으로 조정한다. 시뮬레이션 데이터에 적용한 결과의 분석을 통해 제안된 정규화 방법을 통해 오차가 포함된 건물모델이 보다 정형화된 형태로 조정되었음을 확인하였다.

  • PDF

재난안전 정보를 위한 공공서비스 프레임워크 구축 (Public Service Framework for Disaster Security Information)

  • 윤준영;민금영;정덕훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.580-582
    • /
    • 2015
  • 본 프레임워크의 기본 방향은 [공공서비스를 제공하기 위한 재난안전 정보를 구현하기 위한 5단계로 피해지역에 설치된 정보수집 장치로부터 관측된 데이터와 현장에 대한 신고 정보를 취득함으로써 1단계 현장의 상황을 감시/관측하여 피해 현황을 인지할 수 있는 정보수집체계를 구축하고 수집된 데이터 중에서 오류 데이터를 정제하고 정보 모델링의 분류와 그룹핑을 통한 2단계 상황정보를 유형화한다. 그리고 유형화된 상황정보와 관련된 사건을 대상으로 일련의 규칙이나 상호관계를 파악하는 3단계 패턴 분석 과정을 통하여 4단계 공공서비스 매체별 특성을 고려하여 변환함으로써 대국민과 유관기관에게 재난안전 정보를 전달하는 5단계 공공서비스로 구현한다.

전기자동차 충전기록 데이터 처리에 관한 연구 (A study on data processing of electric vehicle charging archives)

  • 황윤영;진효정;김소연;이정훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.337-338
    • /
    • 2022
  • 본 논문에서는 환경공단이 제공하는 전기자동차 충전기의 운영기록 분석하는 과정에서 주기적으로 공개 데이터를 수집하여 지역 데이터베이스에 저장하고 데이터의 오류를 정제하는 방안에 대해 연구한다. 전력시스템 부하에 직접적으로 영향을 주는 급속충전기 운영기록만을 추출하고 날짜필드에서의 오류 혹은 역전을 포함하는 트랜잭션을 제거한 후 일차적으로 충전시간길이를 히스토그램으로 분석한다. 대부분의 충전이 20분 이내에 완료되었지만 23%는 충전완료 후에도 충전기에서 플러그를 제거하지 않은 것으로 보인다.

FPGA를 이용한 JPEG 압축모듈 구현 (Implementation of JPEG Compression Module Using FPGA)

  • 위지호;유현;유승원;정제창
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.158-161
    • /
    • 2019
  • 정보를 전달하는 데에는 여러 수단이 있다. 그 중 가장 많은 양의 정보를 가장 직관적으로 전달하는 수단은 영상이다. 그렇기 때문에 사람들은 예로부터 공연과 연극을 통해 시각적인 형태로 내용과 분위기 등 다양한 정보들을 전달해왔고, 오늘날에는 영화 필름의 형태로 전달하기도 한다. 현대에는 기술이 점점 발전하고 한 매체가 담을 수 있는 용량이 커지면서 통용되는 데이터량이 늘어나고 있고, 또한 개개인의 삶이 하나의 컨텐츠가 되면서 사회 전체적으로 유통되는 데이터량이 급증하고 있는 추세이다. 이러한 사회적 추이를 따라 영상을 효과적으로 운용하는 중요성이 대두되고 있고, 이를 위해 그 데이터량을 효과적으로 관리하는 다양한 압축 기술에 대한 연구가 이루어지고 있다. 최근 국내에서 5G 통신 기술이 상용화되는 것을 보면서도 알 수 있듯이 기술이 발전함에 따라 처리해야하는 데이터량이 많이졌고 많은 데이터량을 처리하는 속도도 발전하였지만 많은 데이터량을 효율적으로 줄이는 방법도 매우 중요해졌다. 이점에 착안하여 본 논문은 JPEG 인코더를 구현해봄으로써 영상의 효율적인 압축에 대한 이해도를 높이고 압축 자체에 대한 개념을 깊이 있게 함양하기 위해 본 연구 주제를 선정하였다.

  • PDF

단락에 대한 이산 추론을 요구하는 한국어 기계 독해 (Reading Comprehension requiring Discrete Reasoning Over Paragraphs for Korean)

  • 김경민;서재형;이수민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.439-443
    • /
    • 2021
  • 기계 독해는 단락과 질의가 주어졌을 때 단락 내 정답을 찾는 자연어 처리 태스크이다. 최근 벤치마킹 데이터셋에서 사전학습 언어모델을 기반으로 빠른 발전을 보이며 특정 데이터셋에서 인간의 성능을 뛰어넘는 성과를 거두고 있다. 그러나 이는 단락 내 범위(span)에서 추출된 정보에 관한 것으로, 실제 연산을 요구하는 질의에 대한 응답에는 한계가 있다. 본 논문에서는 기존 범위 내에서 응답이 가능할 뿐만이 아니라, 연산에 관한 이산 추론을 요구하는 단락 및 질의에 대해서도 응답이 가능한 기계 독해 모델의 효과성을 검증하고자 한다. 이를 위해 영어 DROP (Discrete Reasoning Over the content of Paragraphs, DROP) 데이터셋으로부터 1,794개의 질의응답 쌍을 Google Translator API v2를 사용하여 한국어로 번역 및 정제하여 KoDROP (Korean DROP, KoDROP) 데이터셋을 구축하였다. 단락 및 질의를 참조하여 연산을 수행하기 위한 의미 태그를 한국어 KoBERT 및 KoELECTRA에 접목하여, 숫자 인식이 가능한 KoNABERT, KoNAELECTRA 모델을 생성하였다. 실험 결과, KoDROP 데이터셋은 기존 기계 독해 데이터셋과 비교하여 단락에 대한 더욱 포괄적인 이해와 연산 정보를 요구하였으며, 가장 높은 성능을 기록한 KoNAELECTRA는 KoBERT과 비교하여 F1, EM에서 모두 19.20의 월등한 성능 향상을 보였다.

  • PDF

ISNI Korea 컨소시엄의 저작권 권리 단체 데이터 공동 활용을 위한 기술요소 도출 연구 (A Study on Derivation of Technical Elements for Joint Use of Copyright Rights Group Data by ISNI Korea Consortium)

  • 박진호;곽승진;이승민;오상희
    • 한국비블리아학회지
    • /
    • 제31권1호
    • /
    • pp.379-392
    • /
    • 2020
  • 본 연구는 한국 인명, 단체명에 대한 등록 책임기관인 국립중앙도서관이 중심이 되어 운영중인 ISNI Korea 컨소시엄의 데이터 활용성을 높이기 위한 기술 요소를 제시하는 것이 목적이다. ISNI Korea 컨소시엄의 경우는 서지 관련 개인, 단체명 정보 외에 다양한 창작물 관련 정보 등록을 목적으로 한다. 이를 위해 본 연구에서는 데이터 제공기관 협의체인 ISNI Korea 컨소시엄인 저작권 단체의 메타데이터 현황과 ISNI의 링크드 데이터 명세서를 검토하여 향후 필요한 기술 요소를 도출하였다. 그 결과 메타데이터 측면에서는 데이터 입수, 정제, 저장, 식별자 관리, 컨소시엄 메타데이터 관리로 총 5개, 링크드 데이터 관점에서 RDF 데이터 관리(저장소), RDF 데이터 발행, RDF 데이터 검색, RDF 데이터 조회, RDF 데이터 다운로드, 온톨로지 조회, 표준용어 조회, 매핑 정보 관리 총 8개 기술요소를 도출하였다.

교육청 공무원의 데이터 활용실태 및 교육 빅데이터 활용에 관한 인식 연구 - A도교육청을 중심으로 (A Study on Perception of Educational Big Data Utilization and Current State of Data Utilization of Officials of the Provicial Office of Education)

  • 신종호
    • 디지털융복합연구
    • /
    • 제18권9호
    • /
    • pp.39-47
    • /
    • 2020
  • 본 연구는 교육청 공무원들의 데이터 활용 실태와 빅데이터 활용에 대한 인식을 조사하여 광역시·도교육청 차원에서의 빅데이터 활용을 위한 시사점을 도출하고자 하였다. 이를 위하여 A도교육청 공무원 440명을 대상으로 온라인 설문을 진행하였다. 조사결과 교육청 공무원들이 업무에 활용하는 데이터 유형과 출처는 다양하였으며, 데이터 활용에 있어 데이터 수집 및 정제가 가장 어려운 부분으로 인식하고 있었다. 그러나 데이터 활용을 위한 소속 교육청의 인프라는 부족한 실정으로, 빅데이터 인프라 구축이 가장 필요한 요소인 것으로 나타났다. 빅데이터에 대한 지식수준은 낮지만 빅데이터 활용의 관심과 필요성을 높게 인식하고 있었다. 빅데이터 활용 목적은 현재의 교육 문제점과 해결 대안, 미래 예측에 대한 전망과 해결, 교육 수요자들의 요구 파악 등 교육정책 의제 설정과 관련되어 있었다.

RFID 데이터 이벤트 처리 기법 연구 (A Study and Analysis of Event Processing method for RFID data)

  • 임용훈;현덕화;이범석;주성호;최효열;김태경
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2006년도 제37회 하계학술대회 논문집 D
    • /
    • pp.2140-2141
    • /
    • 2006
  • RFID 기술은 모든 사물에 태그를 부착하여 전파를 이용하여 사물에 대한 정보를 자동으로 인식하고 이를 실시간으로 네트워크에 연결하여 정보를 관리하는 기술이다. RFE에 기반한 어플리케이션은 사용자의 요구에 의한 응용프로그램과 달리 태그의 인식이 프로그램 실행을 발생하게 하므로 실시간이벤트 처리, 실시간 이벤트 모니터링을 처리가 가장 중요하다. 하지만 리더로부터 인식된 태그 데이터가 아무런 정제 작업 없이 직접 응용어플리케이션에 전달되게 된다면 불필요한 연산을 수행하게 되어 성능이 저하되는 요인이 된다. RFID 미들웨어의 주된 역활은 리더기와 응용시스템 사이에 데이터들을 전송하는데 있다. 따라서 태그 데이터 처리 기능을 통해 응용 시스템에 신뢰성 있는 정보제공은 미들웨어에서 중요한 기능을 수행하게 된다. 본 논문에서는 응용시스템에 신뢰성 있는 데이터 전송에 필수 기능인 불필요한 이벤트를 제거하는 필터링 기능을 위한 프레임워크 설계, 구현하였다

  • PDF

IIoT 미들웨어 플랫폼을 활용한 연속 제조공정의 환경센서 빅데이터 정제시스템 (Big Data Refining System for Environmental Sensor of Continuous Manufacturing Process using IIoT Middleware Platform)

  • 윤여진;김태형;이준희;김영곤
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권4호
    • /
    • pp.219-226
    • /
    • 2018
  • 산업용 사물인터넷(IIoT:Industrial Internet of Thing)은 기존의 공정의 자동화란 범주를 넘어 모든 제조공정을 정보화 하는 것을 의미한다. 또한 각 공정에 설치된 센서로 부터 수집되는 데이터를 토대로 정보화 시스템을 구축하여 각 공정을 실시간으로 관리하고 자동화하여 최적의 생산성을 유지하는데 그 목적을 두고 있다. 각 공정의 센서로 부터 수집되는 데이터는 비정형성을 띄고 있으며 이러한 비정형데이터를 효과적으로 수집하고 처리하기 위해 많은 연구가 이루어지고 있다. 본 논문에서는 효과적인 빅데이터 수집 및 처리를 위하여 미들웨어로 Node-RED를 사용한 시스템을 제안하였다.