• 제목/요약/키워드: Electronic Data Collection

검색결과 218건 처리시간 0.02초

XGBoost와 교차검증을 이용한 품사부착말뭉치에서의 오류 탐지 (Detecting Errors in POS-Tagged Corpus on XGBoost and Cross Validation)

  • 최민석;김창현;박호민;천민아;윤호;남궁영;김재균;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권7호
    • /
    • pp.221-228
    • /
    • 2020
  • 품사부착말뭉치는 품사정보를 부착한 말뭉치를 말하며 자연언어처리 분야에서 다양한 학습말뭉치로 사용된다. 학습말뭉치는 일반적으로 오류가 없다고 가정하지만, 실상은 다양한 오류를 포함하고 있으며, 이러한 오류들은 학습된 시스템의 성능을 저하시키는 요인이 된다. 이러한 문제를 다소 완화시키기 위해서 본 논문에서는 XGBoost와 교차 검증을 이용하여 이미 구축된 품사부착말뭉치로부터 오류를 탐지하는 방법을 제안한다. 제안된 방법은 먼저 오류가 포함된 품사부착말뭉치와 XGBoost를 사용해서 품사부착기를 학습하고, 교차검증을 이용해서 품사오류를 검출한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로 일반적인 분류기로서 오류를 검출할 수 없다. 따라서 본 논문에서는 매개변수를 조절하면서 학습된 품사부착기의 출력을 비교함으로써 오류를 검출한다. 매개변수를 조절하기 위해서 본 논문에서는 작은 규모의 오류부착말뭉치를 이용한다. 이 말뭉치는 오류 검출 대상의 전체 말뭉치로부터 임의로 추출된 것을 전문가에 의해서 오류가 부착된 것이다. 본 논문에서는 성능 평가의 척도로 정보검색에서 널리 사용되는 정밀도와 재현율을 사용하였다. 또한 모집단의 모든 오류 후보를 수작업으로 확인할 수 없으므로 표본 집단과 모집단의 오류 분포를 비교하여 본 논문의 타당성을 보였다. 앞으로 의존구조부착 말뭉치와 의미역 부착말뭉치에서 적용할 계획이다.

정책정보제공서비스에 대한 정책연구자 요구분석에 관한 연구 (A Study on Policy Researchers' Requirements for Policy Information Providing Service)

  • 노영희;심재윤
    • 한국문헌정보학회지
    • /
    • 제48권3호
    • /
    • pp.137-168
    • /
    • 2014
  • 본 연구에서는 정책정보서비스의 활성화를 위해 정책정보 수요자의 요구를 파악하고 그 이용행태를 분석함으로써 향후 우리나라 정책정보서비스 발전방향을 모색하고자 하였다. 이를 위해 설문조사 및 면담분석방법을 통해 정책정보이용자의 요구 및 이용행태를 분석하였으며, 그 결과는 다음과 같다. 첫째, 정책정보이용목적은 연구과제 수행과 정책동향 파악이 가장 높게 나타났고, 입수경로는 인터넷이 가장 높게 나타났다. 둘째, 전자자료를 이용하는 비율이 높게 나타났고, 국내자료 이용비율이 높았으며, 해외 자료 중에서는 미국자료 이용률이 매우 높게 나타났다. 셋째, 이용하는 자료의 최신성에 있어서 최근 2-5년 사이에 생산된 자료를 많이 이용하고, 많이 활용하는 자료유형은 Web DB(학술지, 학술기사, 전자저널 및 전자형태의 논문 포함) 및 보고서로 나타났으며, 요구도도 가장 높게 나타났다. 넷째, 정책정보활용 효율성 고도화 방안에 대한 조사에서는 정부기관 소속 자료실간 협력, 정책정보 생산기관간 협력, 정책정보의 총체적 관리기관을 중심으로 한 국가정책정보의 총체적 수집이 매우 높게 나타났다.

대학도서관의 수업·학습 활동 지원 역할에 관한 연구 (A Study on the Roles of Academic Library for Supporting Class and Learning Activities in Korea)

  • 이용재;이지욱
    • 한국도서관정보학회지
    • /
    • 제50권4호
    • /
    • pp.359-379
    • /
    • 2019
  • 이 연구의 목적은 국내 대학도서관이 이용자를 위한 수업 및 학습활동 지원을 강화할 수 있는 방안을 제시하는 것이다. 이를 위하여, 전국 대학도서관의 발전계획서를 수집하고 발전계획서에 나타난 수업 및 학습 활동 지원 계획을 분석하였다. 연구의 결과, 가장 많은 도서관들이 '학습자료 확충'을 중시하여 발전계획서에서 추진계획을 밝힌 것으로 나타났다. 다음으로 '독서교육 및 독서프로그램 확대', '전자자료 확충', '특성화자료 확충' 순으로 실행계획을 제시하였다. 이 연구는 대학도서관의 수업 및 학습활동 지원 강화 방안으로 '수용자 중심의 장서개발 및 학습자료 확충', '빅데이터를 활용한 도서관 서비스 활성화', '장애인 및 외국인 학생을 위한 포용서비스 확대'를 제시하였다.

DSP 보드를 이용한 가상의 리더와 태그 에뮬레이터 시스템 구현 (Implementation of Virtual Reader and Tag Emulator System Using DSP Board)

  • 김영춘;주해종;최혜길;조문택
    • 한국산학기술학회논문지
    • /
    • 제11권10호
    • /
    • pp.3859-3865
    • /
    • 2010
  • 신호를 생성할 수 있는 상용 신호 생성 장치 그리고 데이터 수집 장비와 DSP 보드를 이용하여 가상의 리더와 태그를 모델링 한 에뮬레이터 시스템을 구현했다. 개발한 가상의 UHF RFID(860~960[MHz]) 리더/태그 모듈을 이용하여 개발한 RFID 리더와 태그의 프로토콜 및 RF 특성 등이 국제 표준 규격(ISO 18000-6 Type C, EPCglobal C1G2)에 적합 여부를 검증할 수 있는 방법을 제공해 줄 수 있게 하였다. 본 논문에서 제안한 가상의 리더 모델과 태그 모델을 구현하기 위해 DSP 보드를 이용하여 Visual DSP로 구현하였으며, 시스템의 신호발생기, 신호 분석기, 성능 검증 대상 리더 또는 태그, RFID 에뮬레이터 제어 컴퓨터 및 제어 프로그램으로 구성하였다.

FDDI 기반 실시간 데이타 수집 네트워크에서의 최선노력 오류제어 기법 (A Best-Effort Control Scheme on FDDI-Based Real-Time Data Collection Networks)

  • 이정훈;김호찬
    • 한국정보과학회논문지:정보통신
    • /
    • 제28권3호
    • /
    • pp.347-354
    • /
    • 2001
  • 본 논문은 FDDI에 기반한 경성 실시간 네트워크에서 메시지의 종료시한을 고려하여 주기내 전송을 지원하는 오류제어 기법을 제안하고 그 성능을 분석 및 평가한다. 오류제어 과정에서 필수적인 재전송 요구와 오류발생 메시지의 재전송 과정이 일반적인 실시간 메시지의 전송에 영향을 주지 않도록 하기 위하여 재전송 요구는 FDDI 매체 접근 제어 프로토콜이 지원하는 비동기 대역폭을 이용하여 수행되며 재전송 과정은 대역폭 할당 알고리즘이 불가피하게 생성한 과할당된 대역폭을 이용한다. 또 재전송 요청시점을 결정하기 위해 수신자는 자신이 수신한 토큰의 수를 계수한다. 분석 결과와 SMPL을 이용한 실험 결과는 제안된 방식이 실시간 통신을 위한 오류제어 기능으로서 네트워크 오류를 극복하여 메시지의 종료시한 만족도를 증가시킬 수 있으며 이중화된 네트워크에 비견할 만한 성능을 보임으로써 저비용으로 실시간 네트워크를 구축할 수 있음을 보인다.

  • PDF

디지털도서관의 저작권보호 환경 평가 연구 (An Evaluation Study on the Copyright Protection Environment for Digital Libraries)

  • 이종문
    • 정보관리학회지
    • /
    • 제19권3호
    • /
    • pp.211-326
    • /
    • 2002
  • 본 연구는 디지털도서관의 복제.전송과 관련된 저작권보호 환경을 조사하여 분석 평가하고, 제반문제점을 식별하여 개선방안을 제시하는 데 있다. 데이터수집은 저작권법에 의하여 디지털복제 전송이 허용된 50개 도서관을 대상으로, 시스템 도입 및 복제 \ulcorner전송 현황을 조사하고, 저작권법에서 의무화한 6개 기술조치를 이행한 5개 도서관 이용자를 표집하여 디지털자료의 이용 및 저작권에 대한 인식을 조사하였고, 기초통계량을 고찰하고 빈도분석과 교차분석을 수행하였다. 분석결과, 산업대학 도서관을 제외한 거의 모든 도서관이 디지털도서관시스템을 도입하고 있으나. 디지털복제(68.0%) .전송시스템(84.0%) 도입비율은 높은 반면, 저작권보호시스템(26.0%) 도입비율은 낮다. 조사대상 도서관의 84.0%가 전문을 디지털화하고 있으나, 대부분 5천건 미만의 자료를 디지털화하였으며. 저작권을 확보하여 터지털화하는 도서관은 33.3%로 낮게 나타났다. 저작권보호를 위한 법적 규제가 제대로 이행되지 못하고 이행 수준도 낮으며, 이용자의 전자책에 대한 인지도와 이용률은 낮은 편이며 저작권에 대한 인식 또한 낮다.

핀테크(fintech) 사용자와 시스템 특성이 지각된 인식과 지속사용의도에 미치는 영향 (The Effects of Characteristics of User and System on the Perceived Cognition and the Continuous Use Intention of Fintech)

  • 이준상;박준홍
    • 한국융합학회논문지
    • /
    • 제9권1호
    • /
    • pp.291-301
    • /
    • 2018
  • 본 연구는 핀테크 사용자 및 시스템 특성이 지각된 인식과 지속사용의도에 미치는 영향을 주는 요인이 무엇인지를 살펴보았다. 자료수집은 광주광역시에 거주하고, 스마트폰 등을 사용하는 직장인 등을 대상으로 600명의 설문을 수행하였다. 연구결과, 첫째, 사용자들은 핀테크 서비스에 대한 자기효능, 혁신성, 적합성은 핀테크 서비스의 지각된 인식과 사용의도에 영향을 미치는 것으로 나타났다. 둘째, 시스템 특성은 핀테크 서비스의 지각된 인식 및 사용의도에 긍정적인 영향을 미치는 것으로 나타났다. 셋째, 사용자 특성과 시스템 특성에서 위험성에 대한 가설은 기각되었는데, 개인정보 및 전자금융거래가 유출에 의한 금융사기 등의 피해사례가 급증함에 따라 개인정보유출 및 보안에 대한 우려를 가장 우선시하는 것으로 보인다. 따라서 핀테크 서비스를 확산시키기 위해서는 기업의 마케팅 전략으로 편리성과 사용의도를 저해하는 위험성 등의 불편사항을 제거해 줄 수 있는 핀테크 서비스 전략이 수립되면 효과적일 것이라고 사료된다.

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 (Keyword Extraction from News Corpus using Modified TF-IDF)

  • 이성직;김한준
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.59-73
    • /
    • 2009
  • 키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

  • PDF

고속도로 관리자간 상호 연계체계 수립에 관한 고찰(한국토로공사가 관리하는 노선을 중심으로) (A Consideration on Connecting Operations among Freeway Management Companies)

  • 이기영;김동녕;손의영;이청원
    • 대한교통학회지
    • /
    • 제24권4호
    • /
    • pp.19-29
    • /
    • 2006
  • 향후 민자고속도로의 건설이 확대됨에 따라 서로 다른 교통관리체계 및 요금정산체계를 가진 여러 관리회사들이 하나의 도로망을 형성하게 될 경우, 장거리를 주행하는 이용자는 각기 다른 회사가 관리하는 노선으로 구성된 경로를 이용하게 될 것이며, 이로 인해 주행 중에 필요한 교통정보의 단절과 잦은 통행료 정산으로 이어지는 정차에 의해 불편함이 가중될 것이다. 따라서 각 기관이 상호 연계 가능한 관리범위를 선정하여 운영해야만 이러한 불편을 최소화할 수 있다. 본 연구에서는 각 관리회사가 이용자 서비스제고 측면에서 연계해야 하는 최소한의 범위를 선정하고 이를 위한 운영방안을 제시하고자 한다. 특히 이용자를 위한 연계범위로 크게 교통정보연계체계 및 영업연계체계로 나누어서 검토하였다. 세부사항으로 교통정보체계는 정보의 내용 및 제공방법에 있어서 각 기관이 고려해야 할 주요 사항을 위주로, 영업체계는 각 정산방식별로 구분하여 상호 연계방안을 제시하였다. 본 연구 결과는 향후 다수의 고속도로관리회사가 설립될 때, 이용자의 편의를 도모하기 위한 상호 연계방향 수립에 유용하게 활용될 것이다.

다차선 서비스를 제공하는 자동요금징수시스템을 위한 RFID 기반 SME 알고리즘 (RFID based the SME algorithm for the multi-lane-supproted ETCS)

  • 차진;정종인;장상우;이상선
    • 한국통신학회논문지
    • /
    • 제37권1C호
    • /
    • pp.8-16
    • /
    • 2012
  • 현재 고속도로 Tollgate의 단 차선에 성공적으로 시범설치 운영되고 있는 자동 요금 징수 시스템을 다차선에 서비스하기 위해 단거리 전용 통신 중 RF-DSRC 무선 통신 기술을 활용하고자 하였다. 본 논문에서는 RF-DSRC 통신의 기술적인 문제점을 해결하기 위해 데이터 흐름 및 형식을 RFID 통신 기술에 접목한 새로운 SME 알고리즘을 제안하였다. 또한 본 논문에서 제시하는 SME 알고리즘의 평가를 위하여 자동 요금 징수 시스템과 900Mhz RFID를 기반으로 실험을 수행하였다. RFID의 속도별 인식 실험과 RFID 내 정보 인식 정확성 실험 결과로 70Km/h 미만의 속도까지 RFID를 인식하고 90%이상의 인식 정확성을 갖는 것을 알 수 있다.