• 제목/요약/키워드: 데이터 종류

검색결과 2,136건 처리시간 0.034초

영화도메인 한국어 감성사전의 자동구축과 평가 (Automatic Construction and Evaluation of Movie Domain Korean Sentiment Dictionary)

  • 조희련;최상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 춘계학술발표대회
    • /
    • pp.585-587
    • /
    • 2015
  • 본 연구에서는 네이버 영화평을 학습데이터로 사용하여 영화평 감성분류에 필요한 감성사전을 자동으로 구축하는 방법에 대해 제안한다. 이 때 학습데이터의 분량과 긍정/부정 영화평의 비율을 달리하여 네 가지의 학습데이터를 마련하고, 각 경우에 대하여 감성사전과 나이브베이즈(이하, NB) 분류기를 구축한 후, 이 둘의 성능을 비교했다. 네 종류의 학습데이터로 구축한 감성사전과 NB 분류기를 이용하여 영화평 감성 자동분류 성능을 비교한 결과, 네 경우의 평균 균형정확도는 감성사전이 78.2%, NB 분류기가 66.1%였다.

다중축척 데이터베이스 구축을 위한 CASE 도구 (A CASE Tool for Building Multi-Scale Databases)

  • 이성희;강혜경;이기준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.198-200
    • /
    • 1999
  • 공간 데이터베이스 구축을 효과적으로 하는 방법중의 하나는 대축척 공간 데이터베이스를 이용하여 여러 종류의 다중축척 데이터베이스를 구축하는 것이다. 다중축척 데이터베이스의 구축에는 많은 작업들이 포함된다. 기하학적 변형이나 불필요한 객체의 단순화, 삭제 등의 일반화와 데이터 모델의 변형, 그리고 데이터베이스의 전환 과정에 포함된다. 이 작업은 매우 다양한 처리과정을 요구하기 때문에 자동화된 도구의 도움을 필요로 한다. 본 논문에서는 다중축척 데이터베이스 구축에 이용되는 작업을 지원하는 CASE 도구를 소개한다. 이 도구는 지도 일반화에 의해 발생되는 데이터 모델의 변화에 대한 규칙에 따라 새로운 소축척의 데이터베이스의 데이터 모델을 설계하는 작업을 지원하며, 이 데이터 모델에 따라 대축척의 데이터베이스를 소축척의 데이터베이스로 전환하는 기능을 지원한다.

  • PDF

산업감시 및 제어 응용을 위한 이력 데이터, 트랜잭션 그리고 데이터베이스 (Historical Data, Transaction and Database for Industrial Monitoring and Control Applications)

  • 한상혁;김영국
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1051-1053
    • /
    • 2012
  • SCADA, DCS, PLC 등 산업제어시스템은 전기, 수도, 수송, 가스 및 석유와 같은 국가기반시설의 감시 및 제어를 통해 위험의 조기 예측, 대응, 각 공정의 품질 향상 등에 기여하고 있다. 산업제어시스템은 HMI(Human Machine Interface), 이력 데이터베이스, 각 센서 H/W 및 S/W 기술로 구성되는데, 그 중 이력 데이터베이스는 실시간으로 들어오는 디지털 및 아날로그 형태의 이력 데이터에 대한 효과적으로 처리하기 위한 주요 요소이다. 현재, 국내에서는 히스토리안 등 주로 외산 제품에 의존하고 있어 이에 대한 기반 기술 연구 및 관련 산업화가 요구된다. 또한, 이력 데이터베이스의 종류 및 특성에 대한 연구가 선행되어야 한다. 본 논문에서는 산업제어시스템에 주로 적용된 이력 데이터베이스들에 대해 자세히 살펴보고, 일반적으로 사용되는 데이터와 산업제어시스템에서 사용하는 이력 데이터와 트랜잭션의 특징을 살펴봄으로써 산업제어 응용에서 요구되는 이력 데이터베이스가 어떤 모습을 갖추어야 할 지에 대한 이해를 높이고자 한다.

MLC 낸드플래시 분석 프로그램 구현 (An Implementation of MLC NAND Flash Analyer)

  • 오현수;이종태;최석환;전중남
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.946-949
    • /
    • 2012
  • 일반적으로 낸드플래시는 Matlab이나 간단한 프로그램 언어를 통하여 분석하는 경우가 많았다. 그 이유는 많은 데이터와 공정마다 변하는 데이터 format 그리고 여러 가지 분석방법의 다양성이 그 이유이다. 그 때문에 분석시간과 분석의 정형화가 이루어지지 않았다. 본 논문의 낸드플래시의 분석을 정형화 하였고, DB를 이용하여 많은 양의 테스트데이터를 관리 하였다. 또한 여러 종류의 테스트데이터 format에 대하여 범용 적으로 사용할 수 있도록 제작 하였다. 제작된 분석기는 낸드플래시의 CCI특성 및 EW cycle과 retention에 대한 stress resistance를 분석할 수 있다. 객체지향 으로 설계가 되어 추후 유지 보수를 용이하게 설계하였다.

반도체 설비 센서 데이터를 활용한 딥러닝 기반의 불량예측 모델에 관한 연구 (A Study on the Deep Learning-Based Defect Prediction Model Using Sensor Data of Semiconductor Equipment)

  • 하승재;이원석;구교연;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.459-462
    • /
    • 2021
  • 본 연구는 반도체 제조 공정중 발생하는 센서 데이터를 활용하여 딥러닝기반으로 불량을 예측하는 모델을 제안한다. 반도체 공장에서는 FDC((Fault Detection and Classification)라는 불량을 예측하는 시스템이 있지만, 공정의 복잡도가 높고 센서의 종류가 많아 공정 관리자가 모든 센서의 기준을 설정 및 관리하는데 한계가 있다. 이를 해결하기 위해 공정 설비의 센서 데이터를 딥러닝을 활용하여 학습시켜 센서 기준정보로 임계치를 제공하고, 가공중 발생하는 센서 데이터가 입력되면 정상 여부를 판정하는 모델을 제안한다.

센싱 데이터 수집을 위한 웹 기반의 플랫폼 설계 (Design of Web-based Platform for Gathering of Sending Data)

  • 김유두
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.579-580
    • /
    • 2021
  • 다양한 센서에서 발생하는 데이터를 효과적으로 수집하기 위해서는 각 센서에서의 임베디드된 플랫폼을 활용하는 방법이 가장 대표적이다. 하지만 임베디드된 플랫폼은 다양한 종류의 센서마다 모두 구현이 다르게 되어있어 한번에 적용하기 어렵게 되어있다. 이에 본 논문에서는 다양한 센싱 데이터를 하나의 플랫폼에서 쉽게 수집하고 관리할 수 있는 웹 기반의 데이터 수집 플랫폼을 제안하고자 한다.

  • PDF

스마트홈 환경에서 활동 데이터를 활용한 랜덤포레스트 기반 침입탐지 기법 (Random Forest Based Intrusion Detection Method using Activity Data in Smart Home Environment)

  • 이필원;신용태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.193-195
    • /
    • 2020
  • 최근 IoT 기술의 발전을 통해 스마트홈 서비스가 사용자에게 활발하게 보급이 되고 있다. 스마트홈 서비스에서 발생하는 데이터는 개인정보를 내포하고 있으므로 보안이 매우 중요한 요소이다. 그러나 매해 스마트홈 해킹 신고가 증가하고 있으며 기존 네트워크 침입탐지 시스템은 관리자 계정을 탈취 당했을 경우 대응할 방법이 미비하다. 본 논문에서는 스마트홈 환경에서 발생하는 활동 데이터를 인공지능 알고리즘의 종류 중 하나인 랜덤포레스트를 통해 학습하고 분류모델을 구현했다. 구현한 모델은 87%이상의 높은 정확도로 측정되었다. 따라서 활동 데이터를 통해 분류를 시행하므로 네트워크에 이미 침입한 사용자를 탐지하여 대응할 수 있다.

최장 공통 부분 서열과 극대 공통 부분 서열의 길이 비교 및 분석 (Comparison and Analysis of Lengths of Longest Common Subsequence and Maximal Common Subsequence)

  • 이동엽;나중채
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.15-18
    • /
    • 2021
  • 최장 공통 부분 서열(Longest Common Subsequence, LCS)은 서열 유사도(Similarity)를 측정하기 위한 주요 지표 중 하나로 특별한 가정이 없는 한 두 문자열의 LCS 를 계산하기 위해서는 두 문자열의 길이의 곱에 비례하는 시간이 필요하다. 최근 최장(longest)이라는 조건을 극대(maximal)로 완화한 극대 공통 부분 서열(Maximal Common Subsequence, MCS)이 제시되었고, 두 문자열의 MCS 를 선형에 가까운 시간에 찾는 알고리즘이 개발되었다. 극대는 최장을 보장하지 않기 때문에 두 문자열의 MCS 길이는 LCS 길이와 달리 유일하지 않을 수 있고, LCS 길이가 매우 길어도 길이가 1인 MCS가 존재할 수도 있다. 본 논문에서는 기존 알고리즘에 의해 계산되는 MCS 의 효용성을 알아보기 위해, DNA 등 여러 종류의 실제 데이터와 랜덤 생성된 데이터에 대해 LCS 와 MCS 의 길이를 비교했다. MCS 길이는 LCS 길이 대비 실제 데이터에서 32.1 ~ 60.2%, 랜덤 데이터에서는 27.5 ~ 62.9%로 나타났다. 이 비율은 문자열을 이루고 있는 알파벳 수가 많을수록, 문자열의 길이가 길어질수록 감소했다.

k-평균 군집화 기법을 활용한 SNS의 부적절한 광고성 콘텐츠 탐지 (Detection of inappropriate advertising content on SNS using k-means clustering technique)

  • 이동환;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.570-573
    • /
    • 2021
  • 오늘날 SNS를 사용하는 사람들이 증가함에 따라, 생성되는 데이터도 많아지고 종류도 매우 다양해졌다. 하지만 유익한 정보만 존재하는 것이 아니라, 부정적, 반사회적, 사행성 등의 부적절한 콘텐츠가 공존한다. 때문에 사용자에 따라 적절한 콘텐츠를 필터링 할 필요성이 증가하고 있다. 따라서 본 연구에서는 SNS Instagram을 대상으로 콘텐츠의 해시태그를 수집하여 데이터화 했다. 또한 k-평균 군집화 기법을 적용하여, 유사한 특성의 콘텐츠들을 군집화하고, 각 군집은 실루엣 계수(Silhouette Coefficient)와 키워드 다양성(Keyword Diversity)을 계산하여 콘텐츠의 적절성을 판단하였다.

Keras를 이용한 대기오염이 유해질환에 미치는 위험 예측 시스템 (A Risk Prediction System of Air Pollution Influencing Diseases Utilzing Keras)

  • 이지수;이유정;윤수한;문유진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제65차 동계학술대회논문집 30권1호
    • /
    • pp.11-12
    • /
    • 2022
  • 이 연구는 대기오염과 미세먼지의 각 성분이 질환에 미치는 영향에 대한 데이터만 존재한다면 어떠한 질환이든 위험도 예측 결과를 알 수 있는 것에 의미가 있다. 또한 기존의 대기정보에 따른 정보를 예상하는데 필요한 데이터 종류와 수가 많았으며 계산의 복잡성이 높았고 정보의 제공 범위가 넓었다. 하지만 이 연구는 과거 대기 데이터와 딥러닝을 통해서 낮은 비용으로 더욱 자세하게 유해질환 위험도를 예측하는 시스템을 구축하였다. 이 연구에서 구축한 시스템은 예측 결과 88.9%의 정확도를 보였다. 이 시스템은 입력되는 데이터의 정보에 따라 세분화된 지역의 대기환경 정보 또한 파악 가능하며 그 과정이 매우 간편하고 유용하다. 이 시스템은 공기질 예측을 위해 유용하게 사용될 수 있을 것이라고 사료된다.

  • PDF