• Title/Summary/Keyword: pre-processing step

검색결과 139건 처리시간 0.024초

시간흐름을 고려한 특징 추출과 군집 분석을 이용한 헬스 리스크 관리 (Health Risk Management using Feature Extraction and Cluster Analysis considering Time Flow)

  • 강지수;정경용;정호일
    • 한국융합학회논문지
    • /
    • 제12권1호
    • /
    • pp.99-104
    • /
    • 2021
  • 본 논문에서는 시간 흐름을 고려한 특징추출과 군집분석을 이용한 헬스 리스크 관리를 제안한다. 제안하는 방법은 세단계로 진행한다. 첫 번째는 전처리 및 특징추출 단계이다. 이는 웨어러블 디바이스를 이용하여 라이프로그를 수집하여 불완전데이터, 에러, 잡음, 모순된 데이터를 제거하며 결측 값을 처리한다. 그 다음 특징추출을 위해 주성분 분석을 통해 중요 변수를 선택하고, 상관계수와 공분산을 통해 데이터 간의 관계와 유사한 데이터들의 분류를 진행한다. 또한 라이프로그에서 추출한 특징을 분석하기 위해 시간의 흐름을 고려하여 K-means 알고리즘을 통해 동적 군집을 진행한다. 새로운 데이터는 오차 제곱합의 증가분을 기반으로 유사성 거리 측정 방법을 통해 군집을 진행하고, 시간의 흐름을 고려하여 군집에 대한 정보를 추출한다. 따라서 특징 군집을 통해 헬스 의사결정 시스템을 이용하여 신체적 특성, 생활습관, 질병여부, 헬스케어 이벤트 발생위험, 예상 정도 등의 요소를 통해 리스크를 관리할 수 있다. 성능평가는 Precision, Recall, F-measure을 사용하여 제안하는 방법과 퍼지방법, 커널기반 방법을 비교한다. 평가결과 제안하는 방법이 우수하게 평가된다. 따라서 제안하는 방법을 통해 유병자와의 유사도를 이용하여 정확한 사용자의 잠재적 건강 위험을 예측 및 적절한 관리가 가능하다.

스택-포인터 네트워크와 부분 트리 정보를 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Stack-Pointer Networks and Subtree Information)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.235-242
    • /
    • 2021
  • 본 연구에서는 포인터 네트워크 모델을 의존 구문 분석에 맞게 확장한 스택-포인터 네트워크 모델을 이용하여 한국어 의존 구문 분석기를 구현한다. 스택-포인터 네트워크 모델 기반 의존 구문 분석기는 인코더-디코더로 구성되어 있으며 다른 의존 구문 분석기와 달리 내부 스택을 갖고 있어 루트부터 시작하는 하향식 구문 분석이 가능하다. 디코더의 각 단계에서는 의존소를 찾기 위해 부모 노드뿐만 아니라 이미 파생된 트리 구조에서 조부모와 형제 노드를 참조할 수 있다. 기존 연구에서는 단순하게 해당 노드들의 합을 계산하여 입력으로 사용하였고, 형제 노드의 경우에는 가장 최근에 방문했던 것만을 사용할 수 있었다. 본 연구에서는 그래프 어텐션 네트워크를 도입하여 이미 파생된 부분 트리를 표현하고 이를 스택-포인터 네트워크의 입력으로 사용하도록 구문 분석기를 수정한다. 세종 코퍼스와 모두의 코퍼스를 대상을 실험한 결과 레이어 2의 그래프 어텐션 네트워크를 이용하여 부분 트리를 표현했을 때 특히 문장 단위의 구문 분석 정확도에서 많은 성능 향상을 확인할 수 있었다.

학술논문 내에서 참고문헌 정보가 포함된 서지 메타데이터 자동 생성 연구 (Automatic Generation of Bibliographic Metadata with Reference Information for Academic Journals)

  • 정선기;신현호;지선영;최성필
    • 한국문헌정보학회지
    • /
    • 제56권3호
    • /
    • pp.241-264
    • /
    • 2022
  • 서지정보는 연구 주제의 최신 동향의 인지와 유용성을 검증하는 데에 참고할 수 있다. 즉, 각자 연구자들이 필요로 하는 문헌에 신속하게 접근하기 위해서는 학술논문에서 저자 정보, 요약, 초록, 참고문헌 등을 쉬운 방법으로 파악해야 한다. 그러나, 현재 출판되는 PDF 형식의 전자 학술논문은 출판 주체별로 고유한 양식을 띄고 있어서, 몇몇 특징에 의한 규칙 기반 추출법으로는 수많은 문헌에서 목표 정보를 추출하여 요약된 서지사항으로 자동 생성하기 어렵다. 이에 본 연구는 학술논문 서지사항 자동 생성에 있어서 양식의 다양성으로 인한 메타데이터 자동 추출의 난점을 극복할 방법을 제안한다. 제안하는 모델은 서지사항이 주로 기술되는 학술논문의 첫 페이지에서 목표 영역과 본문의 시작점을 구분할 수 있는 심층신경망 기반 모델과 앞의 모델로 추출된 서지사항을 상세한 메타데이터로 분류하고 재생성하는 규칙 기반 모델로 구성된다. 제안하는 모델은 참고문헌 요약정보를 생성하는 모델도 포함하는데, 본문의 말미와 참고문헌 시작점의 분리, 그리고 개별 참고문헌 추출을 규칙 기반 방법으로 진행하고, 추출한 각개 참고문헌의 서지정보를 분류하는 데에 심층신경망을 이용하도록 구성하였다. 추가로, 논문 자체의 서지정보를 전후처리 없이 추출/생성하는 모델의 가능성을 확인하기 위하여 참고문헌 영역까지 아우르는 모델을 구축하여 비교 실험을 진행하였다. 실험 결과 본 논문에서 제안하는 방식이 서지정보를 전후처리 하지 않고 진행한 비교 실험에 비하여 더 높은 성능을 보였다.

저가형 모션 캡처 장비를 이용한 실시간 상호작용 애니메이션 시스템 (Real-time Interactive Animation System for Low-Priced Motion Capture Sensors)

  • 김정호;강다은;이윤상;권태수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제28권2호
    • /
    • pp.29-41
    • /
    • 2022
  • 본 논문에서는 대표적인 보급형 장비인 키넥트를 활용하여 실시간으로 사용자 캐릭터의 자세를 제어하고, 상대 캐릭터와 함께 자연스러운 상호작용 동작을 수행하는 실시간 상호작용 애니메이션 시스템을 소개한다. 해당 상호작용 애니메이션 시스템은 실시간으로 두 캐릭터의 상호작용 동작을 연출하는 시스템으로, 사용자는 키넥트를 이용한 자세 입력을 통해 사용자 캐릭터의 동작을 제어하고 상대 캐릭터는 사용자 캐릭터의 동작에 따라 반응하는데 이 반응 동작은 시스템에 의해 자동으로 결정된다. 전처리 과정은 예제 동작 데이터 정보를 사전에 관측 및 분석하여 맵핑 모델을 생성하고, 실시간 처리 과정에서는 사용자의 실시간 입력에 맞는 두 캐릭터의 자세(동작)을 실시간으로 생성 및 보정 후 최종 결과 애니메이션을 화면에 출력한다. 실험 결과를 통해 해당 시스템은 사용자의 입력 동작에 맞추어 상대 캐릭터는 적절한 대응 동작을 수행하고, 화면상의 두 캐릭터가 서로 상호작용 동작을 연출하는 것을 확인할 수 있다. 본 논문에서 제안하는 기술 및 아이디어는 응용하여 실제 사용자 상호작용 소프트웨어 개발에 적용할 수 있고, 이를 통해 사용자에게 더 나은 몰입감을 제공할 수 있을 것이다.

토픽모델링을 이용한 약어 중의성 해소 (Abbreviation Disambiguation using Topic Modeling)

  • 이운교;김자희;양준기
    • 한국시뮬레이션학회논문지
    • /
    • 제32권1호
    • /
    • pp.35-44
    • /
    • 2023
  • 최근 텍스트 분석으로 트렌드 분석이나 연구 동향 분석을 하는 연구 사례가 많다. 텍스트 분석을 위한 자료 수집에 사용되는 검색어가 약어일 때 약어의 특성상 의미 중의성 해소가 필요하다. 다수의 연구에서는 연구에 필요한 자료를 찾기 위해 수작업으로 자료를 하나씩 읽어 문서를 분류하고 있다. 약어의 의미 중의성 해소를 위한 연구는 단어의 의미를 명확화하는 연구가 대부분이고 지도학습을 이용하고 있다. 약어 중의성 해소를 위한 선행 방법은 약어로 검색된 자료에서 연구 대상 자료를 찾는 문서 분류에는 적합하지 않으며 관련 연구도 부족하다. 본 연구에서는 데이터 전처리 단계에서 비지도 학습 방법인 비음수 행렬 분해 방법으로 토픽 모델링을 진행하여 약어로 수집된 문서를 반자동으로 분류하는 방법을 제시한다. 이를 검증하기 위해 'MSA'라는 약어 검색어로 학술 데이터베이스에서 논문 자료를 수집했다. 수집된 논문 1,401편에서 제안된 방법으로 316편의 Micro Services Architecture와 관련된 논문을 찾았다. 제안된 방법의 문서 분류 정확도는 92.36%로 측정되었다. 제안된 방법이 수작업에 따른 연구자의 시간과 비용을 줄일 수 있기를 기대한다.

DNN 기법을 활용한 지하공동 데이터기반의 지반침하 위험 지도 작성 (Verification of Ground Subsidence Risk Map Based on Underground Cavity Data Using DNN Technique)

  • 김한응;김창헌;김태건;박정준
    • 한국재난정보학회 논문집
    • /
    • 제19권2호
    • /
    • pp.334-343
    • /
    • 2023
  • 연구목적: 본 연구에서는 지반공동탐사로 발견된 공동자료를 지하시설물과의 원인별 상관관계로 분석하고, AI 알고리즘 기반으로 지반침하 예측지도를 검증하여 시민에게 안전한 도로 환경을 제공하고자한다. 연구방법: 위험도 평가 관련 데이터조사와 빅데이터 수집, AI분석을 위한 데이터 전처리, 그리고 AI 알고리즘을 이용하여 지반침하 위험도 예측지도 검증 등 3가지 단계로 연구를 수행하였다. 연구결과:작성한 지반침하 위험 예측지도를 분석하여 부산시 부산진구와 사하구에 대해 긴급, 우선, 일반 3단계의 공동관리 위험등급 분포를 확인 할 수 있었다. 또한, 지반침하 위험 등급 예측 값을 도로노선의 구간별로 정리하여 긴급 등급이 포함된 도로가 부산진구는 총 61개구간 중 3개소, 사하구는 총 68개구간 중 7개소임을 확인하였으며 각 도로노선별 지반침하 위험 예측 순위를 파악하였다. 결론: 도출된 지반침하 위험 예측지도를 바탕으로 효율적으로 탐사구간을 설정하여 우선 조사, 선제 조치함으로써 시민들의 불안을 해소하고 효율적인 도로유지관리 및 보수, 제도의 개선 등의 부수적인 효과를 얻을 수 있다.

소셜미디어 콘텐츠의 오피니언 마이닝결과 시각화: N라면 사례 분석 연구 (Visualizing the Results of Opinion Mining from Social Media Contents: Case Study of a Noodle Company)

  • 김유신;권도영;정승렬
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.89-105
    • /
    • 2014
  • Web2.0의 등장과 함께 급속히 발전해온 온라인 포럼, 블로그, 트위터, 페이스북과 같은 소셜 미디어 서비스는 소비자와 소비자간의 의사소통을 넘어 이제 기업과 소비자 사이의 새로운 커뮤니케이션 매체로도 인식되고 있다. 때문에 기업뿐만 아니라 수많은 기관, 조직 등에서도 소셜미디어를 활용하여 소비자와 적극적인 의사소통을 전개하고 있으며, 나아가 소셜 미디어 콘텐츠에 담겨있는 소비자 고객들의 의견, 관심, 불만, 평판 등을 분석하고 이해하며 비즈니스에 적용하기 위해 이를 적극 분석하는 단계로 진화하고 있다. 이러한 연구의 한 분야로서 비정형 텍스트 콘텐츠와 같은 빅 데이터에서 저자의 감성이나 의견 등을 추출하는 오피니언 마이닝과 감성분석 기법이 소셜미디어 콘텐츠 분석에도 활발히 이용되고 있으며, 이미 여러 연구에서 이를 위한 방법론, 테크닉, 툴 등을 제시하고 있다. 그러나 아직 대량의 소셜미디어 데이터를 수집하여 언어처리를 거치고 의미를 해석하여 비즈니스 인사이트를 도출하는 전반의 과정을 제시한 연구가 많지 않으며, 그 결과를 의사결정자들이 쉽게 이해할 수 있는 시각화 기법으로 풀어내는 것 또한 드문 실정이다. 그러므로 본 연구에서는 소셜미디어 콘텐츠의 오피니언 마이닝을 위한 실무적인 분석방법을 제시하고 이를 통해 기업의사결정을 지원할 수 있는 시각화된 결과물을 제시하고자 하였다. 이를 위해 한국 인스턴트 식품 1위 기업의 대표 상품인 N-라면을 사례 연구의 대상으로 실제 블로그 데이터와 뉴스를 수집/분석하고 결과를 도출하였다. 또한 이런 과정에서 프리웨어 오픈 소스 R을 이용함으로써 비용부담 없이 어떤 조직에서도 적용할 수 있는 레퍼런스를 구현하였다. 그러므로 저자들은 본 연구의 분석방법과 결과물들이 식품산업뿐만 아니라 타 산업에서도 바로 적용 가능한 실용적 가이드와 참조자료가 될 것으로 기대한다.

잠재 토픽 기반의 제품 평판 마이닝 (Latent topics-based product reputation mining)

  • 박상민;온병원
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.39-70
    • /
    • 2017
  • 최근 여론조사 분야에서 데이터에 기반을 둔 분석 기법이 널리 활용되고 있다. 기업에서는 최근 출시된 제품에 대한 선호도를 조사하기 위해 기존의 설문조사나 전문가의 의견을 단순 취합하는 것이 아니라, 온라인상에 존재하는 다양한 종류의 데이터를 수집하고 분석하여 제품에 대한 대중의 기호를 정확히 파악할 수 있는 방안을 필요로 한다. 기존의 주요 방안에서는 먼저 해당 분야에 대한 감성사전을 구축한다. 전문가들은 수집된 텍스트 문서들로부터 빈도가 높은 단어들을 정리하여 긍정, 부정, 중립을 판단한다. 특정 제품의 선호를 판별하기 위해, 제품에 대한 사용 후기 글을 수집하여 문장을 추출하고, 감성사전을 이용하여 문장들의 긍정, 부정, 중립을 판단하여 최종적으로 긍정과 부정인 문장의 개수를 통해 제품에 대한 선호도를 측정한다. 그리고 제품에 대한 긍 부정 내용을 자동으로 요약하여 제공한다. 이것은 문장들의 감성점수를 산출하여, 긍정과 부정점수가 높은 문장들을 추출한다. 본 연구에서는 일반 대중이 생산한 문서 속에 숨겨져 있는 토픽을 추출하여 주어진 제품의 선호도를 조사하고, 토픽의 긍 부정 내용을 요약하여 보여주는 제품 평판 마이닝 알고리즘을 제안한다. 기존 방식과 다르게, 토픽을 활용하여 쉽고 빠르게 감성사전을 구축할 수 있으며 추출된 토픽을 정제하여 제품의 선호도와 요약 결과의 정확도를 높인다. 실험을 통해, K5, SM5, 아반떼 등의 국내에서 생산된 자동차의 수많은 후기 글들을 수집하였고, 실험 자동차의 긍 부정 비율, 긍 부정 내용 요약, 통계 검정을 실시하여 제안방안의 효용성을 입증하였다.

자기조직화 지도를 활용한 성장모형 기반의 시장 성장패턴 지도 구축: ICT제품을 중심으로 (Development of Market Growth Pattern Map Based on Growth Model and Self-organizing Map Algorithm: Focusing on ICT products)

  • 박도형;정재권;정여진;이동원
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.1-23
    • /
    • 2014
  • 시장 예측은 일정 기간 동안 소비자에게 판매되는 동종 제품 또는 서비스의 수량 혹은 매출액의 규모를 추정하는 활동으로 정의할 수 있다. 정확한 시장 예측은 기업의 입장에서 새로운 제품의 도입시기 결정, 제품 설계, 생산계획 수립, 마케팅 전략 수립 등에 활용됨으로써 경영활동에 있어 효율적인 의사결정을 내릴 수 있게 하고, 정부의 입장에서는 발전 가능성이 있는 분야에 국가예산을 더 배분할 수 있는 효율적인 예산수립이 가능하게 한다. 본 연구는 정보통신기술(Information and Communication Technology: ICT) 분야의 제품 및 서비스에 대해서 과거의 시계열 자료를 이용하여 시장 성장곡선을 도출하고, 성장패턴이 비슷한 그룹으로 분류하여, 산업 내 시장에 대해 이해하고, 제품들의 미래 전망을 예측하는 데 목적이 있다. 다양한 아이템들을 통일되고 일관적인 방법으로 예측하기 위하여, 로지스틱 모형, 곰페르츠 모형, Bass 모형의 세 가지 전통적인 성장모형과 로지스틱 모형이나 곰페르츠 모형에서 도출되는 잠재시장 크기를 Bass 모형에 결합시킨 두 가지 하이브리드 성장모형을 개발하여 비교 분석하였다. 데이터 설명력이 우수한 로지스틱 + Bass 모형을 최적의 모형으로 선정하여 ICT 제품 및 서비스들 각각의 시장 성장곡선 모수를 확인하였다. 도출된 모수를 데이터로 하여, 자기조직화 지도 알고리즘을 통해, 5개의 의미 있는 영역으로 구분된 시장 성장패턴 지도가 구축되었는데, 각 영역별로 차별화된 특징과 성장패턴을 가지고 있었다. 본 연구에서 제안한 프로세스 및 시스템은 산업 시장 분석 시스템의 수요 예측 기능으로 활용될 수 있으며, ICT 산업뿐만 아니라 다양한 산업 및 분야에도 적용 가능할 것으로 기대된다.