• 제목/요약/키워드: Feature Library

검색결과 181건 처리시간 0.026초

텍스트 마이닝을 이용한 감정 유발 요인 'Emotion Trigger'에 관한 연구 (A Study of 'Emotion Trigger' by Text Mining Techniques)

  • 안주영;배정환;한남기;송민
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.69-92
    • /
    • 2015
  • 최근 소셜 미디어의 사용이 폭발적으로 증가함에 따라 이용자가 직접 생성하는 방대한 데이터를 분석하기 위한 다양한 텍스트 마이닝(text mining) 기법들에 대한 연구가 활발히 이루어지고 있다. 이에 따라 텍스트 분석을 위한 알고리듬(algorithm)의 정확도와 수준 역시 높아지고 있으나, 특히 감성 분석(sentimental analysis)의 영역에서 언어의 문법적 요소만을 적용하는데 그쳐 화용론적 의미론적 요소를 고려하지 못한다는 한계를 지닌다. 본 연구는 이러한 한계를 보완하기 위해 기존의 알고리듬 보다 의미 자질을 폭 넓게 고려할 수 있는 Word2Vec 기법을 적용하였다. 또한 한국어 품사 중 형용사를 감정을 표현하는 '감정어휘'로 분류하고, Word2Vec 모델을 통해 추출된 감정어휘의 연관어 중 명사를 해당 감정을 유발하는 요인이라고 정의하여 이 전체 과정을 'Emotion Trigger'라 명명하였다. 본 연구는 사례 연구(case study)로 사회적 이슈가 된 세 직업군(교수, 검사, 의사)의 특정 사건들을 연구 대상으로 선정하고, 이 사건들에 대한 대중들의 인식에 대해 분석하고자 한다. 특정 사건들에 대한 일반 여론과 직접적으로 표출된 개인 의견 모두를 고려하기 위하여 뉴스(news), 블로그(blog), 트위터(twitter)를 데이터 수집 대상으로 선정하였고, 수집된 데이터는 유의미한 연구 결과를 보여줄 수 있을 정도로 그 규모가 크며, 추후 다양한 연구가 가능한 시계열(time series) 데이터이다. 본 연구의 의의는 키워드(keyword)간의 관계를 밝힘에 있어, 기존 감성 분석의 한계를 극복하기 위해 Word2Vec 기법을 적용하여 의미론적 요소를 결합했다는 점이다. 그 과정에서 감정을 유발하는 Emotion Trigger를 찾아낼 수 있었으며, 이는 사회적 이슈에 대한 일반 대중의 반응을 파악하고, 그 원인을 찾아 사회적 문제를 해결하는데 도움이 될 수 있을 것이다.

비트 수준 슈퍼 시스톨릭 어레이의 설계 (Design of a Bit-Level Super-Systolic Array)

  • 이재진;송기용
    • 대한전자공학회논문지SD
    • /
    • 제42권12호
    • /
    • pp.45-52
    • /
    • 2005
  • 시스톨릭 어레이는 동일한 기능을 가지는 계산처리들을 동일한 형태로 연결하여, 다수의 자료에 반복적인 계산을 하도록 만들어진 병렬처리기로써 개념적으로 산술 파이프라인과 밀접한 관계를 갖는다. 시스톨릭 어레이 셀 내의 연산에 대한 고성능처리는 시스톨릭 어레이의 중요한 특징이다. 본 논문에서는 시스톨릭 어레이 셀 내의 동시성 처리를 높이기 위해 셀 내의 연산 중에서는 큰 지연 시간을 가지는 셀 내의 연산자를 다시 규칙성을 가지는 시스톨릭 어레이로 구성하는 비트 수준 슈퍼 시스톨릭 어레이 구조를 제안하고, 그 예로 비트 수준 슈퍼 시스톨릭 FIR 필터에 대하여 기술한다. 먼저 정규순환방정식으로 표현된 알고리즘으로부터 워드 수준 시스톨릭 어레이를 유도한 후 유도된 워드 수준 시스톨릭 어레이를 슈퍼 시스톨릭 어레이로 변환한다. 위의 과정으로 유도된 비트 수준 슈퍼 시스톨릭 어레이를 RT 수준에서 VHDL로 모델링 하여 동작을 검증하였으며, Hynix에서 제공되는 $0.35{\mu}m$셀 라이브러리를 사용하여 합성하였다. 본 논문에서 제안하는 비트 수준 슈퍼 시스톨릭 어레이는 워드 수준 시스톨릭 어레이 디자인에 비해 면적은 물론 성능측면에서 이점을 가진다.

교육용 어학 영상의 내용 기반 특징 분석에 의한 샷 구분 및 색인에 대한 연구 (A Study on Shot Segmentation and Indexing of Language Education Videos by Content-based Visual Feature Analysis)

  • 한희준
    • 정보관리학회지
    • /
    • 제34권1호
    • /
    • pp.219-239
    • /
    • 2017
  • IT기술이 급속히 발달하고 스마트 기기의 개인보급이 늘어나면서 정보의 전달 매체로 시청각 자료 중에서도 특히 영상 자료가 많이 활용된다. 문헌정보서비스 콘텐츠로서 영상자료는 필수 요소가 되었으며, TV를 통한 단방향 전달, 인터넷을 통한 양방향 서비스, 도서관 시청각 자료 대출 등 다양한 방법으로 활용되고 있다. 특히 인터넷 환경에서 스마트 기기를 통한 영상서비스 관점에서 정보 제공자는 제공 정보에 대한 가공에 적은 노력과 비용을 들이고자 하고, 또한 사용자는 과도한 데이터 사용량에 대한 부담과 시간, 공간적인 제약으로 인해 원하는 부분만을 효율적으로 이용하고자 한다. 따라서 영상에 대한 내용을 유사한 부분끼리 자동으로 구분하고 요약, 색인하여 이용 편의성을 높일 필요가 있다. 본 논문에서는 교육용 어학 영상의 내용과 그 특성을 분석하여 영상을 이루는 샷을 자동으로 구분하고 비주얼 특징을 조합하여 어학 영상의 세분화된 내용 정보를 결정하고 색인하는 방법을 제안한다. 외국어 강의 영상을 이용한 실험에 의해 의미기반의 샷 결정에 높은 정확률을 보였으며, 교육용 어학 영상의 요약 서비스에 효율적으로 적용 가능함을 확인하였다.

문자열 정보를 활용한 텍스트 마이닝 기반 악성코드 분석 기술 연구 (Research on text mining based malware analysis technology using string information)

  • 하지희;이태진
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.45-55
    • /
    • 2020
  • 정보 통신 기술의 발달로 인해 매년 신종/변종 악성코드가 급격히 증가하고 있으며 최근 사물 인터넷과 클라우드 컴퓨팅 기술의 발전으로 다양한 형태의 악성코드가 확산되고 있는 추세이다. 본 논문에서는 운영체제 환경에 관계없이 활용 가능하며 악성행위와 관련된 라이브러리 호출 정보를 나타내는 문자열 정보를 기반으로 한 악성코드 분석 기법을 제안한다. 공격자는 기존 코드를 활용하거나 자동화된 제작 도구를 사용하여 악성코드를 손쉽게 제작할 수 있으며 생성된 악성코드는 기존 악성코드와 유사한 방식으로 동작하게 된다. 악성 코드에서 추출 할 수 있는 대부분의 문자열은 악성 동작과 밀접한 관련이 있는 정보로 구성되어 있기 때문에 텍스트 마이닝 기반 방식을 활용하여 데이터 특징에 가중치를 부여해 악성코드 분석을 위한 효과적인 Feature로 가공한다. 가공된 데이터를 기반으로 악성여부 탐지와 악성 그룹분류에 대한 실험을 수행하기 위해 다양한 Machine Learning 알고리즘을 이용해 모델을 구축한다. 데이터는 Windows 및 Linux 운영체제에 사용되는 파일 모두에 대해 비교 및 검증하였으며 악성탐지에서는 약93.5%의 정확도와 그룹분류에서는 약 90%의 정확도를 도출하였다. 제안된 기법은 악성 그룹을 분류시 각 그룹에 대한 모델을 구축할 필요가 없기 때문에 단일 모델로서 비교적 간단하고 빠르며 운영체제와 독립적이므로 광범위한 응용 분야를 가진다. 또한 문자열 정보는 정적분석을 통해 추출되므로 코드를 직접 실행하는 분석 방법에 비해 신속하게 처리가능하다.

부산 연안역의 진핵플랑크톤 종다양성에 대한 메타게놈 분석 연구 (Metagenomic Approach on the Eukaryotic Plankton Biodiversity in Coastal Water of Busan (Korea))

  • 윤지미;이지은;이상래;노태근;이진애;정익교;이동섭
    • 한국해양학회지:바다
    • /
    • 제17권2호
    • /
    • pp.59-75
    • /
    • 2012
  • 플랑크톤의 종조성에 대한 정보는 해양 생태계 내에서 물질과 에너지 순환을 이해 하는데 필수적이다. 또한 수층의 물리화학적 특성과 변동에 민감하기 때문에 해양환경 특성을 이해하는데 중요한 정보를 제공한다. 본 연구는 메타게놈 분석 기법(metagenomics)을 적용하여 낙동강 유출수, 장강 희석수, 남해 연안수, 쓰시마 난류수 등의 혼합으로 복잡한 환경특성을 가질 것으로 예상되는 부산 연안역의 수괴 내에 존재하는 플랑크톤 종다양성을 분석하였다. 표층 해수에서 18S rDNA 클론라이브러리를 구축하였고 세 정점에서 분석된 370개의 클론들 중에서 94개의 phylotype들을 발굴하였다. 계통분석 결과 phylotype들은 Dinophyceae(42개), Ciliophora(15개), Bacillariophyta(7개), Chlorophyta(2개), Haptophyceae(1개), Metazoa(Arthropoda(17개), Chaetognatha(1개), Cnidaria(2개), Chordata(1개)), Rhizaria(Acantharea(2개),Polycystinea(1개)), Telonemida(1개), Fungi(2개) 등의 다양한 계통군들에 속하는 것으로 나타났다. 근접하게 위치한 세 정점에서 나타난 플랑크톤 종조성 차이는 이들 정점들이 여러 기원의 수괴(water mass) 혼합에 따른 다양한 물리화학적 환경요인의 영향에 기인한 것으로 판단된다. 향후 메타게놈 분석 기법을 통한 플랑크톤 종조성 연구는 다양한 물리화학적 특성을 가진 연안 해양생태계를 이해하는데 유용할 것으로 판단된다.

메콩강 유출모의를 위한 물리적 및 데이터 기반 모형의 비교·분석 (Comparison of physics-based and data-driven models for streamflow simulation of the Mekong river)

  • 이기하;정성호;이대업
    • 한국수자원학회논문집
    • /
    • 제51권6호
    • /
    • pp.503-514
    • /
    • 2018
  • 최근 기후변화 및 유역개발로 인하여 메콩강 유역의 수문환경이 급격히 변화하고 있으며, 메콩강을 공유하는 국가의 수재해 예방 및 지속가능한 수자원개발을 위해서는 메콩강 주요지점에서의 유량 정보의 분석 및 예측이 요구된다. 본 연구에서는 물리적 기반의 수문모형인 SWAT과 데이터기반 딥러닝 알고리즘인 LSTM을 이용하여 메콩강 하류 Kratie 지점의 유출모의를 수행하고, 유출모의 정확도 및 두 가지 방법론의 장 단점을 비교 분석한다. SWAT 모형의 구축을 위해 범용 입력자료(지형: HydroSHED, 토지이용: GLCF-MODIS, 토양: FAO-Soil map, 강우: APHRODITE 등)을 이용하였으며 warming-up 및 매개변수 보정 후 2003~2007년 일유량 모의를 수행하였다. LSTM을 이용한 유출모의의 경우, 딥러닝 오픈소스 라이브러리인 TensorFlow를 활용하여 Kratie 지점기준 메콩강 상류 10개 수위관측소의 두 기간(2000~2002, 2008~2014) 일수위 정보만을 이용하여 심층신경망을 학습하고, SWAT 모형과 마찬가지로 2003~2007년을 대상으로 Kratie 지점에 대한 일수위 모의 후 수위-유량관계곡선식을 이용하여 유출량으로 환산하였다. 두 모형의 모의성능 비교 검토를 위하여 모의기간에 대해 NSE (Nash-Sutcliffe Efficiency)을 산정한 결과, SWAT은 0.9, LSTM은 보다 높은 0.99의 정확도를 나타내는 것으로 분석되었다. 메콩강과 같은 대유역의 특정 지점에 대한 수문시계열 자료의 모의를 위해서는 다양한 입력자료를 요구하는 물리적 수문모형 대신 선행 시계열자료의 변동성을 기억 학습하여 이를 예측에 반영하는 LSTM 기법 등 데이터기반의 심층신경망 모형의 적용이 가능할 것으로 판단된다.

한국어 음성인식 플랫폼 (ECHOS) 개발 (Development of a Korean Speech Recognition Platform (ECHOS))

  • 권오욱;권석봉;장규철;윤성락;김용래;장광동;김회린;유창동;김봉완;이용주
    • 한국음향학회지
    • /
    • 제24권8호
    • /
    • pp.498-504
    • /
    • 2005
  • 교육 및 연구 목적을 위하여 개발된 한국어 음성인식 플랫폼인 ECHOS를 소개한다. 음성인식을 위한 기본 모듈을 제공하는 BCHOS는 이해하기 쉽고 간단한 객체지향 구조를 가지며, 표준 템플릿 라이브러리 (STL)를 이용한 C++ 언어로 구현되었다. 입력은 8또는 16 kHz로 샘플링된 디지털 음성 데이터이며. 출력은 1-beat 인식결과, N-best 인식결과 및 word graph이다. ECHOS는 MFCC와 PLP 특징추출, HMM에 기반한 음향모델, n-gram 언어모델, 유한상태망 (FSN)과 렉시컬트리를 지원하는 탐색알고리듬으로 구성되며, 고립단어인식으로부터 대어휘 연속음성인식에 이르는 다양한 태스크를 처리할 수 있다. 플랫폼의 동작을 검증하기 위하여 ECHOS와 hidden Markov model toolkit (HTK)의 성능을 비교한다. ECHOS는 FSN 명령어 인식 태스크에서 HTK와 거의 비슷한 인식률을 나타내고 인식시간은 객체지향 구현 때문에 약 2배 정도 증가한다. 8000단어 연속음성인식에서는 HTK와 달리 렉시컬트리 탐색 알고리듬을 사용함으로써 단어오류율은 $40\%$ 증가하나 인식시간은 0.5배로 감소한다.

휴대폰 문자메시지 기능의 인터페이스 이용성에 관한 연구 (Exploring Usability of Mobile Text Messaging Interfaces)

  • 이지연
    • 정보관리연구
    • /
    • 제35권4호
    • /
    • pp.1-16
    • /
    • 2004
  • 본 연구는 이용자들이 휴대폰 문자메시지 시스템을 이용할 때 경험하는 인터페이스 상의 문제점을 찾아보고 향상된 인터페이스를 제공하는 휴대폰 문자메시지 시스템을 구현하기 위한 개선방향을 제시하고자 하였다. 휴대폰 문자메시지 시스템의 문제점으로는, 1) 전달받은 메시지의 내용이나 의도를 파악하기 어려움, 2) 문자메시지의 저장, 정렬, 탐색 등의 어려움, 3) 문자메시지의 길이 제한, 4) 문자입력의 어려움, 그리고 5) 비슷한 휴대폰 번호를 이용하기 때문에 종종 다른 수신자에게 잘못 전달되는 오류와 이로 인한 사회적인 문제 등이다. 본 연구의 초기 가정은 문자메시지 시스템을 이용할 때 발생하는 대다수의 문제점이 이용자 인터페이스 상의 이용성과 관련되어 있다는 점을 주목하였다. 75명의 대학생 이용자를 대상으로 일주일 동안 모든 문자메시지를 저장하고 각각의 메시지에 대한 간단한 일지를 기록하도록 하였다. 수집된 데이터 분석을 통하여 발견된 문제점들은 제한된 메시지 길이, 부자연스러운 문자입력방식, 감정 표현의 불충분함, 수신확인 기능의 결여, 보낸 메시지의 자동저장 기능이 제공되지 않는다는 점 등으로 나타났다. 연구의 결과로 나타난 이러한 문제점들은 문자메시지 시스템을 개선할 수 있는 방향을 제공할 것으로 기대된다.

영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축 (A Study on Analyzing Sentiments on Movie Reviews by Multi-Level Sentiment Classifier)

  • 김유영;송민
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.71-89
    • /
    • 2016
  • 누구나 본인이 사용한 제품이나, 이용한 서비스에 대한 후기를 자유롭게 인터넷에 작성할 수 있고, 이러한 데이터의 양은 점점 더 많아지고 있다. 감성분석은 사용자가 생성한 온라인 텍스트 속에 내포된 감성 및 감정을 식별하기 위해 사용된다. 본 연구는 다양한 데이터 도메인 중 영화 리뷰를 분석 대상으로 한다. 영화 리뷰를 이용한 기존 연구에서는 종종 리뷰 평점을 관객의 감성으로 동일시하여 감성분석에 이용한다. 그러나 리뷰 내용과 평점의 실제적 극성 정도가 항상 일치하는 것은 아니기 때문에 연구의 정확성에 한계가 발생할 수 있다. 이에 본 연구에서는 기계학습 기반의 감성 분류기를 구축하고, 이를 통해 리뷰의 감성점수를 산출하여 리뷰에서 나타나는 감성의 수치화를 목표로 한다. 나아가 산출된 감성점수를 이용하여 리뷰와 영화 흥행 간의 연관성을 살펴보았다. 감성분석 모델은 지지벡터 분류기와 신경망을 이용해 구축되었고, 총 1만 건의 영화 리뷰를 학습용 데이터로 하였다. 감성분석은 총 175편의 영화에 대한 1,258,538개의 리뷰에 적용하였다. 리뷰의 평점과 흥행, 그리고 감성점수와 흥행과의 연관성은 상관분석을 통해 살펴보았고, t-검정으로 두 지표의 평균차를 비교하여 감성점수의 활용성을 검증하였다. 연구 결과, 본 연구에서 제시하는 모델 구축 방법은 나이브 베이즈 분류기로 구축한 모델보다 높은 정확성을 보였다. 상관분석 결과로는, 영화의 주간 평균 평점과 관객 수 간의 유의미한 양의 상관관계가 나타났고, 감성점수와 관객 수 간의 상관분석에서도 유사한 결과가 도출되었다. 이에 두 지표간의 평균을 이용한 t-검정을 수행하고, 이를 바탕으로 산출한 감성점수를 리뷰 평점의 역할을 할 수 있는 지표로써 활용 가능함을 검증하였다. 나아가 검증된 결론을 근거로, 트위터에서 영화를 언급한 트윗을 수집하여 감성분석을 적용한 결과를 살펴봄으로써 감성분석 모델의 활용 방안을 모색하였다. 전체적 실험 및 검증의 과정을 통해 본 연구는 감성분석 연구에 있어 개선된 감성 분류 방법을 제시할 수 있음을 보였고, 이러한 점에서 연구의 의의가 있다.

텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석 (Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques)

  • 배정환;손지은;송민
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.141-156
    • /
    • 2013
  • 최근 소셜미디어는 전세계적 커뮤니케이션 도구로서 사용에 전문적인 지식이나 기술이 필요하지 않기 때문에 이용자들로 하여금 콘텐츠의 실시간 생산과 공유를 가능하게 하여 기존의 커뮤니케이션 양식을 새롭게 변화시키고 있다. 특히 새로운 소통매체로서 국내외의 사회적 이슈를 실시간으로 전파하면서 이용자들이 자신의 의견을 지인 및 대중과 소통하게 하여 크게는 사회적 변화의 가능성까지 야기하고 있다. 소셜미디어를 통한 정보주체의 변화로 인해 데이터는 더욱 방대해지고 '빅데이터'라 불리는 정보의 '초(超)범람'을 야기하였으며, 이러한 빅데이터는 사회적 실제를 이해하기 위한 새로운 기회이자 의미 있는 정보를 발굴해 내기 위한 새로운 연구분야로 각광받게 되었다. 빅데이터를 효율적으로 분석하기 위해 다양한 연구가 활발히 이루어지고 있다. 그러나 지금까지 소셜미디어를 대상으로 한 연구는 개괄적인 접근으로 제한된 분석에 국한되고 있다. 이를 적절히 해결하기 위해 본 연구에서는 트위터 상에서 실시간으로 방대하게 생성되는 빅스트림 데이터의 효율적 수집과 수집된 문헌의 다양한 분석을 통한 새로운 정보와 지식의 마이닝을 목표로 사회적 이슈를 포착하기 위한 실시간 트위터 트렌드 마이닝 시스템을 개발 하였다. 본 시스템은 단어의 동시출현 검색, 질의어에 의한 트위터 이용자 시각화, 두 이용자 사이의 유사도 계산, 트렌드 변화에 관한 토픽 모델링 그리고 멘션 기반 이용자 네트워크 분석의 기능들을 제공하고, 이를 통해 2012년 한국 대선을 대상으로 사례연구를 수행하였다. 본 연구를 위한 실험문헌은 2012년 10월 1일부터 2012년 10월 31일까지 약 3주간 1,737,969건의 트윗을 수집하여 구축되었다. 이 사례연구는 최신 기법을 사용하여 트위터에서 생성되는 사회적 트렌드를 마이닝 할 수 있게 했다는 점에서 주요한 의의가 있고, 이를 통해 트위터가 사회적 이슈의 변화를 효율적으로 추적하고 예측하기에 유용한 도구이며, 멘션 기반 네트워크는 트위터에서 발견할 수 있는 고유의 비가시적 네트워크로 이용자 네트워크의 또 다른 양상을 보여준다.