• 제목/요약/키워드: Memory systems

검색결과 2,153건 처리시간 0.03초

온톨로지 지식 기반 특성치를 활용한 Bidirectional LSTM-CRF 모델의 시퀀스 태깅 성능 향상에 관한 연구 (Improving Bidirectional LSTM-CRF model Of Sequence Tagging by using Ontology knowledge based feature)

  • 진승희;장희원;김우주
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.253-266
    • /
    • 2018
  • 본 연구는 질의 응답(QA) 시스템에서 사용하는 개체명 인식(NER)의 성능을 향상시키기 위하여 시퀀스 태깅 방법론을 적용한 새로운 방법론을 제안한다. 사용자의 질의를 입력 받아 데이터베이스에 저장된 정답을 추출하기 위해서는 사람의 언어를 컴퓨터가 알아들을 수 있도록 구조화 질의어(SQL)와 같은 데이터베이스의 언어로 전환하는 과정이 필요한데, 개체명 인식은 사용자의 질의에서 데이터베이스에 포함된 클래스나 데이터 명을 식별하는 과정이다. 기존의 데이터베이스에서 질의에 포함된 단어를 검색하여 개체명을 인식하는 방식은 동음이의어와 문장성분 구를 문맥을 고려하여 식별하지 못한다. 다수의 검색 결과가 존재하면 그들 모두를 결과로 반환하기 때문에 질의에 대한 해석이 여러 가지가 나올 수 있고, 계산을 위한 시간복잡도가 커진다. 본 연구에서는 이러한 단점을 극복하기 위해 신경망 기반의 방법론을 사용하여 질의가 가지는 문맥적 의미를 반영함으로써 이러한 문제를 해결하고자 했고 신경망 기반의 방법론의 문제점인 학습되지 않은 단어에 대해서도 문맥을 통해 식별을 하고자 하였다. Sequence Tagging 분야에서 최신 기술인 Bidirectional LSTM-CRF 모델을 도입함으로써 신경망 모델이 가진 단점을 해결하였고, 학습되지 않은 단어에 대해서는 온톨로지 기반 특성치를 활용하여 문맥을 반영한 추론을 사용하였다. 음악 도메인의 온톨로지(Ontology) 지식베이스를 대상으로 실험을 진행하고 그 성능을 평가하였다. 본 연구에서 제안한 방법론인 L-Bidirectional LSTM-CRF의 성능을 정확하게 평가하기 위하여 학습에 포함된 단어들뿐만 아니라 학습에 포함되지 않은 단어들도 포함한 질의를 평가에 사용하였다. 그 결과 L-Bidirectional LSTM-CRF 모형을 재학습 시키지 않아도 학습에 포함되지 않은 단어를 포함한 질의에 대한 개체명 인식이 가능함을 확인하였고, 전체적으로 개체명 인식의 성능이 향상됨을 확인할 수 있었다.

XMLA를 사용한 OLAP과 데이타 마이닝 분석이 가능한 리포팅 툴의 구현 (Implementation of Reporting Tool Supporting OLAP and Data Mining Analysis Using XMLA)

  • 최지웅;김명호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권3호
    • /
    • pp.154-166
    • /
    • 2009
  • 기업 운영에서 발생하는 데이타의 수집과 통합에서부터 의사결정을 위한 정보의 분석 및 그 결과로의 접근을 제공하기 위한 BI 환경에서 최종 사용자들을 위한 프론트-엔드 툴로서는 데이터베이스 쿼리 및 리포팅 툴, OLAP 툴, 데이타 마이닝 툴이 대표적이다. 데이타베이스 쿼리 및 리포팅 툴은 SQL 쿼리 결과 셋을 반영하는 워드프로세서가 생성하는 문서 수준의 정교한 동적 문서의 생성과 웹 환경을 통한 문서 배포 능력이 장점이지만 데이타 소스가 RDBMS로 제한되어 있다. 반면, OLAP 툴과 데이타 마이닝 툴은 각기 고유한 방식으로 데이타를 분석할 수 있는 능력은 강력하지만 차트와 표 등의 제한적인 컴포넌트들만으로 분석 결과를 제공할 수 있다는 한계를 가지고 있다. 본 논문에서는 상호 보완적으로 사용될 수 있는 BI 환경을 위한 프론트-엔드 툴들을 통합하였다. 본 논문에서 제안하는 리포팅 툴은 RDBMS에서 데이타를 추출하기 위한 SQL 기반의 쿼리 편집기만을 내장한 기존의 리포팅 툴과 달리 OLAP과 데이타 마이닝을 위한 쿼리 편집기를 추가하여 OLAP과 데이타 마이닝 서버로부터도 데이터를 추출할 수 있다. 그리고 기존의 리포팅 툴은 동일한 문서를 다수의 사용자들이 조회하는 상황에서 반복된 문서 생성을 피하기 위하여 서버 측에서 문서를 생성하는 구조를 갖지만 이 시스템은 다수의 사용자들을 위한 문서배포 목적이 아닌 사용자들이 데이타 분석 목적으로 서로 다른 문서를 생성하는 상황에 적합하도록 서버 측에 비해 제한된 리소스 환경을 갖는 클라이언트 측에서 동작하는 리포트 뷰어에서 대량의 데이타를 포함하는 문서를 생성할 수 있는 구조와 처리방식을 갖고 있다. 또한 이 시스템에서 접근하는 세가지 종류의 데이타 소스에서 추출한 데이타들을 연계하여 하나의 문서에서 통합할 수 있도록 하는 자료구조를 갖추고 있다. 마지막으로 이 시스템은 특정 벤더의 OLAP과 데이타 마이닝 서버에 종속적으로 동작하지 않기 위하여 웹 서비스 기반의 XMLA를 이들 서버와의 통신 프로토콜로써 선택하였다.

PinDemonium 기반 Original Entry Point 탐지 방법 개선 (Improved Original Entry Point Detection Method Based on PinDemonium)

  • 김경민;박용수
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권6호
    • /
    • pp.155-164
    • /
    • 2018
  • 많은 악성프로그램은 역공학을 막기 위해 다양한 상용 패커를 사용해 압축 혹은 암호화를 했기 때문에 악성코드 분석가는 압축해제 혹은 복 호화를 먼저 수행해야 한다. OEP(Original Entry Point)는 암호화되거나 압축되어 있는 실행파일을 다시 원본 바이너리 상태로 되돌린 후 실행된 첫 번째 명령어의 주소이다. 여러 언패커는 OEP가 나타나기 전까지 패킹된 파일을 실행하며 주소를 기록한다. 그리고 기록된 주소들 중에 OEP를 찾는다. 그러나 일부 언패커에서 제공하는 OEP 후보들은 비교적 큰 OEP 후보 집합을 제공하거나 후보들 중에 OEP가 없는 경우가 있다. 이에 악성코드 분석가들은 더 적은 OEP 후보 집합을 제공하는 도구가 필요한 실정이다. 본 논문에서는 PinDemonium이라 불리는 언패커에 두 가지 OEP 탐지방법을 추가하여 더 적은 OEP 후보 집합을 제공하는 도구를 만들었다. 첫 번째 방법은 패킹된 프로그램이 완전히 원본 바이너리상태로 되돌아 간 후에는 원프로그램 함수 호출과 동일하다는 것을 활용한 OEP 탐지방법이다. C/C++ 언어로 작성된 프로그램은 바이너리 코드로 언어를 변환하는 컴파일 과정을 거친다. 컴파일 과정을 거친 프로그램에는 특정 시스템 함수들이 추가된다. 이 시스템 함수들은 컴파일러 별로 다르다. 컴파일러 별로 사용되는 시스템 함수를 조사한 후, 패킹된 프로그램에서 호출되는 시스템 함수와 패턴매칭하여 언패킹 작업이 끝났는지 탐지하는 방법이다. 두 번째 방법은 패킹된 프로그램이 완전히 원본 바이너리 상태로 돌아간 후 시스템함수에서 사용되는 매개 변수가 원프로그램과 동일하다는 것을 활용한 OEP 탐지방법이다. 시스템함수에서 사용되는 매개변수의 값을 이용해 OEP를 찾는 방법이다. 본 연구는 16종의 상용 패커로 압축된 샘플 프로그램을 대상으로 OEP 탐지 실험을 했다. 본 연구에선 안티 디버깅 기법으로 프로그램을 실행하지 못하는 경우인 2종을 제외하고 PinDemonium 대비 평균 40% 이상 OEP후보를 줄일 수 있었다.

발생 간격 기반 가중치 부여 기법을 활용한 데이터 스트림에서 가중치 순차패턴 탐색 (Finding Weighted Sequential Patterns over Data Streams via a Gap-based Weighting Approach)

  • 장중혁
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.55-75
    • /
    • 2010
  • 일반적인 순차패턴 마이닝에서는 분석 대상 데이터 집합에 포함되는 구성요소의 발생 순서만을 고려하며, 따라서 단순 순차패턴은 쉽게 찾을 수 있는 반면 실제 응용 분야에서 널리 활용될 수 있는 관심도가 큰 순차패턴을 탐색하는데 한계가 있다. 이러한 단점을 보완하기 위한 대표적인 연구 주제들 중의 하나가 가중치 순차패턴 탐색이다. 가중치 순차패턴 탐색에서는 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서 뿐만 아니라 구성요소의 가중치를 추가로 고려한다. 본 논문에서는 발생 간격에 기반 한 순차패턴 가중치 부여 기법 및 이를 활용한 순차 데이터 스트림에 대한 가중치 순차패턴 탐색 방법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻는데 도움이 된다. 한편, 근래 대부분의 컴퓨터 응용 분야에서는 한정적인 데이터 집합 형태가 아닌 데이터 스트림 형태로 정보를 발생시키고 있다. 이와 같은 데이터 생성 환경의 변화를 고려하여 본 논문에서는 순차 데이터 스트림을 마이닝 대상으로 고려하였다.

전라도 지역 문화재 지정 민가정원의 현황 및 조영특성 (A Study on the Construction Characteristics of Folk Houses Designated as Cultural Heritage in Jeolla-do Province)

  • 진민령;정명석;심지연;이혜숙;이경미;진혜영
    • 한국전통조경학회지
    • /
    • 제38권4호
    • /
    • pp.25-38
    • /
    • 2020
  • 본 연구는 민가정원의 기록화를 목적으로, 전라도 지역 문화재 지정 민가정원의 역사적 가치, 입지, 공간구성 및 건축물 배치, 정원구성요소 등을 검토하여 현재 민가정원의 모습을 고찰함으로써 향후 지속적인 유지관리·보존을 도모하고, 가치를 제고하고자 하였다. 연구의 결과는 다음과 같다. 첫째, 대부분 조선후기에서 근대에 조성된 민가정원의 조성시기와 궁궐·일본·서양의 양식에 영향을 받은 정원구성요소 등을 통해 농·상업 발달의 확산 등 시대적 흐름 속에 영향을 받아온 것을 알 수 있다. 두째, 입지한 지형에 따라 민가정원의 공간구성과 후원 처리 방식에 차이가 있다. 입지한 지형을 평지와 경사지로 구분하였을 때 평지에 입지한 민가는 담장으로 공간을 구획하고 후원 주변으로 담장을 두르고 화계 및 석단을 조성하였다. 경사지에 입지한 민가는 2~3단의 단차를 두어 공간을 구획하고, 후면의 구릉과 접한 후원에 담장을 조성하지 않고 수목 식재, 화계 및 석단 조성 등을 통해 배경림과 자연스럽게 이어지도록 하였다. 셋째, 가옥의 규모 및 정원구성요소가 일부 소실·훼손·변화되었으며, 변화과정에 대한 기록이 부족한 경우 도면으로 기록하는 것에 한계가 있다. 시대적 흐름과 수요의 변화에 따라 소실 또는 훼손된 건축물 및 정원구성요소가 많았으며, 기록이 남지 않은 일부는 소유주 및 관리자의 기억에 의존해야하는 실정이다. 넷째, 전라도 기후적 특성을 반영한 난대성 수종의 식재가 이루어졌으며, 전통수종이 아닌 외래수종이 많은 부분 도입되었다. 다섯째, 현대의 편의를 고려한 공간 기능과 식재 수종의 변화에 대비하기 위한 세분화된 수목 관리 기준이 필요하다.

공연예술축제를 구성하는 '예술성'과 '축제성'의 특성 분석 - 아비뇽 페스티벌의 사례를 중심으로 (Two Points for the Successful Representation of Performing Art Festivals:Artistic Characteristics and Festivity - in the Case of the 'Festival d'Avignon')

  • 류정아
    • 공연문화연구
    • /
    • 제22호
    • /
    • pp.253-285
    • /
    • 2011
  • 90년대 중반 이후 빠른 속도로 증가하였던 축제는, 비록 적절한 속도의 조정을 받기는 하겠지만, 앞으로도 계속 그 수가 늘어날 것으로 보인다. 특히 직접적인 체험과 참여 속에서 자신들의 문화예술적 욕구를 실현하고자 하는 사람들의 수가 많아지면서 축제에 대한 수요의 정도와 구체성은 더욱 높아질 것으로 판단된다. 그러나 현재 우리나라의 축제문화는 아직도 직접적인 참여보다는 관객의 입장에서 수동적으로 즐기는 경향이 강하고 이러한 경향은 축제문화가 삶 속에 뿌리 내리기 전까지는 당분간 지속되리라고 볼 때, 늘어나는 축제의 상당부분은 축제 참여자가 여전히 관객으로 남아 있는 공연예술축제가 되리라는 점에 대해서 의심의 여지가 없다. 따라서 현재 일반시민들의 참여적 문화예술적 욕구를 공연예술축제로 충족시키기 위한 다양한 방법이 모색되고 있는 것도 사실이다. 이로 인해 공연예술축제의 예술성과 축제성이 각각의 특성을 어떻게 잘 표현해 내는가는 중요한 문제가 되고 있다. 공연예술축제에서는 축제적 특성과 예술적 특성 간에 상호 충돌과 갈등이 일어날 수밖에 없어서 이 두 요소에 대한 면밀한 분석의 필요성이 지속적으로 제기되고 있다. 특히 최근 공연예술축제는, 여타 종류의 축제들과 비교해 보았을 때, 상대적으로 많은 예산을 필요로 하기 때문에 자생력의 문제로부터 자유롭기가 어렵다는 점, 단기간에 빠른 속도로 공연예술축제가 증가하면서 프로그램이나 재원의 구성에서 차별성이나 독립성을 충분히 확보할 수 있는 여유를 갖지 못하고 있다는 점 등의 문제점들이 지적되고 있다. 이러한 문제들로 인해 공연예술축제가 예술성과 축제성보다는 상업적 대중성에 영합할 수밖에 없는 상황이 자주 발생하여 축제가 지녀야 할 가장 기본적인 요소인 자율성에 침해를 당하는 경우도 발생한다. 따라서 공연예술축제가 현대사회에서 가지는 중요성이 점차 커져가고 있는 것이 사실이라면, 공연예술축제가 가진 기본적인 속성에 대한 보다 면밀한 분석은 반드시 수행되어야 할 것이다. 본 연구에서는 아비뇽페스티벌의 사례를 중심으로 공연예술축제에서 예술성과 축제성의 특성이 발현되는 양상을 살펴보면서, 우리나라의 공연예술축제의 미래 발전방향을 예측하는데 참조 가능한 시사점을 찾고자 한다. 이러한 연구는 공연예술축제의 본질적 성격과 의미 그리고 미래의 방향성을 이해할 수 있는 기회를 제공하여 향후 보다 구체화된 문제 중심적 축제연구의 진전에 기여할 수 있을 것으로 기대된다.

XGBoost를 활용한 리스크패리티 자산배분 모형에 관한 연구 (A Study on Risk Parity Asset Allocation Model with XGBoos)

  • 김영훈;최흥식;김선웅
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.135-149
    • /
    • 2020
  • 인공지능을 기반으로 한 다양한 연구들이 현대사회에 많은 변화를 불러일으키고 있다. 금융시장 역시 예외는 아니다. 로보어드바이저 개발이 활발하게 진행되고 있으며 전통적 방식의 단점을 보완하고 사람이 분석하기 어려운 부분을 대체하고 있다. 로보어드바이저는 인공지능 알고리즘으로 자동화된 투자 결정을 내려 다양한 자산배분 모형과 함께 활용되고 있다. 자산배분 모형 중 리스크패리티는 대표적인 위험 기반 자산배분 모형의 하나로 큰 자산을 운용하는 데 있어 안정성을 나타내고 현업에서 역시 널리 쓰이고 있다. 그리고 XGBoost 모형은 병렬화된 트리 부스팅 기법으로 제한된 메모리 환경에서도 수십억 가지의 예제로 확장이 가능할 뿐만 아니라 기존의 부스팅에 비해 학습속도가 매우 빨라 많은 분야에서 널리 활용되고 있다. 이에 본 연구에서 리스크패리티와 XGBoost를 장점을 결합한 모형을 제안하고자 한다. 기존에 널리 사용되는 최적화 자산배분 모형은 과거 데이터를 기반으로 투자 비중을 추정하기 때문에 과거와 실투자 기간 사이의 추정 오차가 발생하게 된다. 최적화 자산배분 모형은 추정 오차로 인해 포트폴리오 성과에서 악영향을 받게 된다. 본 연구는 XGBoost를 통해 실투자 기간의 변동성을 예측하여 최적화 자산배분 모형의 추정 오차를 줄여 모형의 안정성과 포트폴리오 성과를 개선하고자 한다. 본 연구에서 제시한 모형의 실증 검증을 위해 한국 주식시장의 10개 업종 지수 데이터를 활용하여 2003년부터 2019년까지 총 17년간 주가 자료를 활용하였으며 in-sample 1,000개, out-of-sample 20개씩 Moving-window 방식으로 예측 결과값을 누적하여 총 154회의 리밸런싱이 이루어진 백테스팅 결과를 도출하였다. 본 연구에서 제안한 자산배분 모형은 기계학습을 사용하지 않은 기존의 리스크패리티와 비교하였을 때 누적수익률 및 추정 오차에서 모두 개선된 성과를 보여주었다. 총 누적수익률은 45.748%로 리스크패리티 대비 약 5% 높은 결과를 보였고 추정오차 역시 10개 업종 중 9개에서 감소한 결과를 보였다. 실험 결과를 통해 최적화 자산배분 모형의 추정 오차를 감소시킴으로써 포트폴리오 성과를 개선하였다. 포트폴리오의 추정 오차를 줄이기 위해 모수 추정 방법에 관한 다양한 연구 사례들이 존재한다. 본 연구는 추정 오차를 줄이기 위한 새로운 추정방법으로 기계학습을 제시하여 최근 빠른 속도로 발전하는 금융시장에 맞는 진보된 인공지능형 자산배분 모형을 제시한 점에서 의의가 있다.

중등교사 신규임용 후보자 선정 경쟁시험 가정과 교과교육학 출제 문항 분석 (An Analysis of the Home Economics Education Discipline Items in the Teacher Recruitment Examination for Secondary School)

  • 김성숙;채정현
    • 한국가정과교육학회지
    • /
    • 제19권3호
    • /
    • pp.149-168
    • /
    • 2007
  • 본 연구의 목적은 가정과 임용시험 문항 중에서 교과교육학 문항수준 즉, 문항의 출제비율, 문항형태, 문항의 행동영역, 내용의 포괄성의 분석을 통해 가정교과교육학 문항의 문제점을 파악하고 개선방안을 도출하는 데 있다. 이를 위하여 2001-2007 학년도까지의 가정과 임용시험 문항 중에서 교과교육학 문항을 대상으로 문항의 출제비율, 문항형태는 빈도와 비율을 통해, 문항의 행동영역, 내용의 포괄성은 내용분석방법을 통하여 분석하였다. 또한 가정교과교육학 문항의 개선방안을 제안하기 위하여 2001-2007 학년도까지의 과학군, 사회군 교과교육학 문항 중에서 사례문항을 추출하여 논의하였다. 본 연구의 결과를 종합하면 다음과 같다. 첫째, 가정교과교육학 문항의 출제비율은 2001-2004학년도까지 20-30%로 유동적이었으나 2005학년도 이후 30%로 고정적인 비율을 보였으며 가정교과교육학 각 하위영역의 출제비율은 교육과정(43%), 교수학습법(35%), 교육평가(19%), 교육철학(3%) 순이었다. 둘째, 가정교과교육학 문항형태는 2001-2004학년도까지 단독문항의 형태와 소문항을 포함한 형태의 문항이 양립하였으나 2005-2007학년도 문항형태는 100% 단독문항의 형태로 변화되었다. 셋째, 가정교과교육학 하위영역 문항의 출제내용을 살펴보면 다음과 같다. 교육과정 출제내용은 제7차 교육과정 해설서의 내용이 대부분이었고 교수학습법 출제내용은 특정 교수학습모형에 관한 내용이 주를 이뤘다 교육평가에 관한 문항의 출제내용은 수행평가에 관련된 내용이 주로 출제되었다. 마지막으로 가정과교육철학에 관한 문항은 2005학년도에 가정과 사명에 나타난 하버마스의 세 행동체계에 관한 내용이 유일하게 출제되었다. 넷째, 가정교과교육학 문항의 행동영역을 살펴보면 다음과 같다. 가정과교육과정 문항의 행동영역은 대다수의 문항이 '단순지식 또는 기억' 수준에 머물러 있어 구체적인 개선방안으로 교육과정의 내용을 조망하는 시각으로 이해하여 실제적 인 교육현장에서의 적용능력을 평가할 수 있는 '복합지식 또는 이해와 적용'의 행동영역을 제안하였다. 가정과교수학습법 문항의 행동영역은 대체로 '복합지식 또는 이해와 적용'으로 나타났으나 좀 더 발전적인 문항의 개선방안으로 특정 교수 학습법에 대한 개념과 원리의 이해만을 요하는 문항의 행동영역에서 좀 더 실제적인 수업상황에서 교수학습이론을 폭넓게 적용하는 '적용' 능력을 좀 더 요하는 문항의 행동영역을 제안하였다. 가정과교육평가 문항의 행동영역 역시 대체로 '복합지식 또는 이해와 적용'을 요하는 문항의 행동영역이라고 볼 수 있으나 좀 더 발전적인 문항으로의 개선방안으로 이론적인 내용의 '이해'만으로 해결할 수 있는 문항의 행동영역에서 가정과의 실제 수행평가 상황에 맞는 평가도구를 찾아 제작하고 활용할 수 있는 '적용' 능력을 요하는 문항의 행동영역을 제안하였다. 다섯째, 가정교과교육학 문항내용의 포괄성을 살펴보면 다음과 같다. 가정과교육과정 문항내용은 제7차 교육과정 문서상에 표면적으로 제시된 내용에 한정되어 있어 구체적인 개선방안으로 교육과정의 철학적 이론적 배경, 다양한 교육과정 원리를 활용하는 문항내용 등과 같이 좀 더 이론적이고 원론적인 내용으로의 확대를 제안하였다. 가정과교수학습법 문항내용은 특정 교수학습모형에 관련된 지식을 묻는 내용으로 주로 출제되었다. 이에 구체적인 개선방안으로 특정 교수학습모형의 이론적 토대가 되고 전체적인 교수설계를 하기 위한 기본 바탕이 될 수 있는 교수학습이론에 관한 내용, 또한 현재가정과교육에 있어서 유용한 교수학습법이라고 입증되고 있는 실천적 추론 가정과 수업에 관한 내용으로의 확대를 제안하였다. 가정과교육평가 문항의 출제는 대다수의 문항이 수행평가에 관한 문항내용으로 출제되었다. 이에 구체적인 개선방안으로 문항의 변별도 여부의 판단, 평가문항의 내용 타당도 분석, 평가결과를 해석하는 능력, 평가자의 철학적 관점과 같은 내용으로의 확대를 제안하였다.

  • PDF

관심 문자열 인식 기술을 이용한 가스계량기 자동 검침 시스템 (Automatic gasometer reading system using selective optical character recognition)

  • 이교혁;김태연;김우주
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.1-25
    • /
    • 2020
  • 본 연구에서는 모바일 기기를 이용하여 획득한 가스계량기 사진을 서버로 전송하고, 이를 분석하여 가스 사용량 및 계량기 기물 번호를 인식함으로써 가스 사용량에 대한 과금을 자동으로 처리할 수 있는 응용 시스템 구조를 제안하고자 한다. 모바일 기기는 일반인들이 사용하는 스마트 폰에 준하는 기기를 사용하였으며, 획득한 이미지는 가스 공급사의 사설 LTE 망을 통해 서버로 전송된다. 서버에서는 전송받은 이미지를 분석하여 가스계량기 기물 번호 및 가스 사용량 정보를 추출하고, 사설 LTE 망을 통해 분석 결과를 모바일 기기로 회신한다. 일반적으로 이미지 내에는 많은 종류의 문자 정보가 포함되어 있으나, 본 연구의 응용분야인 가스계량기 자동 검침과 같이 많은 종류의 문자 정보 중 특정 형태의 문자 정보만이 유용한 분야가 존재한다. 본 연구의 응용분야 적용을 위해서는 가스계량기 사진 내의 많은 문자 정보 중에서 관심 대상인 기물 번호 및 가스 사용량 정보만을 선별적으로 검출하고 인식하는 관심 문자열 인식 기술이 필요하다. 관심 문자열 인식을 위해 CNN (Convolutional Neural Network) 심층 신경망 기반의 객체 검출 기술을 적용하여 이미지 내에서 가스 사용량 및 계량기 기물번호의 영역 정보를 추출하고, 추출된 문자열 영역 각각에 CRNN (Convolutional Recurrent Neural Network) 심층 신경망 기술을 적용하여 문자열 전체를 한 번에 인식하였다. 본 연구에서 제안하는 관심문자열 기술 구조는 총 3개의 심층 신경망으로 구성되어 있다. 첫 번째는 관심 문자열 영역을 검출하는 합성곱신경망이고, 두 번째는 관심 문자열 영역 내의 문자열 인식을 위해 영역 내의 이미지를 세로 열 별로 특징 추출하는 합성곱 신경망이며, 마지막 세 번째는 세로 열 별로 추출된 특징 벡터 나열을 문자열로 변환하는 시계열 분석 신경망이다. 관심 문자열은 12자리 기물번호 및 4 ~ 5 자리 사용량이며, 인식 정확도는 각각 0.960, 0.864 이다. 전체 시스템은 Amazon Web Service 에서 제공하는 클라우드 환경에서 구현하였으며 인텔 제온 E5-2686 v4 CPU 및 Nvidia TESLA V100 GPU를 사용하였다. 1일 70만 건의 검침 요청을 고속 병렬 처리하기 위해 마스터-슬레이브 처리 구조를 채용하였다. 마스터 프로세스는 CPU 에서 구동되며, 모바일 기기로 부터의 검침 요청을 입력 큐에 저장한다. 슬레이브 프로세스는 문자열 인식을 수행하는 심층 신경망으로써, GPU에서 구동된다. 슬레이브 프로세스는 입력 큐에 저장된 이미지를 기물번호 문자열, 기물번호 위치, 사용량 문자열, 사용량 위치 등으로 변환하여 출력 큐에 저장한다. 마스터 프로세스는 출력 큐에 저장된 검침 정보를 모바일 기기로 전달한다.

Bi-LSTM 기반의 한국어 감성사전 구축 방안 (KNU Korean Sentiment Lexicon: Bi-LSTM-based Method for Building a Korean Sentiment Lexicon)

  • 박상민;나철원;최민성;이다희;온병원
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.219-240
    • /
    • 2018
  • 감성사전은 감성 어휘에 대한 사전으로 감성 분석(Sentiment Analysis)을 위한 기초 자료로 활용된다. 이와 같은 감성사전을 구성하는 감성 어휘는 특정 도메인에 따라 감성의 종류나 정도가 달라질 수 있다. 예를 들면, '슬프다'라는 감성 어휘는 일반적으로 부정의 의미를 나타내지만 영화 도메인에 적용되었을 경우 부정의 의미를 나타내지 않는다. 그렇기 때문에 정확한 감성 분석을 수행하기 위해서는 특정 도메인에 알맞은 감성사전을 구축하는 것이 중요하다. 최근 특정 도메인에 알맞은 감성사전을 구축하기 위해 범용 감성 사전인 오픈한글, SentiWordNet 등을 활용한 연구가 진행되어 왔으나 오픈한글은 현재 서비스가 종료되어 활용이 불가능하며, SentiWordNet은 번역 간에 한국 감성 어휘들의 특징이 잘 반영되지 않는다는 문제점으로 인해 특정 도메인의 감성사전 구축을 위한 기초 자료로써 제약이 존재한다. 이 논문에서는 기존의 범용 감성사전의 문제점을 해결하기 위해 한국어 기반의 새로운 범용 감성사전을 구축하고 이를 KNU 한국어 감성사전이라 명명한다. KNU 한국어 감성사전은 표준국어대사전의 뜻풀이의 감성을 Bi-LSTM을 활용하여 89.45%의 정확도로 분류하였으며 긍정으로 분류된 뜻풀이에서는 긍정에 대한 감성 어휘를, 부정으로 분류된 뜻풀이에서는 부정에 대한 감성 어휘를 1-gram, 2-gram, 어구 그리고 문형 등 다양한 형태로 추출한다. 또한 다양한 외부 소스(SentiWordNet, SenticNet, 감정동사, 감성사전0603)를 활용하여 감성 어휘를 확장하였으며 온라인 텍스트 데이터에서 사용되는 신조어, 이모티콘에 대한 감성 어휘도 포함하고 있다. 이 논문에서 구축한 KNU 한국어 감성사전은 특정 도메인에 영향을 받지 않는 14,843개의 감성 어휘로 구성되어 있으며 특정 도메인에 대한 감성사전을 효율적이고 빠르게 구축하기 위한 기초 자료로 활용될 수 있다. 또한 딥러닝의 성능을 높이기 위한 입력 자질로써 활용될 수 있으며, 기본적인 감성 분석의 수행이나 기계 학습을 위한 대량의 학습 데이터 세트를 빠르게 구축에 활용될 수 있다.