• 제목/요약/키워드: 문서의 공개

검색결과 175건 처리시간 0.022초

텍스트마이닝을 활용한 공개데이터 기반 기업 및 산업 토픽추이분석 모델 제안 (Development of Topic Trend Analysis Model for Industrial Intelligence using Public Data)

  • 박선영;이진무;김유일;서진이
    • 기술혁신연구
    • /
    • 제26권4호
    • /
    • pp.199-232
    • /
    • 2018
  • 빅데이터 분석을 통한 기업 경영환경에 대한 이해와 통찰을 구하고자 하는 요구가 산업 및 기업 경영 전반에 증가하고 있다. 이러한 사회적 요구에 따라 산업의 이해와 기업 경영의 이해를 위하여 기업의 경영실적 및 향후 계획을 포괄적으로 담고 있는 기업공시정보를 활용한 연구가 주목을 받고 있다. 이러한 기업공시정보는 대표적인 비정형 데이터로써 텍스트마이닝 방법론을 적용하여 그 범위와 수준에 대한 다양한 접근을 통하여 산업 수준 및 기업 수준에서 다양한 활용이 가능하다. 그러나 아직은 이러한 기업공시자료를 활용한 산업 및 기업 레벨에서 적용가능한 수준의 분석모델이 부족한 것으로 파악된다. 따라서 본 연구에서는 실제 활용 가능한 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 제안하고자 한다. 미국상장기업의 공시자료인 미국 SEC EDGAR 자료를 기반으로 텍스트마이닝 알고리즘을 적용하여 산업 및 기업 수준의 경영주제(토픽)에 대한 추이분석이 가능한 모델을 제안하고자한다. SEC EDGAR의 10-K 문서를 대상으로 LDA 토픽 모델링을 통하여 산업 수준에서 전체 산업의 주제분야 분류를 파악하였고, 산업간 비교 측면에서 소프트웨어 산업과 하드웨어 산업 분야의 사례를 통해 최근 20년간의 토픽추이를 비교분석 하였다. 또한 최근 20년간의 기업의 경영주제 변화를 소프트웨어 산업에 속한 2개 기업을 중심으로 살펴보았다. 이를 통해 산업 및 기업 수준에서의 경영주제의 추이 변화를 파악하여 쇠퇴 및 성장 추세에 있는 경영주제를 확인 할 수 있었다. 한편 word2vec 워드 임베딩 모델과 주성분분석을 통한 차원 축약을 통해 소프트웨어 산업분야의 기업 및 특정 제품(혹은 서비스)에 대한 매핑을 통해 유사한 경영주제(토픽)를 가지는 기업 및 제품(서비스)을 사례를 통해 파악하였으며, 이를 시간적 흐름에 따른 변화 양상도 관찰할 수 있었다. 본 연구의 목적이 공개데이터를 활용한 산업 및 기업 수준의 분석모델을 개발하기 위한 방법론을 제안한 측면에서, 해외 데이터를 사용하여 산업의 경영주제 변화 추이, 기업의 경영주제 변화 추이를 거시적으로 조망할 수 있는 실무적인 방법론의 제안에서 의의가 있을 수 있다. 한편 기업의 기술경영전략 측면에서 기업의 경영토픽의 잦은 변화, 경영주제의 변화의 속도 등 다양한 변화 양상의 차이에 따른 기업의 매출 등의 경영성과와의 연관성 분석, 실제 기업의 제품포트폴리오의 구성에 따른 기업 간의 경쟁상황 등을 파악하는 미시적 모델 제안을 위한 추가 연구가 요구된다.

자질 보강과 양방향 LSTM-CNN-CRF 기반의 한국어 개체명 인식 모델 (Bi-directional LSTM-CNN-CRF for Korean Named Entity Recognition System with Feature Augmentation)

  • 이동엽;유원희;임희석
    • 한국융합학회논문지
    • /
    • 제8권12호
    • /
    • pp.55-62
    • /
    • 2017
  • 개체명 인식(Named Entity Recognition) 시스템은 문서에서 인명(PS), 지명(LC), 단체명(OG)과 같은 개체명을 가지는 단어나 어구를 해당 개체명으로 인식하는 시스템이다. 개체명 인식을 하기위한 전통적인 연구방법으로는 hand-craft된 자질(feature)을 기반으로 모델을 학습하는 통계 기반의 모델이 있다. 최근에는 딥러닝 기반의 RNN(Recurrent Neural Networks), LSTM(Long-short Term Memory)과 같은 모델을 이용하여 문장을 표현하는 자질을 구성하고 이를 개체명 인식과 같이 순서 라벨링(sequence labeling) 문제 해결에 이용한 연구가 제안되었다. 본 연구에서는 한국어 개체명 인식 시스템의 성능 향상을 위해, end-to-end learning 방식이 가능한 딥러닝 기반의 모델에 미리 구축되어 있는 hand-craft된 자질이나 품사 태깅 정보 및 기구축 사전(lexicon) 정보를 추가로 활용하여 자질을 보강(augmentation)하는 방법을 제안한다. 실험 결과 본 논문에서 제안하는 방법에 따라 자질을 보강한 한국어 개체명 인식 시스템의 성능 향상을 확인하였다. 또한 본 연구의 결과를 한국어 자연어처리(NLP) 및 개체명 인식 시스템을 연구하는 연구자들과의 향후 협업 연구를 위해 github를 통해 공개하였다.

주식 가격 변동 예측을 위한 다단계 뉴스 분류시스템 (Multi-stage News Classification System for Predicting Stock Price Changes)

  • 백우진;경명현;민경수;오혜란;임차미;신문선
    • 정보관리학회지
    • /
    • 제24권2호
    • /
    • pp.123-141
    • /
    • 2007
  • 주시가격을 예측하는 것은 주식 가격 변동에 영향을 미치는 많은 요인과 요인 간의 상호작용에 기인하여 매우 어렵다고 알려져 있다. 이 연구는 어떤 회사에 대한 좋은 기사는 그 회사의 주식가격을 오르도록 영향을 미칠 것이고 나쁜 기사는 그 반대의 작용을 할 것이라는 가정에서 시작했다. 여러 회사들에 대한 기사와 그 회사의 주식가격이 기사가 공개된 후에 어떻게 변했는가에 대한 분석을 통하여 위 가정이 맞는 것을 확인했다. 즉 기사의 내용을 기사에 나온 회사에 대하여 호의적인지 아닌지 신뢰성 있게 분류하는 방법이 있다면 어느 정도의 주식 가격 예측은 가능할 것이다. 많은 기사를 일관적으로 빨리 처리하기 위하여 상장회사에 대한 기사를 자동 분석하는 다단계 뉴스 분류시스템을 개발한 후 성능을 확인하여 자동 시스템이 무작위로 주가 변동을 예측했을 경우보다 높은 정확률을 보이는 것을 확인했다.

과학기술분야 용어 간 관계추출 시스템의 평가를 위한 테스트컬렉션 구축 (Construction of Test Collection for Evaluation of Scientific Relation Extraction System)

  • 최윤수;최성필;정창후;윤화묵;류범종
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.754-758
    • /
    • 2009
  • 대용량 문서에서 포함된 정보를 추출하는 작업은 정보검색분야 뿐만 아니라 질의응답과 요약분야에서 매우 유용하다. 정보 추출 분야 중 관계추출 기술이 중요하게 인식되고 있으나, 기계학습모델을 기반으로 개발하기 위한 학습집합과 개발된 기술을 평가하기 위한 평가집합의 부재로 연구에 난항을 겪고 있다. 본 논문은 한국과학기술정보연구원(KISTI)이 보유하고 있는 해외학술지 데이터를 기반으로 과학기술용어에 대한 관계추출 기술 시스템을 개발하고 평가하기 위한 테스트 컬렉션(KREC2008) 구축을 위한 구축방법 및 절차를 기술한다. 해외 학술지 데이터의 초록을 대상으로 기술용어를 추출하였고, 기술용어의 쌍의 관계에 해당되는 단어를 Wordnet에 매핑하여 동사의 개념을 일반화하는 여러 개의 개념화된 후보군을 추출하였다. 평가기준 및 절차 교육이 이루어진 평가자가 개념화된 후보군에서 적합하다고 판단되는 "개념"을 "관계"로 지정하였다. Wordnet을 이용하여 "관계"에 대한 후보군을 생성하였기때문에, 일관성 있는 관계설정의 품질의 향상시켰고 비전문가도 쉽게 테스트컬렉션을 구축할 수 있는 방법을 제공하였다. 현재 KREC2008은 정보추출 연구자 및 개발자에게 공개되어 있으며, 과학기술분야 관계추출 시스템의 개발 및 신뢰도 평가를 목적으로 하는 학술대회의 연구결과 발표 및 제품 비교 등에 활용될 예정이다.

  • PDF

공간지능화서비스 구현을 위한 공공데이터 분석 (An Analysis of the Public Data for Making the Ambient Intelligent Service)

  • 김미연;서동조
    • 디지털융복합연구
    • /
    • 제12권12호
    • /
    • pp.313-321
    • /
    • 2014
  • 현대 사회는 엄청난 양의 데이터를 만들어내는 디지털 시대에 접어들었고, 다변화되는 도시에서는 정보의 생성, 수집, 표현을 특징으로 하는 스마트 공간이 등장하고 있다. 2012년 이후 스마트기기의 확산과 초연결사회로 불리우는 소셜미디어 환경에서 공공데이터에 대한 관심이 더욱 고조되고, 보편화된 모바일 기기 사용 및 SNS 이용 확산에 따라 빅 데이터에 대한 이슈에 주목하고 있다. 초기에는 데이터의 플랫폼 구성에 연구개발이 집중되었으나 최근에는 공간지능화 서비스 구현을 위한 데이터의 분석과 활용방안에 대한 여러 분야의 아이디어가 제안되고 있다. 본 연구에서는 이러한 공공데이터의 활용성 측면에서 전문가보다는 일반인의 사용성 증대를 위한 시각화 과정에 집중하고자 기존의 공공데이터포털에서 제공하는 공개데이터 및 공공데이터 서비스 현황을 파악하여 그 활용가능성을 고찰하고자 한다. 연구의 결과로 일반 시민들에게 있어서 데이터의 분석 및 응용은 현재 종이문서의 이용을 감소시키고, 지능형 공간에서 공공정보서비스에 대한 개개인의 요구 및 행동에 맞추어 빠르고 신속한 대응할 수 있는 어플리케이션 개발에 도움이 될 것으로 기대한다.

한국의 교도소도서관 현황분석과 개선방안 (Analysis of the Current Situation and Improvement Method of Correctional Facility Libraries in Korea)

  • 권세희;윤혜영
    • 정보관리연구
    • /
    • 제40권3호
    • /
    • pp.125-150
    • /
    • 2009
  • 이 연구의 목적은 인권의 사각지대에 있는 교정시설 내에 구금된 수용자들을 대상으로 정보를 제공하는 교도소도서관의 현황을 분석하여 그 문제점을 도출하고 개선방안을 제시하는 것이다. 교도소도서관 현황을 파악하기 위하여 시설 및 설비와 인적 자원, 보유도서현황과 대출현황 그리고 예산현황 등에 이르기까지 종합적으로 통계자료를 토대로 정리 분석하였다. 문화체육관광부의 국가도서관 통계시스템사이트(2008년 기준: 2007년 $1{\sim}12$월 조사)와 2008년 발간한 '도서관발전종합계획(2009-2013)', 교도소에 정보공개청구를 통하여 얻은 '관용도서 비치 및 활용현황' 문서 34건을 이용하여 교도소도서관의 시설, 인적 자원, 장서, 서비스, 예산 등의 실태를 조사하였다. 이러한 현황 조사내용을 토대로 하여 한국교도소도서관의 문제점을 추출해 보고 이에 대한 발전방향을 모색하였다.

온라인 텍스트 분석을 통해 추정한 기업의 사회적책임 성과가 기업의 단기적 장기적 성과에 미치는 영향 분석 (Investigating the Impact of Corporate Social Responsibility on Firm's Short- and Long-Term Performance with Online Text Analytics)

  • 이희승;진윤선;권오병
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.13-31
    • /
    • 2016
  • 그동안 기업의 사회적 책임(CSR)관련 활동의 결과가 기업 성과에 미치는 단기적 및 장기적 영향에 대한 다양한 연구가 진행되었지만 그 결과는 일관되지 못한데 그 주된 원인은 기업의 사회적책임이라고 하는 개념의 불일치였다. 따라서 본 연구는 온라인 뉴스와 같은 비정형 공개 데이터로부터 기업의 사회적책임에 관련한 키워드를 텍스트 마이닝 기법을 사용하여 추출하고 그 개념에 대한 통계치와 기업 성과와의 관계성을 이해하려고 했다. 이를 위해 개념과 관련한 키워드는 뉴욕타임즈와 구글 스칼러에서 CSR이라고 하는 단어로 검색한 비정형 데이터로부터 인식하였다. 그런 다음 점검 대상이 되는 기업에 대한 글이 실려 있는 온라인 문서를 수집하여 기업의 사회적 책임과 기업 단기적 및 장기적 성과 사이의 인과관계를 분석하였다. 그 결과, 기업의 사회적 책임에 대한 전문적인 평가 보고서의 도움 없이도 본 연구에서 개발한 기업의 사회적 책임 인덱스만으로 기업의 단기적 성과에는 영향이 없지만 장기적 성과와는 통계적으로 유의하게 정비례관계가 있는 것이 밝혀졌다. 본 연구는 빅데이터 분석을 통해 효율적이고 의미 있는 기업의 사회적 책임 평가 방법을 개발한 첫 번째 시도라는 의미가 있다.

세종시 이전 중앙행정기관의 기록관 운영 방안 검토 공간 및 업무의 공동 운영을 중심으로 (A Study on cooperation of Record Center following relocation of Central Administrative Agencies focusing on collective management of space and function in Record Center)

  • 남경호;권용찬
    • 기록학연구
    • /
    • 제34호
    • /
    • pp.29-56
    • /
    • 2012
  • 2011년부터 중앙행정기관을 포함한 148개의 공공기관이 지방으로 이전하고 있다. 2012년 9월 14일에는 중앙행정기관 중에서 국무총리실이 첫 번째로 세종시 이전을 시작하였고, 연말까지 국무총리실을 포함한 6개 중앙행정기관과 6개 소속기관이 세종시 이전을 완료할 예정이다. 공공기관의 지방 이전과 관련하여 기록공동체 영역에서는 기록관 이전 문제를 고민해야 한다. 현재 대부분의 공공기관 기록관이 시설, 인력, 장비 등을 제대로 갖추고 있지 않은 현실을 감안할 때, 자칫 기록관 이전이라는 당면과제를 충분히 해결할 수 있을지 의문이다. 본고는 지방 이전 기록관의 현황분석을 통하여 이전 시 발생할 수 있는 대표적인 문제점을 파악하고자 하였다. 분석 대상 기록관은 이전을 완료하였거나 2012년에 세종시로 이전 예정인 중앙행정기관으로 하였고, 해당 기록관에 정보공개청구 및 개별접촉 방법을 통하여 필요한 자료를 확보하였다. 수집된 자료를 분석하여 기록관 이전에 따른 문제점을 확인하였고, 기록관 이전을 계기로 기존의 기록관 환경보다 개선된 사례가 있는지 확인하였다. 또한 기관 이전을 계기로 우리나라 기록관 체제의 현실적인 한계(전담인력 부족 및 미확보, 시설 공간 예산 부족 등)를 개선할 수 있는 방안을 제안하였다.

오픈소스 기반 APT 공격 예방 Chrome extension 개발 (Development of an open source-based APT attack prevention Chrome extension)

  • 김희은;손태식;김두원;한광석;성지훈
    • Journal of Platform Technology
    • /
    • 제9권3호
    • /
    • pp.3-17
    • /
    • 2021
  • APT(advanced persistent threat) 공격이란 잠행적이고 지속적인 컴퓨터 해킹 프로세스들의 집합으로 특정 실체를 목표로 행해지는 공격이다[1]. 이러한 APT 공격은 대개 스팸 메일과 위장된 배너 광고 등 다양한 방식을 통해서 이뤄진다. 대부분 송장, 선적 서류(Shipment Document), 구매 주문서(P.O.-Purchase Order) 등으로 위장한 스팸 메일을 통해 유포되기 때문에 파일 이름도 동일하게 위와 같은 이름이 사용된다. 그리고 이러한 정보탈취형(Infostealer) 공격이 가장 2021년 2월 첫째 주 가장 많이 발견된 악성 코드였다[2]. Content Disarm & Reconstruction(이하 CDR)은 백신, 샌드박스에서 막아내지 못한 보안 위협에 대하여 파일 내 잠재적 보안 위협 요소를 원천 제거 후 안전한 파일로 재조합하여 악성코드 감염 위험을 사전에 방지할 수 있는 '콘텐츠 무해화 & 재조합' 기술이다. 글로벌 IT 자문기관 '가트너(Gartner)'에서는 첨부파일 형태의 공격에 대한 솔루션으로 CDR을 추천하고 있다. Open source로 공개된 CDR 기법을 사용하는 프로그램으로 'Dangerzone'이 있다. 해당 프로그램은 대부분의 문서 파일의 확장자를 지원하지만, 한국에서 많이 사용되는 HWP 파일의 확장자를 지원하지 않고 있다. 그리고 Gmail은 악성 URL을 1차적으로 차단해주지만 Naver, Daum 등의 메일 시스템에서는 악성 URL을 차단하지 않아 손쉽게 악성 URL을 유포할 수 있다. 이러한 문제점에서 착안하여 APT 공격을 예방하기 위한 HWP 확장자를 지원하는 'Dangerzone' 프로그램, Naver, Daum 메일 내 URL 검사, 배너형 광고 차단의 기능을 수행하는 Chrome extension을 개발하는 프로젝트를 진행했다.

생태학 분야 데이터 저널 발행 전략 연구 - K기관을 중심으로 - (A Study on the Strategies for Publishing Data Journals in the Field of Ecology: Focused on K Institution)

  • 정영임;권오석;김기동;김소형;서태설;김선태
    • 한국도서관정보학회지
    • /
    • 제51권4호
    • /
    • pp.83-100
    • /
    • 2020
  • 오픈 사이언스 시대 연구데이터의 공개를 가속화하고 접근성 및 인용가능성 개선 및 연구데이터에 대한 표준화된 기술문서 제공은 또 다른 과학적 발견에 기여할 수 있어 데이터 출판이 주목을 받고 있다. 또한 출판된 데이터 역시 연구논문과 동등한 지위를 유지할 수 있는 방안으로 데이터 논문이 대두되고, 새로운 학술출판의 유형으로 데이터 저널 발간이 증가추세에 있다. 특히 생태학 분야는 대규모 연구데이터가 생산되고 관리되어야 하는 분야로 전세계적으로 데이터 저널 발간이 활발하다. 반면 국내에는 데이터 저널 연구가 초기 단계이고, 생태학 분야 데이터 저널이 전무하다. 이에 본 연구에서는 생태 분야의 데이터 저널을 발간하기 위한 전략을 탐색하고 제시하였다. 먼저 국내외 데이터 저널 발간 현황과 국내 저널 출판 현황을 조사하였다. 또한 학술출판 및 오픈액세스 정책 전문가, 생태학 학술지 발간 전문가로 구성된 전문가그룹 인터뷰를 수행하였다. 현재 데이터 저널 발간 인프라가 제대로 구축되지 않고 이에 대한 평가체제가 갖추어 지지 않은 국내 학술출판 관행을 반영하고 국내외 조사결과와 전문가 FGI를 실시 결과를 바탕으로 생태학 분야 데이터 저널 출간 방향, 데이터 논문 투고지침, 저널 구성 및 발행주기, 저널 편집위원 구성, 원고의 수급 측면에서 전략을 제시하였다.