• 제목/요약/키워드: Data dictionary

검색결과 346건 처리시간 0.024초

형사사법정보의 빅데이터 활용방안 연구: 구조화 범주화 관점으로 (A Study on the Use of Criminal Justice Information Big Data in terms of the Structuralization and Categorization)

  • 김미령;노윤주;김성훈
    • 정보관리학회지
    • /
    • 제36권4호
    • /
    • pp.253-277
    • /
    • 2019
  • 4차 산업혁명시대를 맞아 데이터의 중요성은 심화되고 있으나, 개인정보보호 등의 문제로 데이터의 활용이 쉽지 않은 경우가 많이 있다. 형사사법정보는 범죄 예측 및 예방, 범죄수사 과학화, 양형합리화 등 다양한 활용가치가 예상됨에도 현재 개인정보보호와 형사사법정보 관련 법률적 해석 문제로 활용이 상당히 제한되고 있다. 본 연구는 형사사법정보의 구조화·범주화를 통해 '범죄데이터'로 전환하여 빅데이터로서 활용하도록 제안하였으며, '범죄데이터' 활용시 법률적 문제, 활용가치, 데이터 생성 및 활용시 고려사항을 전문가를 통해 검증하고 향후 전략적 발전방안을 도출하였다. 연구결과, '범죄데이터'는 개인정보보호문제는 해결된 것으로 보여지나, 형사사법정보 관련법에 명시할 필요는 있으며, 빅데이터 활용을 위해 분석 가능하도록 표준화된 형태로 정리되는 것이 시급함이 밝혀졌다. 향후 진행방향으로는 데이터 요소 도출, 용어사전 시소러스 구축, 데이터 등급화를 위한 개인민감정보 정의 및 등급지정, 비정형데이터의 정형화를 위한 알고리즘 개발 등을 제시하였다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

10주간의 수영교실 참여에 따른 지체장애인의 긍정심리자본(PPC)에 미치는 융합 연구 (Fusion research on positive psychological capital (PPC) in accordance with physical disabilities participate in swimming classes for 10 weeks)

  • 김동원
    • 한국융합학회논문지
    • /
    • 제7권3호
    • /
    • pp.159-165
    • /
    • 2016
  • 이 연구의 목적은 10주간의 수영교실에 참여하는 지체장애인들의 운동수행을 통해 나타나는 긍정심리자본에 대한 변화를 규명하는데 있다. 연구대상은 30~40대의 남성 지체장애인 총 21명으로 참여집단(10명)과 비참여집단(11명)으로 실시하였으며, 실험기간은 10주간으로 주 3회, 50분간 실시하였다. 자료처리는 SPSS 21.0 프로그램을 이용하여 운동 전과 후의 검사자료를 평균과 표준편차를 산출하였고, 실험설계는 집단(수영 참여군, 비참여군)과 시간(사전, 사후)에 따라서 이원반복측정 분산분석(2-way[2] RM ANOVA)을 실시하였으며, 모든 통계적 유의 수준은 .05로 설정하였다. 연구결과를 종합해보면, 지체장애인들의 수영교실 참여는 긍정심리자본에 긍정적인 효과를 미쳤다는 것을 알 수 있다.

학술논문의 참고문헌 자동매핑 방법에 관한 연구 (Study on Automatic Mapping Method for Reference of Scholarly Papers)

  • 한정민;장현철;김진현;예상준;김상균;김철;송미영
    • 정보관리연구
    • /
    • 제41권3호
    • /
    • pp.155-173
    • /
    • 2010
  • 학문의 발전과 주제의 다양화로 인하여 각계의 연구자들은 자신에게 필요한 정보를 정확하게 찾을 필요성이 커지고 있다. 그리하여 본 논문에서는 효율적인 참고문헌 추출 방법으로 중복된 참고문헌을 비교 분석하여 자동으로 매핑해주는 시스템을 구축하고, 한의학 사전을 통한 한자의 오타를 교정할 수 있는 방법을 연구하였다. 이러한 방법을 적용함으로써 참고문헌의 중복입력과 한자오류를 개선할 수 있었다.

조선왕조실록의 빅데이터분석을 통한 유교정치 연구 (Study on Confucian Politics about the Annals of the Choson Dynasty through Big Data Analysis)

  • 문혜정
    • 한국콘텐츠학회논문지
    • /
    • 제18권7호
    • /
    • pp.253-261
    • /
    • 2018
  • 이 연구의 목적은 현대 정책학의 이론적 근거를 조선왕조의 유교정치 사례에서 찾는 것이다. 분석대상은 조선왕조실록에 기록된 유교 관련 기사이다. 연구방법은 문헌조사에 근거한 사례분석이며, 빅데이터 기술을 적용해 모집단 전체를 분석하였다. 분석결과 정책분야, 왕조별특징, 분야별주제, 정책변화, 결정요인을 확인했다. 조선의 유교정책은 제도, 조직, 재정, 애민, 예(禮) 다섯 분야이다. 왕조별특징으로 세종, 성종, 영조, 정조를 중심으로 정치적인 맥이 계승되었다. 분야별주제는 전기는 공자 중심의 예(禮)를, 후기는 주자 중심의 제도를, 위기 시 맹자 중심의 재정이 주된 내용이다. 정책변화는 초기 건국, 전기 정비, 중기 위기, 후기 재건, 말기 몰락 시기로 구분되었다. 결정요인은 빈번히 거론된 공자보다 주자나 정자가 큰 것을 확인했다. 이 연구는 한글과 한자를 병기한 사전을 구축하여 해석과 맥락분석의 정확성을 높였다. 유교정치를 서양의 정책학적 관점에서 분석하여 동양의 정책학 구현의 가능성을 발견하였다.

데이터베이스 시스템 성능 향상을 위한 데이터베이스 관리 시스템 파라미터 튜닝 프로세스 (Database Management System Parameter Tuning Processes for Improving Database System Performance)

  • 최용락;윤병권;정기원
    • 한국전자거래학회지
    • /
    • 제7권1호
    • /
    • pp.107-127
    • /
    • 2002
  • Database system parameter tuning is one of database system tuning that achieve to improve performance of database system with application program tuning and data model tuning. By parameter tuning adjusts value of entry that is staled in data dictionary's parameter file that is included to database system, it is thing which make relevant database system can display performance of most suitable. And, it is that achievement is one o( possible tuning method immediately without occurrence of additional expense or involved hardware for database system performance elevation and ashes composition of software. But, it is actuality that administration about parameter practical use is not achieved, and is using Default Value of parameter that database management system offers just as it is systematically. So, this paper presents parameter tuning process that can :achieve Parameter tuning of database system that is operating present systematically, and parameter tuning process each activity important input urea and tuning achievement product. And explain about effect and result that happen by sort database system performance and parameters that it is affinity systematically, and grasp relationships between parameter, and change parameter of string database system. And not that parameter uses contents that specify by fixing when establish database administration system, is going to emphasize and explain that must utilize changing continuously during database system operation. It changes parameter entry value how in various kinds different operation environment and present if must apply, and will arrange effect that this parameter enoy value alteration gets in performance liking into account point that is actuality that is using parameter that define database administrators when install the database system just as it is continually without alteration.

  • PDF

한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩 (Utilizing Local Bilingual Embeddings on Korean-English Law Data)

  • 최순영;;임희석
    • 한국융합학회논문지
    • /
    • 제9권10호
    • /
    • pp.45-53
    • /
    • 2018
  • 최근 이중 언어 임베딩(bilingual word embedding) 관련 연구들이 각광을 받고 있다. 그러나 한국어와 특정 언어로 구성된 병렬(parallel-aligned) 말뭉치로 이중 언어 워드 임베딩을 하는 연구는 질이 높은 많은 양의 말뭉치를 구하기 어려우므로 활발히 이루어지지 않고 있다. 특히, 특정 영역에 사용할 수 있는 로컬 이중 언어 워드 임베딩(local bilingual word embedding)의 경우는 상대적으로 더 희소하다. 또한 이중 언어 워드 임베딩을 하는 경우 번역 쌍이 단어의 개수에서 일대일 대응을 이루지 못하는 경우가 많다. 본 논문에서는 로컬 워드 임베딩을 위해 한국어-영어로 구성된 한국 법률 단락 868,163개를 크롤링(crawling)하여 임베딩을 하였고 3가지 연결 전략을 제안하였다. 본 전략은 앞서 언급한 불규칙적 대응 문제를 해결하고 단락 정렬 말뭉치에서 번역 쌍의 질을 향상시켰으며 베이스라인인 글로벌 워드 임베딩(global bilingual word embedding)과 비교하였을 때 2배의 성능을 확인하였다.

인터넷 감정기호를 이용한 긍정/부정 말뭉치 구축 및 감정분류 자동화 (Automatic Construction of a Negative/positive Corpus and Emotional Classification using the Internet Emotional Sign)

  • 장경애;박상현;김우제
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.512-521
    • /
    • 2015
  • 네티즌은 인터넷을 통해서 상품을 구매하고 상품에 대한 감정을 긍정 혹은 부정으로 상품평에 표현한다. 상품평에 대한 분석은 잠재적 소비자뿐만 아니라 기업의 의사결정에 중요한 자료가 된다. 따라서 인터넷의 대량 리뷰에서 의미 있는 정보를 분석하여 의견을 도출하는 오피니언 마이닝 기술의 중요성이 증대되고 있다. 기존의 연구는 대부분이 영어를 기반으로 진행되었고 아직 한글에 대한 상품평 분석은 활발히 이루어 지지 않고 있다. 또한 한글은 영어와 달라 꾸미는 말과 어미가 복잡한 특성을 갖고 있다. 그리고 기존의 연구는 통계적 기법, 사전 기법, 기계학습 기법 등을 사용하여 연구되었으나 인터넷 언어의 특성을 감안하지는 못하였다. 본 연구에서는 감정이 포함된 인터넷 언어의 특성을 분석하여 감정분석의 정확률을 높이는 감정분류 방법을 제안한다. 이를 통해 데이터에 독립적인 인터넷 감정기호를 이용해서 자동으로 긍정 및 부정 상품평을 분류할 수 있었고 높은 정확률, 재현율, Coverage 결과를 통해서 제안 알고리즘의 유효성을 확인할 수 있었다.

RCB트라이를 이용한 빠른 검색과 소용량 색인 구조에 관한 연구 (A Study on Small-sized Index Structure and Fast Retrieval Method Using The RCB trio)

  • 정규철
    • 한국컴퓨터정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.11-19
    • /
    • 2007
  • 본 논문에서는 CB 트라이와 HCB 트라이의 단점을 보완한 RCB 트라이를 제안한다. 먼저 CB 트라이의 경우 처음으로 축약된 구조를 시도하였으나 데이터의 양이 증가함에 따라 트리의 균형을 맞추기 위해 사용되는 더미노드들로 인해 삽입에 상당한 어려움을 가지고 있다. 반면 계층적으로 표현한 HCB트라이는 map이 오른쪽으로 증가하는 것을 막기 위해 일정 깊이를 주어 깊이에 다다르면 새로운 트리를 만들어 연결시키는 방법을 이용하였다. 결과적으로 입력과 검색 속도를 상당히 빠르게 진전시킬 수 있었으나 CB트라이와 마찬가지로 더미노드를 사용하고 여러 트리의 링크를 사용하기 때문에 저장공간이 커지는 단점을 안고 있다. 본 논문에서 제안한 RCB트라이는 더미노드를 완전히 없애 treemap을 약 35%정도 줄일 수 있었고 HCB트라이에 비해 전체 색인의 크기를 절반으로 줄였다.

  • PDF

다양한 지식을 사용한 영한 기계번역에서의 대역어 선택 (Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge)

  • 이기영;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.75-86
    • /
    • 2006
  • 일반적으로 영어를 한국어로 번역할 때, 대부분의 영어 명사 어휘들은 해당 어휘가 사용되는 문맥에 따라 다양한 한국어 명사로 번역될 수 있다. 따라서 영어 원문이 갖는 의미를 손실 없이 번역문으로 전달하기 위해서는 문맥에 맞는 올바른 한국어 대역어를 선택할 수 있어야 한다. 본 논문에서는 동사구패턴, 공기 정보에 기반한 의미벡터, 공기 품사 정보 및 한국어 문맥 통계 정보 등의 다양한 지식을 사용하여 영어 명사 어휘의 대역어를 올바로 선택하는 방안을 제공한다. 동사구 패턴은 사전과 코퍼스를 사용하여 구축되었으며, 의미 벡터는 영어 어휘가 특정 한국어 어휘로 번역될 때 공기하는 정보들의 조건부 확률을 나타낸다. 한국어 문맥 통계 정보는 한국어 코퍼스로부터 추출된 N-그램 정보를 나타내며, 품사 공기 정보는 대역어 선택 모호성을 지니는 영어 어휘와 통계적으로 깊은 관련성을 지니는 품사를 나타낸다. 마지막으로 본 논문에서 제안한 대역어 선택 모호성 해소 방안을 평가하기 위한 실험을 수행하였으며, 실험 결과, 제안하는 방법이 기존의 방법보다 성능이 좋다는 것을 확인할 수 있었다.

  • PDF