• 제목/요약/키워드: Library

검색결과 15,824건 처리시간 0.035초

텍스트 마이닝 기법을 적용한 뉴스 데이터에서의 사건 네트워크 구축 (Construction of Event Networks from Large News Data Using Text Mining Techniques)

  • 이민철;김혜진
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.183-203
    • /
    • 2018
  • 전통적으로 신문 매체는 국내외에서 발생하는 사건들을 살피는 데에 가장 적합한 매체이다. 최근에는 정보통신 기술의 발달로 온라인 뉴스 매체가 다양하게 등장하면서 주변에서 일어나는 사건들에 대한 보도가 크게 증가하였고, 이것은 독자들에게 많은 양의 정보를 보다 빠르고 편리하게 접할 기회를 제공함과 동시에 감당할 수 없는 많은 양의 정보소비라는 문제점도 제공하고 있다. 본 연구에서는 방대한 양의 뉴스기사로부터 데이터를 추출하여 주요 사건을 감지하고, 사건들 간의 관련성을 판단하여 사건 네트워크를 구축함으로써 독자들에게 현시적이고 요약적인 사건정보를 제공하는 기법을 제안하는 것을 목적으로 한다. 이를 위해 2016년 3월에서 2017년 3월까지의 한국 정치 및 사회 기사를 수집하였고, 전처리과정에서 NPMI와 Word2Vec 기법을 활용하여 고유명사 및 합성명사와 이형동의어 추출의 정확성을 높였다. 그리고 LDA 토픽 모델링을 실시하여 날짜별로 주제 분포를 계산하고 주제 분포의 최고점을 찾아 사건을 탐지하는 데 사용하였다. 또한 사건 네트워크를 구축하기 위해 탐지된 사건들 간의 관련성을 측정을 위하여 두 사건이 같은 뉴스 기사에 동시에 등장할수록 서로 더 연관이 있을 것이라는 가정을 바탕으로 코사인 유사도를 확장하여 관련성 점수를 계산하는데 사용하였다. 최종적으로 각 사건은 각의 정점으로, 그리고 사건 간의 관련성 점수는 정점들을 잇는 간선으로 설정하여 사건 네트워크를 구축하였다. 본 연구에서 제시한 사건 네트워크는 1년간 한국에서 발생했던 정치 및 사회 분야의 주요 사건들이 시간 순으로 정렬되었고, 이와 동시에 특정 사건이 어떤 사건과 관련이 있는지 파악하는데 도움을 주었다. 또한 일련의 사건들의 시발점이 되는 사건이 무엇이었는가도 확인이 가능하였다. 본 연구는 텍스트 전처리 과정에서 다양한 텍스트 마이닝 기법과 새로이 주목받고 있는 Word2vec 기법을 적용하여 봄으로써 기존의 한글 텍스트 분석에서 어려움을 겪고 있었던 고유명사 및 합성명사 추출과 이형동의어의 정확도를 높였다는 것에서 학문적 의의를 찾을 수 있다. 그리고, LDA 토픽 모델링을 활용하기에 방대한 양의 데이터를 쉽게 분석 가능하다는 것과 기존의 사건 탐지에서는 파악하기 어려웠던 사건 간 관련성을 주제 동시출현을 통해 파악할 수 있다는 점에서 기존의 사건 탐지 방법과 차별화된다.

기록관리학의 발전을 위한 교육과정연구 -준하태(駿河台)(스루가다이)대학(大學)의 경우를 중심(中心)으로- (A Study on the Curriculum for Record Management Science Education - with focus on the Faculty of Cultural Information Resources, Surugadai University; Evolving Program, New Connections)

  • 김용원
    • 한국기록관리학회지
    • /
    • 제1권1호
    • /
    • pp.69-94
    • /
    • 2001
  • 본 논문의 목적은 일본에서의 기록관리학 교육의 현황을 개관하고, 몇 가지 중요한 이슈와 문제점을 언급하면서 이 분야의 급속한 성장의 영향을 살펴보는 것이다. 기록관리학 교육의 목적은 정보서비스의 질을 향상시키고 정보전문가의 적절한 공급을 보장하는 것이다. 기록관리학프로그램은 학생들에게 전문직업 교육을 하는 것이므로 교육과정에는 교육과 실무 훈련이 모두 포함되어야 한다. 이점은 흔히 이론과 실제의 대비로 표현된다. 학습이 이루어지는 환경의 사회적, 경제적 및 기술적 현실의 합류점이 양자에게 모두 영향을 준다. 본 논문은 일본에서의 기록관리학 교육의 역사적 배경과 현황을 검토한다. 또한 교육기관들의 다양한 형태의 교과과정과 교수진을 분석하되 일본 최초의 종합적인 대학 수준 프로그램인 스루가다이대학교의 학부프로그램에 초점을 둔다. 스루가다이대학교 문화정보학부는 정보학 분야를 통합한 새로운 학부로서 다양한 문화정보자원관리의 이론과 실제를 연구하기 위해 1994년도에 설립되었다. 그 목적은 archival science, records management, 박물관 학예직 및 사서직 분야에서 전문적 훈련을 제공함으로써 정보학 분야의 연구를 촉진하고 장려하는 것이다. 학부에는 두 개의 학과가 있고 각각에는 두 개의 코스가 있다; 문화정보학과. - 영상정보코스, - 관광정보코스 지식정보학과: 지식커뮤니케이션코스, 레코드 아카이브스코스 전체 교과과정의 구조는 역시 기본과목 교육부터 단계적으로 조직된다. 학생이 대학교에 입학하면 바로 수강하는 오리엔테이션과목들은 전문교육의 입문이 되며, 대학에서의 기본적인 학습 연구방법을 배운다. 1학년과 2학년 동안 학생들은 전문화를 위한 필수단계로서 기초과목과 기간과목들을 수강한다. 이를 위해 광범위한 주제의 과목들이 개설된다. 개설코스수는 약 150개에 이른다.3학년부터는 자신의 주전공이 해당하는 특정 코스를 시작하며 세미나와 실습을 통해 습득한 지식을 실제에 적용하게 된다. 각 학과에 속한 코스들은 2학년을 시작하는 학생들에게 개설된다. 그러나 두 학과 간에 넘을 수 없는 장벽은 없으며 졸업필요요건에 약간의 차이만 있을 뿐이다. 학생들은 자신이 속한 학과에 관계없이 3 4학년 세미나를 선택할 수 있다. 문헌정보학 학사학위를 받으려면 기초과목군(예: 문헌정보사회사, 문화인류학, 과학사, 행동과학, 커뮤니케이션 등)에서 34학점, 외국어에서 16학점(영어 10학점 포함), 정보처리에서 14학점(이론과 실습 포함), 그리고 자신의 전공코스에서 60학점을 취득해야 한다. 마지막으로 일본 기록관리학교육이 당면하고 있는 몇 가지 과제와 문제점을 아래와 같이 간단히 요약한다. - 관련 분야 및 유사 프로그램과의 결합 및 조화, - 교과과정 개선, - 교과서 부족, - 유능한 교수의 부족, - 졸업생의 취업문제 정보서비스가 점점 더 복합, 통합, 멀티미디어어화 되어감에 따라 정보전문직들은 다른 분야의 전문가들과 더욱 긴밀하게 협력할 필요가 있을 것이다. 아키비스트, 레코드메니저 및 박물관 큐레이터와 함께 일하는 것이 정보전문직으로서의 사서직의 생존에 필수적이 될 것이다. 더욱 정보화되는 사회에서 변화를 견뎌내려면 문화기관 내 모든 사람들의 강력한 연대가 요구된다. 미래의 동료들이 경쟁력을 갖게 하기 위해서는 정보전문직 간에 그리고 국경을 넘어서 파트너쉽을 구축하고 강화할 필요가 있을 것이다.

한국 기록관리행정의 변천과 전망 (Records Management and Archives in Korea : Its Development and Prospects)

  • 남효채
    • 한국기록관리학회지
    • /
    • 제1권1호
    • /
    • pp.19-35
    • /
    • 2001
  • 조선왕조의 기록관리 전통의 맥이 끊어진지 거의 한세기가 지난 1999년도에 한국은 "공공기관의 기록물관리에 관한 법률"을 제정 시행함으로써 기록관리의 새로운 시대를 맞이했다. 조선왕조실록에는 국사 전반에 걸쳐 오백년 간의 중요한 역사적 사실들이 기록되었다. 이것은 인류역사상 주요한 업적이며 전세계적으로 귀한 사례이다. 이것이 가능했던 것은 실록이 누대(累代)의 사관들이 저술하고 편찬한 일차자료인 기록물을 수집, 선정한 것이기 때문이다. 근대적 기록보존소에서는 중요한 공공기록물이 원형대로 보존될 필요가 있기 때문에 기록보존을 위해 중요한 국가 기록물을 평가 선별하는 근대적 기록보존제도를 확립해야 했다. 그러나 일제에 의한 식민지화로 그 기회를 빼앗겼고 우리의 훌륭한 기록보전 전통은 계승되지 못했다. 중앙화된 기록보존제도는 1969년 총무처에 정부기록보존소를 설립함으로써 발전하기 시작했다. 정부기록보존소는 조선왕조의 사고 전통을 계승해서 1984년 부산에 현대적 사고시설을 건축했다. 1998년 정부기록보존소는 대전정부종합청사로 본부를 이전하고 첨단 시청각기록물 서고를 갖추었다. 1996년부터 정부기록보존소는 마이크로필름 보존을 보완하고 수작업 등록시스템을 개선하기 위하여 기록물 관리시스템 전산화를 도입했다. 소장 기록물의 디지털화는 이용자에게 디지털 이미지를 제공하기 위한 주요한 사업이었다. 이를 위해 정부기록보존소는 새로 컴퓨터/서버 시스템을 구입하고 응용 소프트웨어를 개발했다. 이와 병행하여 정부기록보존소는 역사학 및 문헌정보학 배경을 가진 아키비스트들을 증원하여 고도의 전문화를 이루는 방향으로 인력구조를 크게 혁신하였다. 보존연구직과 전산직 역시 채용되었다. 새로운 기록물관리법은 2000년 1월 1일부터 시행되고 있다. 이 법은 한국의 기록물관리에 있어 다음과 같은 변화를 가져왔다. 첫째, 이 법은 입법 사법 행정부, 헌법기관, 육해공군, 국가정보원 등 모든 공공기관의 기록물을 규정한다. 범국가적으로 통일된 기록물관리체계가 갖추어지게 되었다. 둘째, 각 기관의 수준별로 공공기록물 관리 기관을 두게 되었다. 중앙기록물관리기관, 국회 및 사법부에 특수기록물관리기관, 대도시 및 도에 지방기록물 관리기관, 공공기관에 자료관 또는 특수자료관, 각 과단위에서는 기록물관리책임자가 기록관리를 책임지게 되었다. 셋째, 공공기관의 기록물은 생산시에 컴퓨터에 등록된다. 따라서 인터넷이나 컴퓨터망을 통해 기록물을 쉽게 추적, 검색할 수 있게 될 것이다. 넷째, 기록관리학 분야에서 전문적 훈련을 받은 기록물관리 전문요원 배치를 의무화함으로써 기록물의 전문적 관리를 보장하게 된다. 다섯째, 공공기록물의 불법적 처리는 처벌을 받을 수 있는 범죄를 구성한다. 앞으로 공공기록물관리는 한국정부의 '전자정부 추진정책'과 함께 발전할 것이다. 다음과 같은 변화가 예상된다. 첫째 공공기관에서는 전자결재 문서 외에 종이문서, 시청각기록물, 간행물 등도 모두 디지털화하여 행정의 효율화 및 생산성을 제고할게 될 것이다. 둘째, 국회는 이미 특수기록관을 설립하였다. 법원과 국가정보원도 뒤를 따를 것이다. 시도 차원에서 더 많은 기록관들이 설립될 것이다. 셋째, 우리 사회가 지식정보사회화 될수록 기록관리기능은 더욱 중요한 국가기능이 될 것이다. 더 많은 대학교, 학회, 시민단체들이 기록보존에 고한 인식제고에 참여하고, 기록보존운동이 범국민적 차원으로 심화될수록 한국의 기록물관리는 현재보다 눈에 띄게 발전할 것이다.

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.