• 제목/요약/키워드: negative transfer

검색결과 462건 처리시간 0.018초

키워드 자동 생성에 대한 새로운 접근법: 역 벡터공간모델을 이용한 키워드 할당 방법 (A New Approach to Automatic Keyword Generation Using Inverse Vector Space Model)

  • 조원진;노상규;윤지영;박진수
    • Asia pacific journal of information systems
    • /
    • 제21권1호
    • /
    • pp.103-122
    • /
    • 2011
  • Recently, numerous documents have been made available electronically. Internet search engines and digital libraries commonly return query results containing hundreds or even thousands of documents. In this situation, it is virtually impossible for users to examine complete documents to determine whether they might be useful for them. For this reason, some on-line documents are accompanied by a list of keywords specified by the authors in an effort to guide the users by facilitating the filtering process. In this way, a set of keywords is often considered a condensed version of the whole document and therefore plays an important role for document retrieval, Web page retrieval, document clustering, summarization, text mining, and so on. Since many academic journals ask the authors to provide a list of five or six keywords on the first page of an article, keywords are most familiar in the context of journal articles. However, many other types of documents could not benefit from the use of keywords, including Web pages, email messages, news reports, magazine articles, and business papers. Although the potential benefit is large, the implementation itself is the obstacle; manually assigning keywords to all documents is a daunting task, or even impractical in that it is extremely tedious and time-consuming requiring a certain level of domain knowledge. Therefore, it is highly desirable to automate the keyword generation process. There are mainly two approaches to achieving this aim: keyword assignment approach and keyword extraction approach. Both approaches use machine learning methods and require, for training purposes, a set of documents with keywords already attached. In the former approach, there is a given set of vocabulary, and the aim is to match them to the texts. In other words, the keywords assignment approach seeks to select the words from a controlled vocabulary that best describes a document. Although this approach is domain dependent and is not easy to transfer and expand, it can generate implicit keywords that do not appear in a document. On the other hand, in the latter approach, the aim is to extract keywords with respect to their relevance in the text without prior vocabulary. In this approach, automatic keyword generation is treated as a classification task, and keywords are commonly extracted based on supervised learning techniques. Thus, keyword extraction algorithms classify candidate keywords in a document into positive or negative examples. Several systems such as Extractor and Kea were developed using keyword extraction approach. Most indicative words in a document are selected as keywords for that document and as a result, keywords extraction is limited to terms that appear in the document. Therefore, keywords extraction cannot generate implicit keywords that are not included in a document. According to the experiment results of Turney, about 64% to 90% of keywords assigned by the authors can be found in the full text of an article. Inversely, it also means that 10% to 36% of the keywords assigned by the authors do not appear in the article, which cannot be generated through keyword extraction algorithms. Our preliminary experiment result also shows that 37% of keywords assigned by the authors are not included in the full text. This is the reason why we have decided to adopt the keyword assignment approach. In this paper, we propose a new approach for automatic keyword assignment namely IVSM(Inverse Vector Space Model). The model is based on a vector space model. which is a conventional information retrieval model that represents documents and queries by vectors in a multidimensional space. IVSM generates an appropriate keyword set for a specific document by measuring the distance between the document and the keyword sets. The keyword assignment process of IVSM is as follows: (1) calculating the vector length of each keyword set based on each keyword weight; (2) preprocessing and parsing a target document that does not have keywords; (3) calculating the vector length of the target document based on the term frequency; (4) measuring the cosine similarity between each keyword set and the target document; and (5) generating keywords that have high similarity scores. Two keyword generation systems were implemented applying IVSM: IVSM system for Web-based community service and stand-alone IVSM system. Firstly, the IVSM system is implemented in a community service for sharing knowledge and opinions on current trends such as fashion, movies, social problems, and health information. The stand-alone IVSM system is dedicated to generating keywords for academic papers, and, indeed, it has been tested through a number of academic papers including those published by the Korean Association of Shipping and Logistics, the Korea Research Academy of Distribution Information, the Korea Logistics Society, the Korea Logistics Research Association, and the Korea Port Economic Association. We measured the performance of IVSM by the number of matches between the IVSM-generated keywords and the author-assigned keywords. According to our experiment, the precisions of IVSM applied to Web-based community service and academic journals were 0.75 and 0.71, respectively. The performance of both systems is much better than that of baseline systems that generate keywords based on simple probability. Also, IVSM shows comparable performance to Extractor that is a representative system of keyword extraction approach developed by Turney. As electronic documents increase, we expect that IVSM proposed in this paper can be applied to many electronic documents in Web-based community and digital library.

한국 방공식별구역 운영규칙에 관한 고찰 (A study on Operation Rules of Korean Air Defence Identification Zone)

  • 권종필;이영혁
    • 항공우주정책ㆍ법학회지
    • /
    • 제32권2호
    • /
    • pp.189-217
    • /
    • 2017
  • 1950년 미국을 시작으로 1951년에는 한국의 방공식별구역이 선포되었다. 초기의 방공식별구역은 순전히 방공임무와만 연계되었으나, 해양자원과 해양에 대한 관할권행사에 대해 세계 각국들이 그 영향력을 확대하려는 경향이 나타나면서 변화되었다. 특히 중국이 동중국해 방공식별구역을 2013년 10월에 선포하면서 방공식별구역 내를 비행하는 모든 항공기는 비행계획서를 중국의 항공관제 당국 또는 국방당국에 제출할 것을 강제하였고 제출하지 안으면 무력을 사용하겠다고 공표하였으며, 또한 해양 분쟁이 격화되고 있는 남중국해에도 방공식별구역을 선포할 것을 예고하면서 방공식별구역이 확연히 국가의 관할권행사 권역으로서 영토 및 배타적 경제수역 등과 연계됨을 여실히 보여주고 있다. 이에 대응하여 2013년 12월 15일 확장된 한국 방공식별구역은 중국의 동중국해 방공식별구역, 일본의 외곽 방공식별구역과 중첩되어 있다. 중첩된 구역은 우리나라뿐만 아니라 중국, 일본도 자신들의 대륙붕과 배타적 경제수역이라고 주장하는 수역의 상공이다. 그리고 한국 방공식별구역에서 식별업무를 수행함에 있어서 주변국과의 우발충돌을 방지하기 위해 한 중 일은 양자 간에 군사력 사용에 강제력을 미치는 군사협정을 체결하여 운영하고 있다. 이러한 군사협정과 방공식별이라는 국가 행위가 지속되고 반복되며 상대국의 묵인을 받는 다면 아직까지 방공식별구역이 국제성문법이나 국제관습법에 의하여 인정된 공역이 아니지만 지역관습법으로 형성되고 있다고 보아야 한다. 그리고 방공식별구역 내에서 식별업무를 하는 것은 국가 기관인 군사당국의 행위이므로 잘못된 행위로 인한 관습법화는 다른 국가 기관의 행위인 주변국과의 해양경계 획정에도 부정적 영향을 미치게 되어 국익에 심각한 악영향을 초래할 수 있으므로 해양경계획정 등과 같은 다른 분야 행위도 고려하여 운영 규칙을 지정하고, 주변국과 군사회담에 임하여야 한다. 방공식별구역에서 비행계획서의 제출은 유엔해양법이 정한 공해상 비행의 자유를 충분히 향유할 수 있도록 영공으로 진입하지 않는 경우에는 제출을 강제하지 않도록 군용항공기 운용 등에 관한 법률을 정비하여야 한다. 방공식별구역 진 출시에 합동참모의장의 승인을 받도록 한 군용항공기 운용 등에 관한 훈령도 군인이 아닌 민간인에 적용하기 위해서는 국방부장관의 승인을 받거나 법규명령으로 제정되어야 한다. 또한 방공식별구역의 운용과 관리에 있어서 동북아에서 지역관습법화를 고려하여 상대국에 관리권한을 양도하는 행위는 반드시 배제되어야 한다. 특히 배타적 경제수역의 상공에 방공식별구역이 설정되어 있으므로 안보와 관련된 권한 등을 상대국에 양도하는 군사협정은 부작위에 의한 결과로도 발생하지 않도록 하여야 한다. 한 중 일 러 간에 방공식별구역 운영과 관리에 관한 내용이 포함된 군사협정을 체결하였거나 협상 중에 있어 동북아에서는 지역관습법이 형성되고 있다고 보여 진다.

  • PDF