• 제목/요약/키워드: document frequency

검색결과 304건 처리시간 0.022초

한글 웹 문서 클러스터링 성능향상을 위한 자질선정 기법 비교 연구 (A Comparative Study of Feature Selection Methods for Korean Web Documents Clustering)

  • 김영기
    • 한국문헌정보학회지
    • /
    • 제39권1호
    • /
    • pp.45-58
    • /
    • 2005
  • 이 연구는 한글 웹 문서를 클러스터링 하기 위한 자질 선정 방법에 대한 비교연구이다. 이 연구에는 두 개의 코퍼스가 사용되었다. 클러스터링을 위한 실험 문서는 Naver의 자연과학 범주에서, 자질 선정을 위한 학습문서는 Yahoo Korea의 같은 범주에서 수집하였다. 우선 실험 문서를 단어자질과 동시링크, 그리고 이 둘을 혼합한 방법으로 클러스터링 한 다음 그 성능을 비교하였다. 다음으로 학습문서에서 카이제곱 통계량$(X^2)$, 정보획득량(IG), 그리고 상호정보량(MI)을 이용하여 용어자질을 선정한 다음. 이를 실험문서에 적용하여 클러스터링 성능을 비교하였다. 석기에 각 범주별로 최댓값을 갖는 용어들만을 해당 범주를 대표하는 자질로 선정하는 '최댓간 자질 선정기법'을 실험적으로 도입하여 적용해 보았다. 실험 결과 사용된 자질에 따른 한글 웹 문서 클러스터링 정확률은 자연어 $ 72.3\%$, 동시링크 $74.3\%$, 단어-링크 혼합 $74.8\%$, $X^2\;79.6\%\;Max\;X^2\;83.8\%$로 나타났다. 전통적 자질 선정 기법 중에서는 $X^2$가 약간 나은 성능을 보여 주었지만 큰 차이는 발견되지 않았다. 그러나 최댓값 자질 선정기법을 적용하였을 때 클러스터링 성능은 크게 향상되었다. 이 논문에서 제안된 최댓간 자질 선정 기법은 웹 문서의 자질 공간 축소와 한글 웹 문서의 클러스터링을 위한 간단하면서도 효과적인 수단이다.

Support Vector Machine을 이용한 온라인 리뷰의 용어기반 감성분류모형 (Terms Based Sentiment Classification for Online Review Using Support Vector Machine)

  • 이태원;홍태호
    • 경영정보학연구
    • /
    • 제17권1호
    • /
    • pp.49-64
    • /
    • 2015
  • SNS의 확산으로 온라인 상점에서는 상품에 대한 주관적인 의견이 내포되어 있는 고객리뷰 정보가 빠르게 생성되고 확산되어 다른 고객들에게 큰 영향을 미치고 있다. 이와 더불어, 고객들의 긍정적 또는 부정적 의견을 분석하여 개선방안을 모색하려는 오피니언마이닝(opinion mining)이 주목 받고 있다. 고객리뷰에 내포된 감성정보를 가진 용어들은 감성분류를 하는데 가장 중요한 역할을 하기 때문에 영향력이 높은 용어를 선별하는 것이 가장 중요하다. 본 연구에서는 품사태깅을 이용하여 최적의 용어들을 선별하고 용어정보에 기반한 문서수준에서의 감성분류모형을 제안하고자 한다. 고객리뷰의 감성분류모형에 대표적인 기계학습기법인 SVM을 적용하고, SVM의 입력변수 선정과정에 품사태깅 방식과 용어추출기법을 다르게 조합하고 사용하여 긍정적/부정적 문서를 분류하였다. 본 연구에서 제안한 감성분류모형의 성과를 검증하기 위해 아마존(Amazon.com)의 영화와 도서에 대한 고객리뷰 80,000개를 수집하여 불필요한 용어들을 제거한 후 품사태깅을 통해 용어를 추출하였다. 추출된 용어는 문서빈도, TF-IDF, 정보획득량, 카이제곱 통계량의 값을 산출하여 값을 통해 용어들을 순위화하고, 각 상위 20개에 해당하는 최적의 용어를 선정한 후 SVM을 이용하였다. 제안된 감성분류모형을 통해 기존 연구에서 언급한 형용사만을 사용한 예측변수와 4품사를 사용한 예측변수에서의 실험결과를 통해 비교 분석하였다. 카이제곱 통계량 기반의 감성분류모형이 다른 모형보다 예측성과가 가장 우수하게 나타나는 것을 확인할 수 있었다. 본 연구에서 제안된 문서수준에서의 용어기반 감성분류모형을 이용함으로써 온라인 상점에서의 서비스 개선과 경쟁력 확보에 많은 도움이 될 것으로 기대된다.

ICC 중재규칙(ICC Rules of Arbitration)의 "위탁조건"(Terms of Reference)에 관한 연구 (A Study on the "Terms of Reference" in the ICC Rules of Arbitration)

  • 오원석
    • 무역상무연구
    • /
    • 제31권
    • /
    • pp.81-106
    • /
    • 2006
  • The Terms of Reference are one of the most distictive features of ICC Arbitration. No document of this type is required to be drawn up under the rules of any of the other major international arbitration institutions. The purpose of this paper is to examine their advantages and to introduce main contents provided in Article 18 of ICC Rules of Arbitration, which results in the wide recognition of the Terms of Reference. As the volume of our international commercial transaction ranks almost ten in the world, the frequency using ICC Arbitration is expected to increase continuously. The Terms of Reference provide the parties and the arbitrators with an opportunity to identify and agree on procedural and other matters, such as the applicable law, the language of the arbitration and the timetable for the arbitration. They also afford the parties and the arbitrators to identify the substantive issues that are addressed in the arbitration and to delimit the precise scope of the Arbitract Tribunal's mandate. The contents of the Terms of Reference which are provided in Article 18(1) include the summary of parties claims, the list of issues and procedural rules. For the effects of the Terms of Reference, they are not intended to replace the parties' arbitration agreement. But they may in certain circumstances be regarded as a form of submission agreement. Article 18(2) provides that the Terms of Reference shall be signed by the parties and the Arbitral Tribunal, and requires the Arbitral Tribunal to transmit a signed copy of the Terms of Reference to the Court within two months of the date on which the file was transmitted to it by the Secretariat. The Court enjoys the power to extend the two-month time limit for the Terms of Reference on the reasoned request of the Arbitral Tribunal or on the Court's own initiative. Article 18(3) provides that if any of the parties refuses to take part in the drawing up of the Terms of Reference or to sign the same, they shall be submitted to the Court for approval. Article 18(4) allows the Arbitral Tribunal to extablish in a separate document a provisional timetable. This is a provision that encourages the acceleration of the arbitraction process. The timetable provided for therein is merely "provisional" and may be modified, as necessary, during the course of the arbitration.

  • PDF

문서 클러스터를 위한 워드넷기반의 대표 레이블 선정 방법 (Representative Labels Selection Technique for Document Cluster using WordNet)

  • 김태훈;손미애
    • 인터넷정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.61-73
    • /
    • 2017
  • 본 연구에서는 문서 클러스터링 결과 도출된 개별 클러스터가 함축하고 있는 의미를 파악하는 데 필요한 어휘들의 정보량을 활용한 문서 클러스터 레이블링(Documents Cluster Labeling) 방법을 제안하였다. 이를 위해, 클러스터에 포함된 어휘들이 해당 클러스터에서 얼마나 중요한 비중을 차지하고 있는지 파악하기 위하여 각 어휘의 출현 빈도와 정보량을 이용한 어휘의 가중치를 계산한 후, 워드넷을 이용하여 클러스터에 포함된 어휘들의 최근접 공통 상위어를 후보 레이블로 식별하였다. 이상의 과정을 거쳐 식별된 후보 레이블의 정보량과 클러스터내에서의 중요도 가중치를 활용해, 해당 클러스터의 의미와 특징을 포괄적으로 표현할 수 있는 대표 레이블을 결정하였다. 본 연구의 우수성을 입증하기 위해 다음과 같은 실험을 수행하였다. 실험은 본 연구에서 제안한 방법에 따라 선정된 레이블과 후보 레이블을 워드넷에 프로젝션한 후, 워드넷상에서 이들 레이블의 위치(깊이)를 확인하였다. 또한 선정된 후보 레이블을 상위어로 갖고 있는 클러스터 내 어휘의 수를 도출하여, 휴리스틱 방법에 따라 선정된 레이블을 전문가가 찾은 대표 레이블과의 비교를 수행하였다. 평가지표로 후보 레이블의 적합성($Suitability_{cl}$)과 대표 레이블의 적절성($Appropriacy_{rl}$)을 활용하였다. 실험 결과, 본 연구에서 제안한 방법을 적용해 문서 클러스터 레이블링을 수행할 경우, 후보 레이블의 적합성의 경우 기존의 방법보다 약간 감소하지만 계산량이 기존 방법의 약 20% 정도로 감소하였으며, 대표 레이블의 적절성의 경우 기존의 방법보다 우수한 결과를 도출하는 것을 확인하였다.

해상에서의 우발적 조우 시 신호 규칙(CUES)의 제한점과 개선을 위한 제언 (Code for Unplanned Encounters at Sea(CUES): Its Limitation and Recommendations for Improvement)

  • 오동건
    • Strategy21
    • /
    • 통권44호
    • /
    • pp.323-351
    • /
    • 2018
  • Adopted in Western Pacific Naval Symposium(WPNS) 2014, Code for Unplanned Encounters at Sea(CUES) has been the most valuable output of WPNS history. Written and suggested by Australian Navy in 1999, the goal of CUES is to decrease the possibility of the naval conflict by establishing the code among international navies in the Western Pacific region. Facing many oppositions and requirement of People's Liberation Army Navy(PLAN) in WPNS 2012 and 2013, but it finally adopted in WPNS 2014, with many changes in detailed provisions. From then, navies in the Western Pacific region have followed CUES to prevent maritime conflicts in the region, CUES, however, sometimes does not work correctly. Contents of CUES is the mixture of the parts of Multinational Maritime Tactical Signal and Maneuvering Book(MTP) and International Regulations for Preventing Collision at Sea 1972(CORLEGs). There are means of radio communications such as frequency and signals, instructions for maneuvering and so on. Thus, it is not a new document for the U.S. Navy and its allies, but it requires training to implicate at sea for navies other than U.S. allies, like PLAN. Lots of provisions in CUES were changed because of the opposition of PLAN, and CUES has many shortcomings and practical limitations. First, since CUES is non-legally binding, and there are no methods to force the naval assets on the sea to follow. Second, CUES is only applied to naval assets; naval ships - warships, naval auxiliaries, and submarines - and naval aircraft. Third, the geographical scope in CUES is not clear. Fourth, there is no provision for submerged submarines. Finally, CUES has no time-based framework or roadmap for training. In this regard, there would be six recommendations for improvement. First, CUES should be reviewed by WPNS or other international institutions, while keeping non-binding status so that WPNS could send signals to the navies which do not answer CUES on the sea. Second, the participation of Maritime Law Enforcements(MLEs) such as coast guard is inevitable. Third, navies would use full text of MTP rather than current CUES, which extracts some parts of MTP. Fourth, CUES needs provisions with respect to submerged submarines, which recognizes as offensive weapons themselves. Fifth, the geographic scope of CUES should be clear. Since there are some countries in which claim that a rock with a concrete structure is their territory, CUES should be applied on every sea including EEZ and territorial seas. Finally, the detailed training plan is required to implicate CUES at sea. Rim of the Pacific (RIMPAC) is a good exercise to train CUES, because almost all WPNS member countries except six countries are participating in RIMPAC. CUES is a meaningful document not only for navies but also for nation-states in the region. To prevent escalation of conflict in the region, potentially caused by an unplanned collision at sea, CUES should be applied more strictly. CUES will continue to be in subsequent WPNS and therefore continue to improve in the effectiveness as both an operational and diplomatic agreement.

장서각 소장 사찬발기를 통한 조선왕실의 사찬음식 연구 - 탄일, 출산, 가례, 상례를 중심으로 - (A Study on Joseon Royal Cuisine through Sachanbalgi of the Jangseogak Archives - Focusing on Royal Birthday, Child birth, Weddings and Funerals-)

  • 정혜경;신다연;우나리야
    • 한국식생활문화학회지
    • /
    • 제34권5호
    • /
    • pp.508-533
    • /
    • 2019
  • This study investigated the Sachanbalgi, which record the royal feasts given by the royal family of the Joseon Dynasty of Korea. These records are contained within the Gungjung Balgi, which recorded the types and quantity of items used in royal court ceremonies. The Eumsikbalgi is the general name for the records of food found within this document. Using these Eumsikbalgi, and in particular the Sachanbalgi, this study investigated the food eaten and bestowed by the Joseon royal family. The Sachanbalgi describes four categories or occasions of feasts: royal birthdays, childbirth, royal weddings, and funerals. These records allow us to reconstruct who the attendees were and what the table settings and food were for instances not directly indicated in oral records, books, or other documents. The food at these Sachan (feasts) was diverse, being related to the specific event, and its contents varied based on the position of the person who was receiving the food. Usually, Bab (rice) was not found at a Sachanbalgi, and only on two occasions were meals with Bab observed. Specifically, it was served with Gwaktang (seaweed soup) at a childbirth feast. There were seven kinds of soups and stews that appeared in the Sachanbalgi: Gwaktang, Yeonpo (octopus soup), Japtang (mixed food stew), Chogyetang (chilled chicken soup), Sinseonro (royal hot pot), and Yukjang (beef and soybean paste). Nureumjeok (grilled brochette) and Saengchijeok (pheasant), and Ganjeonyueo (pan-fried cow liver fillet) and Saengseonjeonyueo (pan-fried fish fillet) were eaten. Yangjeonyueo, Haejeon, Tigakjeon (pan-fried kelp) and other dishes, known and unknown, were also recorded. Boiled meat slices appeared at high frequency (40 times) in the records; likewise, 22 kinds of rice cake and traditional sweets were frequently served at feasts. Five kinds of non-alcoholic beverages were provided. Seasonal fruits and nuts, such as fresh pear or fresh chestnut, are thought to have been served following the event. In addition, a variety of dishes including salted dry fish, boiled dish, kimchi, fruit preserved in honey, seasoned vegetables, mustard seeds, fish, porridge, fillet, steamed dishes, stir-fried dishes, vegetable wraps, fruit preserved in sugar, and jellied foods were given to guests, and noodles appear 16 times in the records. Courtiers were given Banhap, Tanghap, Myeonhap, wooden bowls, or lunchboxes. The types of food provided at royal events tracked the season. In addition, considering that for feasts food of the royal household was set out for receptions of guests, cooking instructions for the food in the lunchbox-type feasts followed the cooking instructions used in the royal kitchen at the given time. Previous studies on royal cuisine have dealt mostly with the Jineosang presented to the king, but in the Sachanbalgi, the food given by the royal family to its relatives, retainers, and attendants is recorded. The study of this document is important because it extends the knowledge regarding the food of the royal families of the Joseon Dynasty. The analysis of Sachanbalgi and the results of empirical research conducted to reconstruct the precise nature of that food will improve modern knowledge of royal cuisine.

텍스트마이닝을 통한 고용허가제 트렌드 분석과 정책 제안 : 텍스트마이닝과 소셜네트워크 분석을 중심으로 (A Trend Analysis and Policy proposal for the Work Permit System through Text Mining: Focusing on Text Mining and Social Network analysis)

  • 하재빈;이도은
    • 융합정보논문지
    • /
    • 제11권9호
    • /
    • pp.17-27
    • /
    • 2021
  • 본 연구에서는 고용허가제에 대한 이슈와 국민적 인식을 확인하고 정책을 제언하기 위해 소셜데이터를 기반으로 한 텍스트마이닝 기법을 활용하고자 하였다. 이를 위해 2020년 1월부터 2020년 12월까지 1년 동안 온라인상에서 '고용허가제'가 언급되는 6,217개의 문서의 텍스트 1,453,272개를 텍스톰(Textom)을 통해 수집하여 텍스트마이닝과 소셜네트워크 분석을 수행하였다. 데이터 상위 키워드 빈도, TF-IDF(Term Frequency - Inverse Document Frequency) 분석, 연결중심성 분석으로 언급량이 많은 키워드 100개를 도출하였으며, 일자리 문제, 정책과정의 중요성, 산업관점의 경쟁력, 외국인근로자 생활 개선을 주요한 키워드로 구성하였다. 또한, 의미연결망 분석을 통해 '고용정책'과 같은 주요인식과 '국제협력', '노동자 인권', '법률', '외국인 채용', '기업 경쟁력', '이주민 문화', '외국인력 관리'와 같은 주변인식을 파악하였다. 끝으로 고용허가제에 관한 정책 수립과 관련 연구를 진행하는데 있어서 고려해야 할 요소를 제안하였다.

텍스트마이닝을 활용한 러닝 어플리케이션 사용자 리뷰 분석: Nike Run Club과 Runkeeper를 중심으로 (Analysis of User Reviews of Running Applications Using Text Mining: Focusing on Nike Run Club and Runkeeper)

  • 류기문;김일광
    • 산업융합연구
    • /
    • 제22권4호
    • /
    • pp.11-19
    • /
    • 2024
  • 본 연구의 목적은 텍스트마이닝을 활용하여 러닝 어플리케이션 사용자의 리뷰를 분석하였다. 본 연구는 python3의 selenium 패키지를 이용하여 google playstore의 Nike Run Club, Runkeeper의 사용자 리뷰들을 분석자료로 이용하였으며, okt 분석기를 통해 한글 명사만을 남겨 형태소를 분리하였다. 형태소 분리 후 rankNL 사전을 만들어 불용어(stopword)를 제거하였다. 자료 분석을 위해 텍스트마이닝의 TF(빈도분석), TF-IDF(키워드 빈도-문서 역빈도), LDA 토픽모델링을 통해 분석하였다. 본 연구의 결과는 다음과 같다. 첫째, Nike Run Club, Runkeeper 어플리케이션 사용자 리뷰에서 공통적으로 상위 키워드로 '기록', '앱', '운동'의 키워드가 도출되었으며 TF, TF-IDF의 순위에는 차이가 나타났다. 둘째, Nike Run Club의 LDA 토픽모델링으로 '기본 항목', '추가 기능', '오류 사항', '위치기반데이터'의 토픽이 도출되었고 Runkeeper는 '오류 사항', '음성 기능', '러닝 데이터', '사용 혜택', '사용 동기'의 토픽이 도출되었다. 결과를 통해 제언하면 어플리케이션의 경쟁력 향상을 기여하기 위해 오류 및 개선사항을 보완해야 한다.

열차내 연산시스템용 AF궤도회로 신뢰성향상 방안 연구 (Reliability improvement methods of AF track circuits for the train control system)

  • 박재영
    • 한국산학기술학회논문지
    • /
    • 제13권10호
    • /
    • pp.4762-4767
    • /
    • 2012
  • 열차의 위치를 검지하고 열차내연산(DTG)을 위한 각종 열차제어데이터를 차상으로 전송하는 AF궤도회로장치는 단일계로 구성되어 있다. 만약, 고장이 발생할 경우 선로전환기 및 신호기제어가 불가능하여 시스템이 복구되기까지 기관사에 의해 수동으로 열차를 운전하여야 한다. 이 과정에서 인적 오류는 열차지연, 충돌, 탈선 등 치명적인 안전사고 발생요인으로 작용한다. 따라서, 본 논문에서는 고장모드마다 시스템과 열차에 미치는 영향을 분석하였으며, 고장평점 및 고장등급을 계량화하였다. 계량화된 분석결과를 토대로 전원장치 독립설치, 증폭PCB의 결함콘덴서 원인분석 및 교체, 저항자 냉각시스템설치, 작업방법개선을 통해 고장발생건수 감소 및 신뢰성의 척도인 평균고장간격(MTBF)의 증가와 평균복구간격(MTTR)이 감소되었다. 그리고, 지금까지 경험에 의한 유지보수체계를 계량화된 방법에 의해 예측정비를 수행토록 하여 AF 궤도회로에 대한 신뢰성을 향상할 수 있도록 하였다.

A Method for Information Source Selection using Teasaurus for Distributed Information Retrieval

  • Goto, Shoji;Ozono, Tadachika;Shintani, Toramatsu
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2001년도 The Pacific Aisan Confrence On Intelligent Systems 2001
    • /
    • pp.272-277
    • /
    • 2001
  • In this paper, we describe a new method for selecting information sources in a distributed environment. Recently, there has been much research on distributed information retrieval, that is information retrieval (IR) based on a multi-database model in which the existence of multiple sources is modeled explicitly. In distributed IR, a method is needed that would enable selecting appropriate sources for users\` queries. Most existing methods use statistical data such as document frequency. These methods may select inappropriate ate sources if a query contains polysemous words. In this paper, we describe an information-source selection method using two types of thesaurus. One is a thesaurus automatically constructed from documents in a source. The other is a hand-crafted general-purpose thesaurus(e.g. WordNet). Terms used in documents in a source differ from one another and the meanings of a term differ depending on th situation in which the term is used. The difference is a characteristic of the source. In our method, the meanings of a term are distinguished between by the relationship between the term and other terms, and the relationship appear in the co-occurrence-based thesaurus. In this paper, we describe an algorithm for evaluating a usefulness of a source for a query based on a thesaurus. For a practical application of our method, we have developed Papits, a multi-agent-based in formation sharing system. An experiment of selection shows that our method is effective for selecting appropriate sources.

  • PDF