• 제목/요약/키워드: Text Mining for Korean

검색결과 631건 처리시간 0.026초

텍스트 마이닝을 활용한 해양수산부 법률 관련 연구동향 분석연구 (Using Text Mining for the Analysis of Research Trends Related to Laws Under the Ministry of Oceans and Fisheries)

  • 황규원;이문숙;윤소라
    • 해양환경안전학회지
    • /
    • 제28권4호
    • /
    • pp.549-566
    • /
    • 2022
  • 최근 인공지능(AI) 기술이 급격하게 발전되고 있으며, 이를 활용한 산업이 점차 확대되고 있다. 또한 사회과학 연구분야에서도 인공지능기술의 텍스트 마이닝을 활용한 분석연구가 활발하게 전개되고 있다. 해양수산부에서 소관하는 법률은 125여개로 해양환경, 수산, 선박, 어촌, 항만 등 다양한 분야에서 제정되었다. 해양수산부 법률을 대상으로 한 연구가 활발히 진행되고 있으며, 양적으로 꾸준하게 증가하고 있다. 이 연구는 해양수산부 법률 관련 연구논문을 대상으로 텍스트 마이닝을 적용하여 국내 연구동향을 분석하였다. 연구방법으로 첫째 텍스트 마이닝의 일종인 토픽 모델링을 수행하여 잠재된 토픽을 파악하였다. 둘째 특정 법률을 주제로 다룬 연구논문의 동시출현 네트워크 분석을 수행하여 주요 주제를 도출하였다. 마지막으로 저자 네트워크 분석을 수행하여 저자 간 사회 연결망을 탐색하였다. 분석결과 시기에 따라 핵심 토픽의 변화를 확인하였으며, 선박안전법, 해양환경관리법 등 법률별 주요 주제를 탐색하였다. 또한 저자 네트워크 분석하여 핵심 연구자를 도출하고, 저자 간 공동연구 성향을 파악하였다. 이를 통해 해양수산부 법률 관련 연구주제의 변화를 탐색하였으며, 향후 연구주제의 다양화와 해양수산 분야 연구의 양적 증가와 질적 성장을 기대한다.

텍스트 마이닝 기법을 이용한 컴퓨터공학 및 정보학 분야 연구동향 조사: DBLP의 학술회의 데이터를 중심으로 (Investigation of Topic Trends in Computer and Information Science by Text Mining Techniques: From the Perspective of Conferences in DBLP)

  • 김수연;송성전;송민
    • 정보관리학회지
    • /
    • 제32권1호
    • /
    • pp.135-152
    • /
    • 2015
  • 이 논문의 연구목적은 컴퓨터공학 및 정보학 관련 연구동향을 분석하는 것이다. 이를 위해 텍스트마이닝 기법을 이용하여 DBLP(Digital Bibliography & Library Project)의 학술회의 데이터를 분석하였다. 대부분의 연구동향 분석 연구가 계량서지학적 연구방법을 사용한 것과 달리 이 논문에서는 LDA(Latent Dirichlet Allocation) 기반 다항분포 토픽모델링 기법을 이용하였다. 가능하면 컴퓨터공학 및 정보학과 관련된 광범위한 자료를 수집하기 위해서 DBLP에서 컴퓨터공학 및 정보학과 관련된 353개의 학술회의를 수집 대상으로 하였으며 2000년부터 2011년 기간 동안 출판된 236,170개의 문헌을 수집하였다. 토픽모델링 결과와 주제별 문헌 수, 주제별 학술회의 수를 조사하여 2000년부터 2011년 사이의 주제별 상위 저자와 주제별 상위 학술회의를 제시하였다. 주제동향 분석 결과 네트워크 관련 연구 주제 분야는 성장 패턴을 보였으며, 인공지능, 데이터마이닝 관련 연구 분야는 쇠퇴 패턴을 나타냈고, 지속 패턴을 보인 주제는 웹, 텍스트마이닝, 정보검색, 데이터베이스 관련 연구 주제이며, HCI, 정보시스템, 멀티미디어 시스템 관련 연구 주제 분야는 성장과 하락을 지속하는 변동 패턴을 나타냈다.

Web of Science 빅데이터를 활용한 텍스트 마이닝 기반의 정보윤리 이슈 탐색 (Exploring Information Ethics Issues based on Text Mining using Big Data from Web of Science)

  • 김한성
    • 컴퓨터교육학회논문지
    • /
    • 제22권3호
    • /
    • pp.67-78
    • /
    • 2019
  • 본 연구의 목적은 Web of Science(WoS)에서 제공하는 학술 빅데이터를 활용하여 정보윤리 이슈를 탐색하고 향후 정보과 정보윤리 교육을 위한 시사점을 제공하는 것에 있다. 이를 위해 WoS에서 제공하는 학술논문 중 정보윤리와 관련해 출판된 318편의 논문을 텍스트 마이닝 하였다. 구체적으로는 R을 활용해 주요키워드에 대한 빈도 분석(TF, DF, TF-IDF), 토픽 모델링 기반의 정보윤리 이슈 분석, 그리고 각 이슈에 대한 연도별 출연 빈도를 분석하여 정보윤리 연구의 경향성을 탐색하였다. 주요 결과를 살펴보면 다음과 같다. 첫째, TF-IDF를 통해 'digital', 'student', 'software', 'privacy' 등의 단어가 주요 키워드임을 확인하였다. 둘째, 토픽 모델링 분석 결과, 'Professional value', 'Cyber-bullying', 'AI and Social Impact' 등을 포함한 총 8개 이슈로 분석되었고, 그 중, 'Professional value'와 'Cyber-bullying' 이슈가 상대적으로 높은 비율을 차지하고 있었다. 본 연구는 이러한 분석 결과를 기초로 우리나라 정보윤리 교육을 시사점을 논의하였다.

텍스트마이닝 (text-mining) 기법을 이용한 국내 담수외래종 연구동향 파악 (Using Text-mining Method to Identify Research Trends of Freshwater Exotic Species in Korea)

  • 도윤호;고의정;김영민;김효겸;주기재;김지윤;김현우
    • 생태와환경
    • /
    • 제48권3호
    • /
    • pp.195-202
    • /
    • 2015
  • 본 연구는 국내 담수외래종의 연구동향을 파악하기 위해서 비정형 데이터로부터 키워드 간의 연계성을 파악하는 데 적합한 텍스트마이닝 (text-mining)기법을 이용하였다. 환경부가 지정한 담수외래종 17종 (포유류 1종, 양서 파충류 3종, 어류 11종, 식물 2종)의 학명과 국명 또한 일반 검색어로 이용하여 56개의 국내 학회 및 기관에서 발행된 총 245편 논문을 개체군 수준에서 분석하였다. 담수외래종에 대한 연구는 90년대에 증가하여 2000년대 이후 감소하는 양상을 보였으며 외래종의 생리 및 발생에 대한 연구가 분류, 생태에 대한 연구보다 유의하게 많았다. 특히, 무지개 송어 (44%/전체 논문편수), 나일틸라피아 (19%), 이스라엘 잉어 (8%), 은연어 (4%)와 같이 수산자원으로 이용하기 위해 도입된 종들에 대한 연구가 많았다. 하지만 담수외래종의 생태적 특성과 분포, 행동에 대한 연구는 뉴트리아와 큰입우럭, 황소개구리로 제한되어 있고 연구 수 역시 생리 및 발생 관련 연구에 비해 적었다. 지금까지 담수외래종들의 위해성과 문제점은 계속 제기되고 있지만, 분석 결과 연구 주제가 편향되어있어 그들의 생태적인 문제를 해결하기에는 정보가 부족한 것으로 보인다. 담수외래종의 효과적인 관리를 위해서는 그들에 대한 다각적인 접근과 폭넓은 연구주제의 설정이 필요하다.

Chatting Pattern Based Game BOT Detection: Do They Talk Like Us?

  • Kang, Ah Reum;Kim, Huy Kang;Woo, Jiyoung
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제6권11호
    • /
    • pp.2866-2879
    • /
    • 2012
  • Among the various security threats in online games, the use of game bots is the most serious problem. Previous studies on game bot detection have proposed many methods to find out discriminable behaviors of bots from humans based on the fact that a bot's playing pattern is different from that of a human. In this paper, we look at the chatting data that reflects gamers' communication patterns and propose a communication pattern analysis framework for online game bot detection. In massive multi-user online role playing games (MMORPGs), game bots use chatting message in a different way from normal users. We derive four features; a network feature, a descriptive feature, a diversity feature and a text feature. To measure the diversity of communication patterns, we propose lightly summarized indices, which are computationally inexpensive and intuitive. For text features, we derive lexical, syntactic and semantic features from chatting contents using text mining techniques. To build the learning model for game bot detection, we test and compare three classification models: the random forest, logistic regression and lazy learning. We apply the proposed framework to AION operated by NCsoft, a leading online game company in Korea. As a result of our experiments, we found that the random forest outperforms the logistic regression and lazy learning. The model that employs the entire feature sets gives the highest performance with a precision value of 0.893 and a recall value of 0.965.

A Preliminary Study on Clinical Decision Support System based on Classification Learning of Electronic Medical Records

  • Shin, Yang-Kyu
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권4호
    • /
    • pp.817-824
    • /
    • 2003
  • We employed a hierarchical document classification method to classify a massive collection of electronic medical records(EMR) written in both Korean and English. Our experimental system has been learned from 5,000 records of EMR text data and predicted a newly given set of EMR text data over 68% correctly. We expect the accuracy rate can be improved greatly provided a dictionary of medical terms or a suitable medical thesaurus. The classification system might play a key role in some clinical decision support systems and various interpretation systems for clinical data.

  • PDF

텍스트 마이닝 기반의 그래프 모델을 이용한 미발견 공공 지식 추론 (Inferring Undiscovered Public Knowledge by Using Text Mining-driven Graph Model)

  • 허고은;송민
    • 정보관리학회지
    • /
    • 제31권1호
    • /
    • pp.231-250
    • /
    • 2014
  • 정보통신기술의 발달로 학술 정보의 양이 기하급수적으로 증가하였고 방대한 양의 텍스트 데이터를 처리하기 위한 자동화된 텍스트 처리의 필요성이 대두되었다. 생의학 문헌에서 생물학적 의미와 치료 효과 등에 대한 정보를 발견해내는 바이오 텍스트 마이닝은 문헌 내의 각 개념들 간의 유의미한 연관성을 발견하여 의학 영역에서 상당한 시간과 비용을 줄여준다. 문헌 기반 발견 연구로 새로운 생의학적 가설들이 발견되었지만 기존의 연구들은 반자동화된 기법으로 전문가의 개입이 필수적이며 원인과 결과의 한가지의 관계만을 밝히는 제한점이 있다. 따라서 본 연구에서는 중간 개념인 B를 다수준으로 확장하여 다양한 관계성을 동시출현 개체와 동사 추출을 통해 확인한다. 그래프 기반의 경로 추론을 통해 각 노드 사이의 관계성을 체계적으로 분석하여 규명할 수 있었으며 새로운 방법론적 시도를 통해 기존에 밝혀지지 않았던 새로운 가설 제시의 가능성을 기대할 수 있다.

학교시설의 장애물 없는 생활환경(Barrier Free) 인증 사례를 통한 정성평가 텍스트마이닝 기법 적용에 관한 기초연구 (A Basic Study on the Application of Text-Maining Method for Qualitative Evaluation through Barrier Free Certification in School Facilities)

  • 윤평세;이종국
    • 교육녹색환경연구
    • /
    • 제19권1호
    • /
    • pp.25-35
    • /
    • 2020
  • BF인증을 도입하여 운영한 이래 2020년 2월까지 총 6,432건의 인증서 발급이 있었고, 그 중 교육연구시설은 건축물 6,237건 중 1,091건(예비인증 754건, 본인증 337건)으로 약 20%의 BF인증을 취득하였다. BF인증 건축물 평가지표 3개 항목 매개시설, 내부시설, 위생시설 중점적으로 정성평가를 실시하고, 그 도출 결과를 Text Mining 분석 통해 주요 키워드를 도출한다. 도출된 결과 매개시설의 경우 접근로에 대한 문제점이 발생되었으며, 내부시설의 계단에 대한 평가사항 중 사용자에 대한 평가지표 마련이 필요하다는 결과를 알 수 있었다. 마지막으로 위생시설의 경우 주민 개발시설에 설치되는 화장실에 대한 개선이 필요한 것을 알 수 있었다. 도출된 결과를 바탕으로 학교시설 BF인증에 필요한 평가지표가 별로도 마련되어야할 것이다.

디지털 포렌식 조사를 위한 NLP의 텍스트 전처리 연구 (A study on NLP Text Preprocessing for digital forensic investigation)

  • 이성원;김도현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.189-191
    • /
    • 2022
  • 현대 사회에서 메신저 서비스는 다른 사람과의 의사소통을 위해 필수적으로 사용되고 있으며 이는 범죄자들도 예외는 아니다. 따라서 메신저 데이터는 디지털 포렌식 조사에서 필수적으로 분석해야 하는 대상이며, 대표적으로 2018년 버닝 썬 게이트, 2019년 N 번 방 사건이 메신저 데이터가 범죄를 해결하는 데 중요한 증거로 활용됐다. 메신저 서비스가 널리 사용됨에 따라 디지털 기기에 대량의 메신저 데이터가 저장되고, 이에 따라 디지털 포렌식 조사 과정에서 메신저 데이터를 분석하는데 많은 시간이 소요되고 있기 때문에 이를 효과적으로 대응하기 위한 텍스트 마이닝 연구가 필요하다. 본 논문에서는 인스턴트 메신저를 대상으로 효과적인 NLP 분석을 하기 위해 인스턴트 메시지의 특성에 따른 다양한 자연어 전처리 방법을 연구한다.

  • PDF

Implementation of Subsequence Mapping Method for Sequential Pattern Mining

  • Trang Nguyen Thu;Lee Bum-Ju;Lee Heon-Gyu;Park Jeong-Seok;Ryu Keun-Ho
    • 대한원격탐사학회지
    • /
    • 제22권5호
    • /
    • pp.457-462
    • /
    • 2006
  • Sequential Pattern Mining is the mining approach which addresses the problem of discovering the existent maximal frequent sequences in a given databases. In the daily and scientific life, sequential data are available and used everywhere based on their representative forms as text, weather data, satellite data streams, business transactions, telecommunications records, experimental runs, DNA sequences, histories of medical records, etc. Discovering sequential patterns can assist user or scientist on predicting coming activities, interpreting recurring phenomena or extracting similarities. For the sake of that purpose, the core of sequential pattern mining is finding the frequent sequence which is contained frequently in all data sequences. Beside the discovery of frequent itemsets, sequential pattern mining requires the arrangement of those itemsets in sequences and the discovery of which of those are frequent. So before mining sequences, the main task is checking if one sequence is a subsequence of another sequence in the database. In this paper, we implement the subsequence matching method as the preprocessing step for sequential pattern mining. Matched sequences in our implementation are the normalized sequences as the form of number chain. The result which is given by this method is the review of matching information between input mapped sequences.