• 제목/요약/키워드: Data dictionary

검색결과 346건 처리시간 0.029초

회선 신경망을 활용한 자모 단위 한국형 감성 분석 모델 개발 및 검증 (Development and Validation of the Letter-unit based Korean Sentimental Analysis Model Using Convolution Neural Network)

  • 성원경;안재영;이중정
    • 한국전자거래학회지
    • /
    • 제25권1호
    • /
    • pp.13-33
    • /
    • 2020
  • 본 연구는 자모 단위의 임베딩과 회선 신경망을 활용한 한국어 감성 분석 알고리즘을 제안한다. 감성 분석은 텍스트에서 나타난 사람의 태도, 의견, 성향과 같은 주관적인 데이터 분석을 위한 자연어 처리 기술이다. 최근 한국어 감성 분석을 위한 연구는 꾸준히 증가하고 있지만, 범용 감성 사전을 사용하지 못하고 각 분야에서 자체적인 감성 사전을 구축하여 사용하고 있다. 이와 같은 현상의 문제는 한국어 특성에 맞지 않게 형태소 분석을 수행한다는 것이다. 따라서 본 연구에서는 감성 분석 절차 중 형태소 분석을 배제하고 초성, 중성, 종성을 기반으로 음절 벡터를 생성하여 감성 분석을 하는 모델을 개발하였다. 그 결과 단어 학습 문제와 미등록 단어의 문제점을 최소화할 수 있었고 모델의 정확도는 88% 나타내었다. 해당 모델은 입력 데이터의 비 정형성에 대한 영향을 적게 받으며, 텍스트의 맥락에 따른 극성 분류가 가능하게 되었다. 한국어 특성을 고려하여 개발된 본 모델이 한국어 감성 분석을 수행하고자 하는 비전문가에게 보다 쉽게 이용될 수 있기를 기대한다.

T-MERGE 연산자에 기반한 분산 토픽맵의 자동 통합 (Automatic Merging of Distributed Topic Maps based on T-MERGE Operator)

  • 김정민;신효필;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권9호
    • /
    • pp.787-801
    • /
    • 2006
  • 온톨로지 통합은 두 소스 온톨로지들을 통합하여 하나의 새로운 온톨로지를 생성하는 과정으로서 시맨틱 웹, 데이타 통합, 지식관리시스템 등 여러 온톨로지 응용 시스템에서 중요하게 다루는 연구주제이다. 그러나 과거의 연구들은 대부분 두 소스 온톨로지들 사이에 의미적으로 대응되는 공통 요소를 효과적으로 찾기 위한 온톨로지 매칭 기법에 집중되어 있으며 매핑 요소들을 통합하는 과정에서 발생하는 문제를 정의하고 해결하는 방법에 대해서는 간과하고 있다. 본 논문에서는 매칭 프로세스에 의해 주어진 매핑 결과에 기반하여 두 소스 온톨로지들을 통합해 나가는 상세한 통합 프로세스를 정의하고 매핑 요소들 사이에 존재하는 통합 충돌의 유형에 대한 분류 체계 및 충돌을 탐지하고 해결하기 위한 기법을 제안한다. 또한 충돌의 탐지 및 해결을 포함하여 통합 과정을 캡슐화하는 T-MERGE 연산자와 통합 과정의 기록과 오류 복구를 위한 MergeLog를 설계 및 구현한다. 제안하는 통합 모듈의 성능을 보이기 위해 동, 서양 철학 온톨로지들과 야후 및 네이버 백과사전의 일부를 온톨로지로 구현하여 실험 데이타로 활용하였으며 그 결과 전문가의 수작업에 의한 온톨로지 통합과 동일한 결과를 적은 시간과 노력으로 얻을 수 있음을 보인다.

인터넷을 기반으로 하는 EDI 신조류 (A Study on the New Trends of EDI based Internet)

  • 조원길
    • 정보학연구
    • /
    • 제4권1호
    • /
    • pp.125-139
    • /
    • 2001
  • 전자상거래의 글로벌한 움직임과 관련하여 여전히 EDI는 전자상거래의 핵심요소로서 중요성을 더해 가고 있지만, 전세계를 하나로 연결하는 인터넷의 등장과 비즈니스 환경의 변화로 말미암아 그 역할과 구현방법에 새로운 변화가 일어나고 있다. 따라서 본 연구는 전자상거래 구현의 중심적인 역할을 하고 있는 기존의 EDI와 현재의 인터넷을 기반으로 하는 EDI까지의 새로운 EBI조류에 대하여 살펴보았다.

  • PDF

한국어 텍스트 마이닝의 특성과 2011 한국 경제총조사 자료에의 응용 (Text Mining for Korean: Characteristics and Application to 2011 Korean Economic Census Data)

  • 구주나;김경아
    • 응용통계연구
    • /
    • 제27권7호
    • /
    • pp.1207-1217
    • /
    • 2014
  • 한국 전체 사업체 대한 최초의 전수조사인 2011 경제총조사 중 한식 음식점업 사업체 자료는 취급 메뉴에 대한 텍스트 자료와 영업 지역, 창립연월, 매출액 등 사업체의 특성을 나타내는 구조화 자료로 구성되어 있는 빅데이터이다. 본 연구에서는 취급 메뉴 자료에 텍스트 마이닝을 실시하는 과정에서 발생하는 통계 및 기술적 문제점들을 살펴보고, 이를 통해 한국어 텍스트 마이닝의 특징을 고찰하였다. 또한 텍스트 마이닝의 결과를 사업체 특성 자료와 결합하여 한식 메뉴와 이를 취급하는 사업체 특성 간의 연관성을 탐색하였다. 2010년 기준 가장 많은 사업체가 취급하는 인기 메뉴는 삼겹살구이로 특히 강원도와 대전광역시에 인구 대비 취급 사업체가 많았다. 신생 사업체의 인기 메뉴는 육회와 돈가스였고, 닭백숙과 매운탕 등이 장수 사업체가 많이 취급하는 메뉴였다. 이러한 결과들은 한식 음식점 창업시 메뉴 선정 가이드라인으로 활용될 수 있으며 관련 정부 부처가 영세 사업체들의 메뉴 변경 유도를 통한 폐업 방지등의 정책을 마련하는데 도움이 될 것이다.

빅데이터 분석 기반의 오피니언 마이닝을 이용한 정보화 사업 평가 분석 (An Analysis of IT Proposal Evaluation Results using Big Data-based Opinion Mining)

  • 김홍삼;김종수
    • 산업경영시스템학회지
    • /
    • 제41권1호
    • /
    • pp.1-10
    • /
    • 2018
  • Current evaluation practices for IT projects suffer from several problems, which include the difficulty of self-explanation for the evaluation results and the improperly scaled scoring system. This study aims to develop a methodology of opinion mining to extract key factors for the causal relationship analysis and to assess the feasibility of quantifying evaluation scores from text comments using opinion mining based on big data analysis. The research has been performed on the domain of publicly procured IT proposal evaluations, which are managed by the National Procurement Service. Around 10,000 sets of comments and evaluation scores have been gathered, most of which are in the form of digital data but some in paper documents. Thus, more refined form of text has been prepared using various tools. From them, keywords for factors and polarity indicators have been extracted, and experts on this domain have selected some of them as the key factors and indicators. Also, those keywords have been grouped into into dimensions. Causal relationship between keyword or dimension factors and evaluation scores were analyzed based on the two research models-a keyword-based model and a dimension-based model, using the correlation analysis and the regression analysis. The results show that keyword factors such as planning, strategy, technology and PM mostly affects the evaluation result and that the keywords are more appropriate forms of factors for causal relationship analysis than the dimensions. Also, it can be asserted from the analysis that evaluation scores can be composed or calculated from the unstructured text comments using opinion mining, when a comprehensive dictionary of polarity for Korean language can be provided. This study may contribute to the area of big data-based evaluation methodology and opinion mining for IT proposal evaluation, leading to a more reliable and effective IT proposal evaluation method.

빅데이터 분석기법을 활용한 아파트 가격 관련 뉴스 기사의 극성 분석 (A Study on the Polarity of Apartment Price News Using Big Data Analysis Method)

  • 조상연;홍은표
    • 디지털융복합연구
    • /
    • 제17권9호
    • /
    • pp.47-54
    • /
    • 2019
  • 본 연구는 빅데이터 분석 방법인 오피니언 마이닝을 사용하여 아파트 가격 관련 뉴스 기사의 극성을 확인하는 연구로 자료는 2012년, 2018년 2년간 네이버에 게시된 인터넷 뉴스 기사를 사용하였다. 감성분석 모형을 모델링하고 주제 지향형 감성사전 구축 방법을 제안하였다. 제안한 감성분석 모형을 통해 분석한 결과, 아파트 가격이 상승하는 시기에는 사회적 이슈 선정에 있어서 언론사의 성향에 따라 차이가 있는 것을 확인하였고 정부와 동일한 성향의 언론사에서 긍정 기사가 많은 것을 확인하였다. 부동산 분야에서 사용할 수 있는 감성분석 모형을 제시하고 부동산 관련 비정형 데이터의 극성을 분석하였다는 것에 의의가 있다. 향후 다양한 분야에 접목하기 위해서는 주제별 감성사전을 구축해야 하며 다양한 비정형 데이터를 수집하고 수집 기간을 확장하는 것이 필요하다.

텍스트마이닝을 위한 패션 속성 분류체계 및 말뭉치 웹사전 구축 (Development of Online Fashion Thesaurus and Taxonomy for Text Mining)

  • 장세윤;김하연;김송미;최우진;정진;이유리
    • 한국의류학회지
    • /
    • 제46권6호
    • /
    • pp.1142-1160
    • /
    • 2022
  • Text data plays a significant role in understanding and analyzing trends in consumer, business, and social sectors. For text analysis, there must be a corpus that reflects specific domain knowledge. However, in the field of fashion, the professional corpus is insufficient. This study aims to develop a taxonomy and thesaurus that considers the specialty of fashion products. To this end, about 100,000 fashion vocabulary terms were collected by crawling text data from WSGN, Pantone, and online platforms; text subsequently was extracted through preprocessing with Python. The taxonomy was composed of items, silhouettes, details, styles, colors, textiles, and patterns/prints, which are seven attributes of clothes. The corpus was completed through processing synonyms of terms from fashion books such as dictionaries. Finally, 10,294 vocabulary words, including 1,956 standard Korean words, were classified in the taxonomy. All data was then developed into a web dictionary system. Quantitative and qualitative performance tests of the results were conducted through expert reviews. The performance of the thesaurus also was verified by comparing the results of text mining analysis through the previously developed corpus. This study contributes to achieving a text data standard and enables meaningful results of text mining analysis in the fashion field.

잠재적 차량 결함 탐지를 위한 비정형 고객불만 텍스트 데이터 분류 (Classification of Unstructured Customer Complaint Text Data for Potential Vehicle Defect Detection)

  • 조주현;옥창수;박재일
    • 산업경영시스템학회지
    • /
    • 제46권2호
    • /
    • pp.72-81
    • /
    • 2023
  • This research proposes a novel approach to tackle the challenge of categorizing unstructured customer complaints in the automotive industry. The goal is to identify potential vehicle defects based on the findings of our algorithm, which can assist automakers in mitigating significant losses and reputational damage caused by mass claims. To achieve this goal, our model uses the Word2Vec method to analyze large volumes of unstructured customer complaint data from the National Highway Traffic Safety Administration (NHTSA). By developing a score dictionary for eight pre-selected criteria, our algorithm can efficiently categorize complaints and detect potential vehicle defects. By calculating the score of each complaint, our algorithm can identify patterns and correlations that can indicate potential defects in the vehicle. One of the key benefits of this approach is its ability to handle a large volume of unstructured data, which can be challenging for traditional methods. By using machine learning techniques, we can extract meaningful insights from customer complaints, which can help automakers prioritize and address potential defects before they become widespread issues. In conclusion, this research provides a promising approach to categorize unstructured customer complaints in the automotive industry and identify potential vehicle defects. By leveraging the power of machine learning, we can help automakers improve the quality of their products and enhance customer satisfaction. Further studies can build upon this approach to explore other potential applications and expand its scope to other industries.

소셜 미디어 상 고객피드백을 위한 감성분석 (The Sensitivity Analysis for Customer Feedback on Social Media)

  • 송은지
    • 한국정보통신학회논문지
    • /
    • 제19권4호
    • /
    • pp.780-786
    • /
    • 2015
  • SNS 등과 같은 소셜 미디어는 실시간으로 자발적인 고객의 의견들을 대거 포함하고 있어 최근 기업들은 효율적인 경영을 위해 소셜 미디어상의 빅 데이터를 분석하는 시스템을 이용하여 고객피드백에 관한 정보를 수집하고 분석하고 있다. 그러나 온라인 사이트에서 수집한 데이터는 띄어쓰기와 철자 오류가 많아 기존의 형태소 분석기로는 정확한 분석을 할 수 없다. 또한 온라인 상의 문장은 짧다는 특징이 있어 상호 정보량, 카이제곱 통계량 등과 같은 기존의 의미 선택 방법을 이용하게 되면 문장 내 선택 할 수 있는 의미의 부재로 인해 정확한 감성 분류를 할 수 없다는 문제점이 있다. 이러한 문제점들을 해결하기 위해서 본 논문에서는 초/중성 및 어절 패턴 사전을 이용해서 보정할 수 있는 모듈과 문장 내 품사의 우선순위를 이용한 의미 선택 방법을 제안한다. 이러한 방법으로 형태소 분석기에서 추출된 품사 정보를 기반으로 용언과 체언을 분리해서 분석 해당 품사에 종속적인 속성 DB 구축 한 후 학습에 의해 누적된 속성 DB를 사용하여 보다 정확한 긍/부정 감성을 추출한다.

한의학술논문 데이터베이스 구축을 위한 입력 및 검수 시스템 개발 (The Implementation of Database Building System for Korean Medical Paper Database)

  • 예상준;김익태;장윤지;성보석;장현철;김상균;김안나;송미영;김철
    • 한국한의학연구원논문집
    • /
    • 제18권3호
    • /
    • pp.141-146
    • /
    • 2012
  • Objectives : KIOM(Korean Institute of Oriental Medicine) built up korean medical paper database and services it through information portal OASIS. The database are updated about 1,600 papers and 48,000 references annually. Because lots of manpower and time are needed to update database, it is very important to raise up efficiency and quality of it. Methods : In this paper, we implemented web based database building system utilizing pre-built OASIS' database to improve the working process, data quality and ease of management. Results : First we designed and implemented web based system to input bibliography of the paper efficiently. It raised efficiency using OASIS' paper and reference database. Second we improved the refining process using web based system to raise up data quality. And third we developed the manager functions of web based system to control and check the working process. Conclusions : If we add korean medical dictionary and link outside paper database in the future, we hope that work efficiency and data quality will be raised more. And because the database schema of OASIS system and developed system are different, we are implementing the data transformation system.