• 제목/요약/키워드: Data dictionary

검색결과 346건 처리시간 0.032초

Bi-directional Maximal Matching Algorithm to Segment Khmer Words in Sentence

  • Mao, Makara;Peng, Sony;Yang, Yixuan;Park, Doo-Soon
    • Journal of Information Processing Systems
    • /
    • 제18권4호
    • /
    • pp.549-561
    • /
    • 2022
  • In the Khmer writing system, the Khmer script is the official letter of Cambodia, written from left to right without a space separator; it is complicated and requires more analysis studies. Without clear standard guidelines, a space separator in the Khmer language is used inconsistently and informally to separate words in sentences. Therefore, a segmented method should be discussed with the combination of the future Khmer natural language processing (NLP) to define the appropriate rule for Khmer sentences. The critical process in NLP with the capability of extensive data language analysis necessitates applying in this scenario. One of the essential components in Khmer language processing is how to split the word into a series of sentences and count the words used in the sentences. Currently, Microsoft Word cannot count Khmer words correctly. So, this study presents a systematic library to segment Khmer phrases using the bi-directional maximal matching (BiMM) method to address these problematic constraints. In the BiMM algorithm, the paper focuses on the Bidirectional implementation of forward maximal matching (FMM) and backward maximal matching (BMM) to improve word segmentation accuracy. A digital or prefix tree of data structure algorithm, also known as a trie, enhances the segmentation accuracy procedure by finding the children of each word parent node. The accuracy of BiMM is higher than using FMM or BMM independently; moreover, the proposed approach improves dictionary structures and reduces the number of errors. The result of this study can reduce the error by 8.57% compared to FMM and BFF algorithms with 94,807 Khmer words.

소셜빅데이터를 이용한 온라인 소비자감성지수(e-CCSI) 개발 (Electronic-Composit Consumer Sentiment Index(CCSI) development by Social Bigdata Analysis)

  • 김유신;홍성관;강희주;정승렬
    • 인터넷정보학회논문지
    • /
    • 제18권4호
    • /
    • pp.121-131
    • /
    • 2017
  • 인터넷, 소셜미디어, 모바일 등의 등장이후 소비자들은 개인의 의견을 온라인을 통해 적극적으로 표명하기 시작했고 이의 확산 또한 실시간으로 이루어지고 있다. 인터넷 기반의 다양한 커뮤니케이션 활동들을 통해 생산되는 텍스트는 인터넷을 사용하는 사용자들이 공유하고 공감하는 자원으로서 단순한 소통의 도구를 넘어 분석의 가치가 있는 새로운 정보의 창고가 되고 있다. 세계 각국의 정부와 기업은 인터넷과 소셜미디어를 통해 생산되는 소셜 빅데이터를 활용하여 사회/경제적 문제의 해결과 정부의 정책을 효과적으로 추진하는데 적극 활용하고 있다. 특히 경제와 관련해서는 경기현황에 대한 경제주체들의 움직임을 보다 빠르고 정확하게 분석하고 예측하여 이에 알맞은 정책을 적기에 실시할 수 있도록 다각적인 활동을 펼치고 있다. 본 연구에서는 소셜 미디어에 내재된 소비자의 직적접이고 즉시성 있는 의견을 경제적 측면에서 활용할 수 있는 온라인 소비자감성지수 모형을 제시하고 구현하였다. 이를 위해 한국은행의 소비자동향조사(CSI)와 소비자심리지수(CCSI)를 온라인으로 수행할 수 있는 어휘분류체계(온톨로지)와 감성사전을 구축하고 감성분석을 실시하여 생활형편, 경제상황, 소비와 수입 4가지 영역의 소셜감성지수를 도출하였다. 또한 이들을 결합한 온라인 소비자감성지수(e-CCSI)를 개발하고 소비자심리지수와 비교를 통해 유용성을 확인하였다.

빅데이터를 활용한 건축물 화재위험도 평가 지표 결정 (Determination of Fire Risk Assessment Indicators for Building using Big Data)

  • 주홍준;최윤정;옥치열;안재홍
    • 한국건축시공학회지
    • /
    • 제22권3호
    • /
    • pp.281-291
    • /
    • 2022
  • 본 연구에서는 빅데이터를 활용하여 건축물의 화재위험도 평가에 필요한 지표를 결정하였다. 건축물에서 화재위험도에 영향을 미치는 원인은 대부분 건축물만을 고려한 지표로 고착화되어 있기 때문에 제한적이고 주관적인 평가가 수행되어왔다. 따라서, 빅데이터를 활용하여 다양한 내·외부 지표를 고려한다면 건축물의 화재위험도 저감을 위한 효과적인 대책을 도모할 수 있다. 지표 결정에 필요한 데이터를 수집하기 위해 먼저 질의어를 선정하고, 웹 크롤링 기법을 이용하여 비정형 데이터 형식의 전문 문헌을 수집하였다. 문헌 내 단어를 수집하기 위해 사용자 용어사전 등록, 중복 문헌 및 불용어 제거의 전처리 과정을 수행하였으며, 선행 연구를 검토하여 단어를 4개의 요소로 분류하고 각 요소에서 위험도와 관련된 대표 키워드를 선정하였다. 그리고 대표 키워드의 연관검색어 분석을 통해 파생되는 위험도 관련 지표를 수집하였다. 지표의 선정 기준에 따라 수집된 지표를 검토한 결과, 20개의 건축물 화재위험도 지표를 결정할 수 있었다. 본 연구 방법론은 건축물 화재위험의 저감 대책 수립을 위한 빅데이터 분석의 적용 가능성을 나타내며, 결정된 지표는 건축물 화재위험도 평가를 위한 참고자료로 사용될 수 있을 것이다.

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법 (Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification)

  • 김정인;박상진;김형주;최준호;김한일;김판구
    • 스마트미디어저널
    • /
    • 제9권1호
    • /
    • pp.51-59
    • /
    • 2020
  • 인터넷의 발달과 스마트폰의 보급으로 인하여 그에 따른 소셜 미디어 문화가 형성됨에 따라 PC통신부터 지금까지 소셜 미디어 신조어가 그 문화로 자리 잡아가고 있다. 소셜 미디어의 등장과 사람들의 가교역할을 해주는 스마트폰의 보급화로 신조어가 생기고 빈번하게 사용되고 있는 추세이다. 신조어의 사용은 다양한 문자 제한 메신저의 문제점을 해결하고 짧은 문장을 사용하여 데이터를 줄이는 등 많은 장점을 가지고 있다. 그러나 신조어에는 사전적인 의미가 없으므로 데이터 마이닝 기술이나 빅데이터와 같은 연구에서 사용되는 알고리즘의 성능 저하와 연구에 제약사항이 발생한다. 따라서 본 논문에서는 웹 크롤링을 통해 텍스트 데이터를 추출하고, 텍스트 마이닝과 오피니언 마이닝을 통해 의미부여 및 단어들에 대한 감정적 분류를 통한 문장의 오피니언 파악을 진행하고자 한다. 실험은 다음과 같이 3단계로 진행하였다. 첫째, 소셜 미디어에서 새로운 단어를 수집하여 수집된 단어는 긍정적이고 부정적인 학습을 받게 하였다. 둘째, 표준 문서를 사용하여 감정적 가치를 도출하고 검증하기 위해 TF-IDF를 사용하여 데이터의 감정적 가치를 측정하기 위해 명사 빈도수를 측정한다. 신조어와 마찬가지로 분류된 감정적 가치가 적용되어 감정이 표준 언어 문서로 분류되는지 확인하였다. 마지막으로, 새로 합성된 단어와 표준 감정적 가치의 조합을 사용하여 장비 기술의 비교분석을 수행하였다.

관계형 데이터베이스 기반 구조적학술용어사전(STNet)의 RDF 온톨로지 변환 방식 연구 (A Study on Conversion Methods for Generating RDF Ontology from Structural Terminology Net (STNet) based on RDB)

  • 고영만;이승준;송민선
    • 정보관리학회지
    • /
    • 제32권2호
    • /
    • pp.131-152
    • /
    • 2015
  • 본 연구에서는 R2RML 방식과 Non-R2RML 방식을 각각 적용하여 RDB를 RDF 온톨로지로 변환한 결과를 비교하였다. RDB 기반의 구조적학술용어사전 데이터베이스인 STNet의 데이터를 대상으로, 변환이 완료된 데이터의 규모, 튜플당 변환에 걸리는 시간, 그리고 질의 응답 속도를 측정하였다. 변환 규모의 평가 결과 Non-R2RML 방식이 더 많은 수의 변환을 하였으며, 표현의 풍부성과 추론 가능성 정도를 높이는 변환을 수행한 것으로 나타났다. 튜플당 변환 시간의 경우 Non-R2RML 방식이 미세하지만 더 빠른 것으로 나타났으며, 질의 응답 속도는 두 방식 모두 300회 이상의 질의 횟수부터는 안정적인 성능을 보이면서 유사한 형태의 속도를 보였다. 측정에 대한 종합적 검토 결과 데이터의 변형이 빈번하고 새로운 데이터의 추가나 데이터들 간의 연결관계가 지속적으로 변화하는 STNet과 같은 동적인 RDB에는 Non-R2RML 방식이 적절한 것으로 평가되었다.

SNS 감성분석을 이용한 정보 추출 방법론에 관한 연구 (Study on the Methodology for Extracting Information from SNS Using a Sentiment Analysis)

  • 홍두표;정하림;박상민;한음;김홍회;윤일수
    • 한국ITS학회 논문지
    • /
    • 제16권6호
    • /
    • pp.141-155
    • /
    • 2017
  • 최근 SNS 이용이 활발해짐에 따라 많은 사람들이 특정 이벤트 등에 대한 자신들의 생각을 비정형 데이터인 텍스트 형태로 자신의 SNS에 게시하고 있다. 이에 따라 금융, 유통 등 다양한 분야에서 이미 SNS를 이용하여 서비스 만족도 조사, 소비자 요구사항 모니터링, 대선 후보 선호도 등을 수행하고 있다. 하지만 교통 분야에서는 감성분석과 같은 비정형 데이터 분석을 활용하는 사례가 부족한 실정이다. 이에 본 연구에서는 한국도로공사에서 수집한 비정형 데이터인 고속도로 VOC 데이터를 이용하여 교통분야에서 사용할 수 있는 감성분석 방법론을 개발하였다. 개발된 감성분석 방법론은 수집된 비정형 데이터에 대한 형태소 분석, 감성사전 구축, 감성 판별 등으로 구성되어 있다. 개발된 방법론은 고속도로 관련 트윗 데이터를 이용하여 검증하였다. 분석 결과, 분석 기간 동안 고속도로와 관련하여 공사, 사고에 대한 정보 전달이 많이 이루어졌음을 짐작할 수 있었다. 또한 공사 및 사고로 인해 발생한 지체에 대하여 이용자들의 불만이 높았던 것으로 판단된다. 결론적으로 SNS 감성분석이 교통분야에서도 의미 있는 정보추출이 가능한 기법임을 확인하였다.

비정형데이터를 활용한 건축현장 품질성과 평가 모델 개발 (Crafting a Quality Performance Evaluation Model Leveraging Unstructured Data)

  • 이기석;송태근;유위성
    • 한국건축시공학회지
    • /
    • 제24권1호
    • /
    • pp.157-168
    • /
    • 2024
  • 최근 국내 건축현장에서 붕괴사고가 계속해서 발생하고 있어 시공 및 자재 품질 점검과 관리에 대한 공사감리의 중요성이 증가하고 있다. 현행 제도 및 기준에 의하면, 공사감리 업무는 주요 책임이 있는 감리자가 건축현장에서 진행되고 있는 시공 품질, 자재 품질, 재시공 이력 등이 상세하게 기술하여 공사감리보고서를 작성한다. 이러한 문서는 대표적인 비정형데이터로 건축현장에서 생성되고 있는 데이터의 80%의 비중을 차지하고 있으며, 건축현장의 품질정보가 상세하게 기록되어있다. 본 연구에 건축현장에서 발생하고 있는 공사감리보고서를 텍스트마이닝으로 전처리 후 감성사전을 구축하여 품질성과 수준을 평가하고 계량화할 수 있는 SL-QPA 모델을 제안하였다. 모델에서 산정된 성과 점수와 법적 기준에 의한 지표와의 피어슨 상관관계 분석하고, 상관계수에 대한 일원분산분석 결과는 통계적으로 유의미하였다. 제안된 SL-QPA 모델은 현행 건축현장 품질성과 진단에 상호 보완적으로 활용될 수 있고, 공사단계에서 연속적으로 생성되는 비정형데이터를 활용하여 점검 및 관리 활동의 적시성을 향상시킬 것으로 기대된다.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

다국어 소셜미디어에 대한 감성분석 방법 개발: 한국어-중국어를 중심으로 (A Method of Analyzing Sentiment Polarity of Multilingual Social Media: A Case of Korean-Chinese Languages)

  • 최미나;진윤선;권오병
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.91-111
    • /
    • 2016
  • 소비자들이 소셜미디어 상에 기록한 글을 통해 기업은 제품 또는 기업 이미지에 대한 감성분석을 수행하는데 이는 소셜미디어 기반 마케팅에서 중요한 활동 중에 하나다. 특히 글로벌 소셜미디어의 경우 국적을 불문하고 다양한 고객이 늘어남에 따라 여러 언어권의 소비자들이 각자의 언어로 다양한 의견을 표명하고 있다. 이처럼 다양한 언어로 작성된 텍스트를 감성분석하기 위해서는 기존 방법과 달리 동일한 언어로 통일시켜야 하는 번역 작업이 필요하다. 하지만 번역을 하게 될 경우, 언어와 관련된 배경이나 문화, 용어사용의 차이 등으로 본래 문서에 있는 모든 단어나 문법을 정확히 표현할 수 없는 문제점이 있다. 따라서 본 연구에서는 다중 언어로 수집되는 텍스트를 번역하지 않고 해당 언어별로 텍스트를 분리한 다음 감성분석을 진행하여 각각의 극성치를 종합하는 방법을 제안하고자 한다. 본 연구에서 제안한 다국어 감성분석 알고리즘을 검증하기 위해 다중언어 문장을 한국어, 중국어로 번역한 감성분석의 극성치 편차인 RMSE 값을 비교하였다. 그 결과, 번역을 통한 다중언어의 감성분석보다 언어별로 분리한 감성값이 실제 감성값에 가장 근접하는 것으로 나타나 본 연구에서 제안한 방법론의 우수성을 입증하였다. 본 연구는 다수의 유사한 연구에서 사용했던 알고리즘을 사용하지 않고 원문 그대로 다중언어 감성분석을 시도했다는 점에서 의의가 있다.

설비 오류 유형 구조화를 위한 인공신경망 기반 구절 네트워크 구축 방법 (An Artificial Neural Network Based Phrase Network Construction Method for Structuring Facility Error Types)

  • 노영훈;최은영;최예림
    • 인터넷정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.21-29
    • /
    • 2018
  • 4차 산업혁명 시대의 도래와 함께 스마트 팩토리의 개념이 대두되면서 설비가동률과 생산성에 악영향을 미치는 설비 오류의 발생을 데이터 분석 기법을 통해 예측하고자 하는 노력이 이루어지고 있다. 데이터 분석 기법을 활용하여 설비 오류를 예측하기 위해서는 설비 오류가 발생한 상황과 설비 오류 유형을 명시한 데이터인 설비 오류 이력이 필요하다. 하지만 많은 제조 현장에서는 설비 오류 유형이 정확하게 정의/분류가 되지 않아 설비를 운영하는 작업자가 자신의 경험적 판단에 의거하여 정형화되지 않은 텍스트의 형태로 설비 오류 유형을 작성하고, 이에 따라 데이터 분석 기법의 적용이 어렵다. 따라서 본 논문에서는 수기로 작성된 설비 오류 이력을 활용하여 설비 오류 유형을 파악하고 구조화하기 위한 구절 네트워크 구축 방법을 제안하고자 한다. 구체적으로, 단어를 쓰임새에 따라 분류한 용도 딕셔너리를 활용하여 비정형의 텍스트 데이터로부터 설비 오류 유형을 의미하는 구절을 추출하고, 추출된 구절 간의 유사도를 계산하여 네트워크를 구축한다. 제안하는 방법의 성능을 실제 제조 기업의 설비 오류 이력 데이터를 활용하여 검증하였으며, 본 연구의 결과는 텍스트 데이터에 기반한 설비 오류 유형 구조화와 나아가서는 설비 오류 발생 예측에 이용할 수 있을 것을 기대한다.