• 제목/요약/키워드: 비정형데이터

검색결과 580건 처리시간 0.024초

순환 신경망(LSTM) 이용한 영화 평점 예측 (Predicting Movie Evaluation using Deep LSTM)

  • 강경필;주재걸
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.591-594
    • /
    • 2016
  • 소비자의 선호도 및 여론을 정량적인 방법으로 분석하기 위해 비정형 데이터의 분석은 필수적인 요소가 되고 있다. 하지만 비정형 데이터는 언어의 구조 및 모호성 등으로 인해 분석하기 어려운 형태이다. 따라서 본 연구는 최근 각광받고 있는 인공신경망, 특히 그 중에서도 순환 신경망의 한 모델인 Deep LSTM을 이용하여 비정형 데이터를 분석하고 이를 활용하여 어순 및 어감 등의 언어의 구조적 문제에도 효과적인 정략적 모델을 설계하여 학습하고 이를 기존의 인공신경망 모델과 비교 분석하고자 한다.

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

정형/비정형 데이터 기반 사회재난 안전 플랫폼 설계 (A Design of the Social Disasters Safety Platform based on the Structured and Unstructured Data)

  • 이창열;박길주;김정곤;김태환
    • 한국재난정보학회 논문집
    • /
    • 제18권3호
    • /
    • pp.609-621
    • /
    • 2022
  • 연구목적: 자연재난은 행정안전부가 재난관리 주관기관으로 관리체계가 잘 구성되어 있는 반면에 사회재난은 그 관리가 부처별로 분산되어 있어 통합적인 관점의 관리가 부실한 상태이다. 통합적 관리를 위한 정보체계 구성과 플랫폼 개발을 통하여 지자체 등에서 활용할 수 있게 하는 것이 본 연구의 목적이다. 연구방법: 각 부처별로 분산된 재난 정보로 사고조사 보고서(비정형 데이터)를 포함한 재난 정보를 통합하고 분석할 수 있는 DB 구축과, 인명 피해 중심의 사회 재난에 대한 위험성 평가를 통한 재난 관리체계를 제공하고, 실시간으로 제공되는 사고 진행에 대한 인명 피해 예측과 사고 원인 추론 체계를 제시한다. 연구결과: 정형 및 비정형 재난 정보를 관리하는 시스템 설계, 인명중심 사회재난 위험성 평가 방법 제시, 그리고 실시간 재난 모니터링을 통하여 분석할 수 있는 체계 설계, 그리고 이를 기반으로 서비스할 수 있는 플랫폼을 설계하였다. 결론: 사회재난 정보를 통합 운영할 수 있는 플랫폼과 사고조사를 통한 인명피해 원인과 위험도를 제시하는 체계를 구축하였다.

소규모학습그룹의 학습자 맞춤형 교육을 위한 비정형데이터분석 연구 (A study on the analysis of unstructured data for customized education of learners in small learning groups)

  • 민연아;임동균
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권5호
    • /
    • pp.89-95
    • /
    • 2020
  • 이러닝 시장이 확대됨에 따라 인공지능 기반의 학습자 맞춤형 교육에 대한 관심이 높아지고 있다. 학습자 맞춤형 교육은 학습자 분석을 위한 대량의 데이터 및 학습 콘텐츠 등의 필수 구성요소가 필요하며 이러한 데이터 수집을 위한 시간과 비용 측면의 노력이 필요하다. 본 논문에서는 소규모 학습그룹에서의 효율적으로 학습자 맞춤형 학습이 가능하도록, python 모듈들을 사용하여 비정형 학습자 데이터를 분석하였으며 이를 토대로 제시된 학습알고리즘을 통하여 학습자의 학습연속성을 유지하도록 하였다. 본 논문을 통하여 제시된 비정형 학습데이터분석을 통하여 학습관련 비정형 데이터를 정량화 하여 측정 가능하도록 하였으며 학습자 맞춤교육 제공을 위한 키워드 분석 시 90% 이상 데이터가 유의미함을 확인하였다.

빅데이터의 국내.외 활용 고찰 및 시사점 (Current Status of Big Data Utilization)

  • 이성훈;이동우
    • 디지털융복합연구
    • /
    • 제11권2호
    • /
    • pp.229-233
    • /
    • 2013
  • 정보기술 및 통신과 관련된 기술들을 융합화하고자 하는 노력들이 지속적으로 이루어지면서 우리주변에는 다양하면서도 수많은 데이터들이 만들어지고 있다. 스마트폰이 일반화 되고 있으며, 태블릿PC와 카메라, 게임기등을 통하여 다양한 비 정형 데이터들이 생성되고 있으며 이러한 데이터들로 인한 데이터 트래픽 또한 급증하는 추세이다. 또한 데이터의 크기와 형태가 다양하고 데이터의 증가 속도가 가파른 이른바 '빅데이터 시대'가 도래하고 있는 것이다. 현재 다양한 분야에서는 이러한 빅데이터를 활용하여 새로운 가치 창출을 이루고자 하고 있다. 본 연구에서는 이러한 빅데이터의 국내/외 활용에 대한 고찰 및 시사점등을 기술하였다.

비정형 텍스트 테이터 분석을 위한 워드클라우드 기법에 관한 연구 (A Study on Word Cloud Techniques for Analysis of Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.715-720
    • /
    • 2020
  • 빅데이터 분석에서 텍스트 데이터는 대부분 비정형이고 대용량으로 분석 기법이 정립되지 않아 분석에 어려움이 많았다. 따라서 텍스트 데이터 분석 기법의 하나인 빅데이터 워드클라우드 기법의 실무 적용시 문제점과 유용성 검증을 통한 상용화 가능성을 위해 본 연구를 수행하였다. 본 논문에서는 R 프로그램 워드클라우드 기법을 이용하여 "대통령 UN연설문"을 시각화 분석을 하고 이 기법의 한계와 문제점을 도출한다. 그리고 이를 해결하기 위한 개선된 모델을 제안하여 워드클라우드 기법의 실무 적용에 대한 효율적인 방안을 제시한다.

다차원 분석방법을 활용한 중소규모 공동주택 건축심의 의견의 경향과 비정형 데이터로서의 특성분석 (Multidimensional Analysis of Unstructured Data and Trends in Architectural Review Opinions of Small and Medium-Sized Apartment Projects )

  • 김진희;황태언;김재식;허영기
    • 한국건설관리학회논문집
    • /
    • 제24권6호
    • /
    • pp.74-80
    • /
    • 2023
  • 본 연구는 국내 1인 가구수가 증가함에 따라 중소규모 공동주택에 대한 정책적 관심이 높아지는 가운데, 해당 사업 유형의 사업주들이 대비하기 가장 어려운 리스크로 건축심의가 지적되고 있다. 본 연구는 B도시의 25개 중소규모 공동주택 프로젝트에 대해 다차원 분석방법을 적용하여 건축심의 의견의 경향과 비정형데이터로서 건축심의 의견의 특성을 분석하였다. 대응분석 및 MDS 분석을 실시한 결과, 선행연구와 동일하게 B도시의 건축심의 의견은 주로 상위분류에서 '구조'와 '계획'에 관련된 키워드가 주를 이루었다. 즉, 모든 키워드의 출현빈도수 대비 각 상위분류의 빈도수의 합은, 선행연구의 직접분류결과는 '구조' 40%, '계획' 27%이며, 본 연구의 분석결과는 '구조' 44%, '계획' 39%인 것으로 나타났다. MDS모델의 적합도는 34.4%로 비교적 낮은 편이나, 대응분석을 통해 확인한 결과 건축심의의 비정형적 자료의 특성에 기인한 것으로 확인하였다. 또한, 본 연구에서 분석한 건축심의 의견과 같은 비정형적 데이터는 심의위원의 주관과 지자체별 양식에 따라 다양한 데이터의 조합과 출현이 이루어지며, 주로 언급되는 단어와 전혀 다른 키워드가 등장할 수 있어 첨도가 낮고 왜도가 높은 확률분포적 특성을 파악할 수 있었다. 본 연구는 일부 한계점이 있으나, 비정형 데이터로서 건축심의 의견의 특징을 도출해내었으며 추후 세부분석을 위한 기초 연구로서 활용 될 수 있을 것이다.

공문서의 기계가독형(Machine Readable) 전환 방법 제언 (Suggestions on how to convert official documents to Machine Readable)

  • 임진희
    • 기록학연구
    • /
    • 제67호
    • /
    • pp.99-138
    • /
    • 2021
  • 빅데이터 시대에 정형데이터 뿐만 아니라 비정형데이터를 분석하는 것이 중요한 과제로 대두되고 있다. 정부기관이 생산하는 공문서도 텍스트 기반의 대형 비정형데이터로 빅데이터 분석의 대상이 된다. 기관 내부의 업무효율, 지식관리, 기록관리 등의 관점에서 공문서 빅데이터를 분석하여 유용한 시사점을 도출해 나가야 할 것이다. 그러나, 현재 공공기관이 보유 중인 공문서의 상당수가 개방포맷이 아니어서 빅데이터 분석을 하려면 비트스트림에서 텍스트를 추출하는 전처리 과정이 요구된다. 또한, 문서파일 내에 맥락 메타데이터가 충분히 저장되어 있지 못하여 품질 높은 분석을 하려면 별도의 메타데이터 확보 노력이 필요하다. 결론적으로 현재의 공문서는 기계가독(machine readable) 수준이 낮아 빅데이터 분석에 비용이 많이 들게 된다. 이 연구에서는 향후 공문서가 기계가독 수준을 높이기 위해서는 공문서의 개방포맷화, 기안문 서식의 표준태그화, 자기 기술(self-descriptive) 메타데이터 확보, 문서 텍스트 태깅 등이 선행될 필요가 있다는 점을 제안한다. 첫째, 문서가 스스로를 설명하기 위해 추가되어야 하는 메타데이터 항목들을 제시하고 이 메타데이터들이 기계가독형이 되도록 문서파일에 저장하는 방법을 제안한다. 둘째, 문서 내용 분석 시 자연어 처리에만 의존하지 않고 행정 맥락에 따라 중요한 키워드를 미리 국제표준 태그로 마킹하여 기계가독형이 되도록 하는 방안을 제안한다.

빅 데이터 기술 동향 및 분석 (Big Data Technology Trends and Analysis)

  • 신화용;박경수;문일영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.953-954
    • /
    • 2013
  • 스마트 폰, 태블릿 PC 등의 사용자가 급속히 증가함에 따라 데이터의 양이 많아지고 그 유형도 다양해지고 있다. 이런 방대한 양의 데이터를 모아 활용하여 새로운 가치를 만드는 빅 데이터 분야가 급부상 하고 있다. 형식이 다양한 빅 데이터는 기존의 데이터 분석 방식으로는 분석이 어려운 비정형 데이터이다. 최근에는 이러한 빅 데이터와 관련된 분석 기술과 마케팅, 상품기획 등에 이용하려는 움직임이 급증하고 있다. 이에 본 논문에서는 빅 데이터의 국 내외 동향을 분석하고자 한다.

  • PDF

빅데이터 환경에서 기계학습 알고리즘 응용을 통한 보안 성향 분석 기법 (Security tendency analysis techniques through machine learning algorithms applications in big data environments)

  • 최도현;박중오
    • 디지털융복합연구
    • /
    • 제13권9호
    • /
    • pp.269-276
    • /
    • 2015
  • 최근 빅데이터 관련 산업 활성화에 따라 글로벌 보안 업체들은 지능적인 보안 위협 모니터링과 예방을 위해 분석 데이터의 범위를 정형/비정형 데이터로 확대하고, 보안 예방을 목적으로 사용자의 성향 분석 기법을 활용하려는 추세이다. 이는 기존 정형 데이터(기존 수치화 가능한 자료)의 분석 결과에서 추론할 수 있는 정보의 범위가 한정적이기 때문이다. 본 논문은 빅데이터 환경에서 기계학습 알고리즘($Na{\ddot{i}}ve$ Bayes, Decision Tree, K-nearest neighbor, Apriori)을 효율적으로 응용하여 보안 성향(목적 별 항목 분류, 긍정 부정 판단, 핵심 키워드 연관성 분석)을 분석하는데 활용한다. 성능 분석 결과 보안 성향 판단을 위한 보안항목 및 특정 지표를 정형/비정형 데이터에서 추출할 수 있음을 확인하였다.