• 제목/요약/키워드: FastText

검색결과 174건 처리시간 0.023초

정보 알고리즘 기반 아리랑의 계통도 및 상관관계 분석 (Correlation Analysis of the Arirangs Based on the Informatics Algorithms)

  • 김학용
    • 한국콘텐츠학회논문지
    • /
    • 제14권4호
    • /
    • pp.407-417
    • /
    • 2014
  • 우리 민족의 대표적인 민요이면서 동시에 유네스코 인류무형문화유산인 아리랑을 정보알고리즘 기법을 도입하여 후렴구를 중심으로 계통도를 분석하고 아리랑들 사이의 상관관계는 본문 단어중심으로 분석하였다. 아리랑의 계통도 분석은 생명체의 진화관계를 분석하는 알고리즘인 다중서열정렬 기법을 사용하였다. 분석한 아리랑 106개 중에서 38개 아리랑이 빠른 템포를 가지고 있었으며, 나머지 68개 아리랑이 느린 템포를 가지고 있었다. 이를 바탕으로 후렴구 기반 아리랑 계통도를 완성하였다. 아리랑 본문 단어는 아리랑에 있는 단어와 아리랑 제목을 노드로 하는 bipartate네트워크를 구축하고 이들로부터 73개 아리랑 및 104개의 핵심 단어를 추출하였다. 먼저, 이 데이터를 바탕으로 쌍대비교분석 기법을 사용하여 아리랑들 사이의 상관관계를 분석하였다. 또한, 네트워크 연결계수가 1인 노드를 단계적으로 제거하여 핵심네트워크를 구축한 다음 네트워크 기반으로 아리랑들 사이의 상관관계를 분석하였다. 그동안 아리랑을 어원 중심의 인문과학이나 음률적인 접근을 통하여 아리랑의 어원, 계통도, 상관관계를 분석하려는 연구가 있었다. 본 연구에서는 이러한 시도를 벗어나 과학적 접근방법인 정보알고리즘을 사용하여 아리랑을 분석함으로써 세계적인 문화유산의 위상을 한층 더 높이고 객관적인 결과를 통해서 아리랑의 대중화 및 세계화의 기틀을 마련함에 있어 그 방법론을 제시하였다.

교육용 문서의 텍스트분할 색인 (Text Partitioned Indexing Method for Educational Documents)

  • 강무영;이상구
    • 정보교육학회논문지
    • /
    • 제3권2호
    • /
    • pp.72-84
    • /
    • 2000
  • 정보검색시스템은 전자문서를 효율적으로 저장하고, 정보수요자들이 요구하는 자료를 검색을 통해 빠르게 제공하기 위한 시스템으로 정보화사회에 있어서 매우 중요한 역할을 하고 있다. 특히 색인은 데이터 베이스에 저장된 문서를 효과적으로 검색하기 위한 정보검색시스템의 필수 기능이다. 본 논문에서는 교육용 문서를 적은 자원으로 짧은 시간에 색인할 수 있는 텍스트분할에 의한 색인기법을 제안한다. 제안한 색인기법은 실제 검색시스템에 적용하고, 실험을 통해 우수성을 증명한다.

  • PDF

워드이미지로부터 영문인식을 위한 트루타입 특성 추출 (Deriving TrueType Features for Letter Recognition in Word Images)

  • SeongAh CHIN
    • 한국시뮬레이션학회논문지
    • /
    • 제11권3호
    • /
    • pp.35-48
    • /
    • 2002
  • In the work presented here, we describe a method to extract TrueType features for supporting letter recognition. Even if variously existing document processing techniques have been challenged, almost few methods are capable of recognize a letter associated with its TrueType features supporting OCR free, which boost up fast processing time for image text retrieval. By reviewing the mechanism generating digital fonts and birth of TrueType, we realize that each TrueType is drawn by its contour of the glyph table. Hence, we are capable of deriving the segment with density for a letter with a specific TrueType, defined by the number of occurrence over a segment width. A certain number of occurrence appears frequently often due to the fixed segment width. We utilize letter recognition by comparing TrueType feature library of a letter with that from input word images. Experiments have been carried out to justify robustness of the proposed method showing acceptable results.

  • PDF

키워드 기반 주제중심 분석을 이용한 비정형데이터 처리 (Unstructured Data Processing Using Keyword-Based Topic-Oriented Analysis)

  • 고명숙
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.521-526
    • /
    • 2017
  • 데이터는 데이터 형식이 다양하고 방대할 뿐만 아니라 그 생성 속도가 매우 빨라 기존의 데이터 처리 방식이 아닌 새로운 관리 및 분석 방법이 요구된다. 소셜 네트워크 상의 온라인 문서에서 인간의 언어로 쓰여진 비정형 텍스트에서 Text Mining기법을 사용하여 유용한 정보를 추출할 수 있다. 소셜미디어에 남긴 정치, 경제, 문화에 대한 메시지에 대한 경향을 파악하는 것이 어떤 주제에 관심을 가지고 있는지를 파악할 수 있는 요소가 된다. 본 연구에서는 주제 중심 분석 기법을 이용하여 주어진 키워드에 관한 온라인 뉴스를 대상으로 텍스트 마이닝을 수행하였다. LDA(Latent Dirichiet Allocation)를 이용하여 웹문서로부터 정보를 추출하고 이로부터 사람들이 실제로 주어진 키워드에 대하여 어떤 주제에 관심이 있고 관련된 핵심 가치 중 어떤 주제를 중심으로 전파되고 있는지를 분석하였다.

패션콘텐츠 미디어 환경 예측을 위한 해외 SPA 브랜드의 SNS 언어 네트워크 분석 (Estimating Media Environments of Fashion Contents through Semantic Network Analysis from Social Network Service of Global SPA Brands)

  • 전여선
    • 한국의류학회지
    • /
    • 제43권3호
    • /
    • pp.427-439
    • /
    • 2019
  • This study investigated the semantic network based on the focus of the fashion image and SNS text utilized by global SPA brands on the last seven years in terms of the quantity and quality of data generated by the fast-changing fashion trends and fashion content-based media environment. The research method relocated frequency, density and repetitive key words as well as visualized algorithms using the UCINET 6.347 program and the overall classification of the text related to fashion images on social networks used by global SPA brands. The conclusions of the study are as follows. A common aspect of global SPA brands is that by looking at the basis of text extraction on SNS, exposure through image of products is considered important for sales. The following is a discriminatory aspect of global SPA brands. First, ZARA consistently exposes marketing using a variety of professions and nationalities to SNS. Second, UNIQLO's correlation exposes its collaboration promotion to SNS while steadily exposing basic items. Third, in the case of H&M, some discriminatory results were found with other brands in connectivity with each cluster category that showed remarkably independent results.

Client/Server구조를 이용한 PDA기반의 문자 추출 시스템 (PDA-based Text Extraction System using Client/Server Architecture)

  • 박안진;정기철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권2호
    • /
    • pp.85-98
    • /
    • 2005
  • 최근, PDA를 이용한 모바일 비젼 시스템에 관한 많은 연구가 진행되고 있다. 대부분의 PDA에서 사용하는 CPU는 실수 연산 구성요소(floating-computation component)가 없는 정수(integer)형 CPU를 사용하므로, 실수 연산이 많은 영상 처리 및 비젼 시스템에서는 많은 시간이 소요되는 단점이 있다 본 논문에서는 이를 해결하기 위해 무선 랜(LAN)으로 연결된 Client(PDA)/server(PC)구조론 이용한 시스템을 제안하며, 연속 영상에서 Client(PDA)와 Server(PC) 각각의 CPU를 이용하여 파이프라이닝 형식으로 시스템을 구축함으로써 수행 시간을 단축한다. Client(PDA)는 에지 밀도(edge density)론 이용하여 대략적인 문자 영역을 추출하며, Server(PC)는 Client(PDA)에서 대략적으로 검출된 견과를 바탕으로 정밀한 문자 영역을 추출하기 위해, MLP(multi-layer perceptron) 기반의 텍스춰 분류 방법과 연결 성분(connected component: CC) 기반의 필터링 방법을 이용한다. 본 실험에서 제안한 방법은 MLP와 CC를 이용함으로써 효과적인 문자 추출 결과를 보였으며, 파이프라이닝 형식의 Client(PDA)/server(PC)구조를 이용함으로써 빠른 수행 시간을 보였다.

CAI 음성 관리매체의 퍼스날 컴퓨터 제어에 관한 연구 (A STUDY ON CAI AUDIO SYSTEM CONTROL BY PERSONAL COMPUTER)

  • 고대곤;박상희
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 1989년도 하계종합학술대회 논문집
    • /
    • pp.486-490
    • /
    • 1989
  • In this paper, a program controlling an auto-audio media - cassette deck - by a 16 bit personal computer is studied in order to execute audio and visual learning in CAI. The results of this study are as follows. 1. Audio and visual learning is executed efficiently in CAI. 2. Access rate of voice information to text/image information is about 98% and 60% in "play" and "fast forward" respectively. 3. In "fast forward", quality of a cassette tape affects voice information access rate in propotion to motor driving speed. 4. Synchronizing signal may be mistaken by defects of tape itself.

  • PDF

LabVIEW를 이용한 CAN 통신 구현 (Implementation of CAN Communication using LabVIEW)

  • 김주은;최남섭;한병문;이준영
    • 전력전자학회:학술대회논문집
    • /
    • 전력전자학회 2012년도 전력전자학술대회 논문집
    • /
    • pp.441-442
    • /
    • 2012
  • LabVIEW is faster than text language based program regarding development time and can monitor the output of data fast without the separate compiling work as the graphic-based graphical programming language. And, its coding is fast because it is designed by connecting the function with the wire and its has the merit of relatively intuitive UI. In this paper, data transmission and receiving between the program that is implemented in C language as CAN communication method that is strong against noise and used in power electronics application field variously and LabVIEW based program are explained. And, the design of LabVIEW based CAN communication program, data analysis and GUI screen composition that is convenient for monitoring are shown.

  • PDF

자질값투표 기법과 문서측 자질 선정을 이용한 고속 문서 분류기 (A Fast Text Classifier with feature Value Voting and Document-Side Feature Selection)

  • 이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2005년도 제12회 학술대회 논문집
    • /
    • pp.71-78
    • /
    • 2005
  • 빠르면서도 정확한 문서 자동분류를 위해서 자질값투표 기법과 문서측 자질선정 방식의 결합을 제안하였다. 자질값은 미리 학습된 분류자질과 분류범주간의 연관성을 뜻하는 것으로서, 자질값투표 기법은 분류대상 문서에 나타난 자질들의 자질값을 후보범주마다 합산하여 가장 높은 범주로 분류하는 것이다. 문서측 자질선정은 일반적인 분류자질선정과 달리 학습집단이 아닌 분류대상 문서의 자질 중 일부만을 선택하여 분류에 이용하는 방식이다. 이들을 결합하여 사용한 결과 실험환경에서는 나이브베이즈 분류기만큼 간단하고 빠르면서 SVM 분류기보다 좋은 성능을 보였다.

  • PDF

기업의 조직문화가 재무성과에 미치는 영향에 대한 연구: 텍스트 분석과 패널 데이터 방법을 이용하여 (Exploring the Effects of Corporate Organizational Culture on Financial Performance: Using Text Analysis and Panel Data Approach)

  • 김한솔;김혜민;백승익
    • 경영정보학연구
    • /
    • 제26권1호
    • /
    • pp.269-288
    • /
    • 2024
  • 본 연구의 주요 목표는 기업의 조직문화가 재무성과에 어떤 영향을 주는지를 실증적으로 탐색하는데 있다. 이를 위해 우리나라의 대표적인 온라인 구인·구직 플랫폼인 잡플래닛(JobPlanet)으로부터 KOSPI 200에 포함된 58개의 기업을 선정하였고, 그 기업들의 조직문화를 파악하기 위하여 2014년부터 2022년, 9년 동안 해당 기업의 전·현직 구성원들이 잡플래닛에서 작성한 81,067개의 리뷰 데이터를 수집하여 분석에 이용하였다. 리뷰 데이터로부터 해당 기업의 조직문화를 정의하기 위하여 본 연구에서는 대표적인 텍스트 분석 기법인 Word2Vec와 FastText 분석 방법을 이용하여 Guiso et al.(2015)가 정의한 5가지의 조직문화 가치(Innovation, Integrity, Quality, Respect, and Teamwork)와 연관된 키워드들을 수정·보완·확장함으로써 새로운 조직문화 사전(Culture Dictionary)을 구축하였다. 이 사전을 기반으로 각 기업의 리뷰 데이터마다 어떤 조직문화 가치와 연관된 키워드가 많이 등장하였는지를 탐색하여 봄으로써 기업에서 어떤 문화가치가 상대적으로 강하게 나타나는지를 탐색하여 보았다. 한 걸음 더 나아가서 어떤 문화가치가 재무성과에 통계적으로 유의한 영향을 미치는지도 탐색하여 보았다. 연구 결과, 혁신과 창의성이 강조되는 혁신문화(Innovation)와 고객과 시장을 중시하는 조직문화(Quality)가 기업의 미래가치와 성장성을 나타내는 지표인 Tobin's Q에 긍정적인 영향을 미치는 것을 확인할 수 있었고, 기업의 수익성을 나타내는 지표인 ROA에는 5가지의 조직문화 비율 변수 중 고객과 시장을 중시하는 조직문화(Quality)만이 통계적으로 유의미한 영향을 미치는 것을 확인할 수 있었다. 본 연구는 기존의 설문과 사례분석 기반의 조직문화 관련 논문과는 달리 대규모의 텍스트 데이터를 분석하여 조직문화를 탐색하고자 한 점에서 차별성을 찾을 수 있을 것이다.