• 제목/요약/키워드: word-net

검색결과 258건 처리시간 0.03초

Wiki정의로부터 ISA를 추출할 수 있는 언어적 규칙 (An Automatic Construction of ISA relations of Wordnet Using Wiki Definitions)

  • 한영석;오창근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.52-55
    • /
    • 2008
  • 워드넷(WordNet)의 논리적 내포관계(ISA)를 자동으로 WIKI와 같은 동적인 백과사전으로부터 구할 수 있다면, 워드넷과 같은 지식베이스를 전문분야로까지 쉽게 확장할 수 있을 것이다, 또한 동적인 백과사전에 기반하기 때문에 지식베이스의 동적인 업데이트가 가능하게 된다. 본 논문은 워드넷과 같은 정적이고 수동으로 제작된 개념망이 온라인상의 동적 백과사전에 의해서 어느 정도 자동화 될 수 있는지 밝히고자 하였다, 워드넷의 IT관련 100개의 표제어에 대해서 WIKI 백과사전에서 추출한 정의를 이용하여 ISA관계를 구축하고 그 결과가 워드넷과 어느 정도 일치하는지를 실험하였다. 실험결과 자동 구축된 ISA관계는 워드넷에 대하여 80%의 일치율을 보였다.

JarBot: Automated Java Libraries Suggestion in JAR Archives Format for a given Software Architecture

  • P. Pirapuraj;Indika Perera
    • International Journal of Computer Science & Network Security
    • /
    • 제24권5호
    • /
    • pp.191-197
    • /
    • 2024
  • Software reuse gives the meaning for rapid software development and the quality of the software. Most of the Java components/libraries open-source are available only in Java Archive (JAR) file format. When a software design enters into the development process, the developer needs to select necessary JAR files manually via analyzing the given software architecture and related JAR files. This paper proposes an automated approach, JarBot, to suggest all the necessary JAR files for given software architecture in the development process. All related JAR files will be downloaded from the internet based on the extracted information from the given software architecture (class diagram). Class names, method names, and attribute names will be extracted from the downloaded JAR files and matched with the information extracted from the given software architecture to identify the most relevant JAR files. For the result and evaluation of the proposed system, 05 software design was developed for 05 well-completed software project from GitHub. The proposed system suggested more than 95% of the JAR files among expected JAR files for the given 05 software design. The result indicated that the proposed system is suggesting almost all the necessary JAR files.

Memory Organization for a Fuzzy Controller.

  • Jee, K.D.S.;Poluzzi, R.;Russo, B.
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.1041-1043
    • /
    • 1993
  • Fuzzy logic based Control Theory has gained much interest in the industrial world, thanks to its ability to formalize and solve in a very natural way many problems that are very difficult to quantify at an analytical level. This paper shows a solution for treating membership function inside hardware circuits. The proposed hardware structure optimizes the memoried size by using particular form of the vectorial representation. The process of memorizing fuzzy sets, i.e. their membership function, has always been one of the more problematic issues for the hardware implementation, due to the quite large memory space that is needed. To simplify such an implementation, it is commonly [1,2,8,9,10,11] used to limit the membership functions either to those having triangular or trapezoidal shape, or pre-definite shape. These kinds of functions are able to cover a large spectrum of applications with a limited usage of memory, since they can be memorized by specifying very few parameters ( ight, base, critical points, etc.). This however results in a loss of computational power due to computation on the medium points. A solution to this problem is obtained by discretizing the universe of discourse U, i.e. by fixing a finite number of points and memorizing the value of the membership functions on such points [3,10,14,15]. Such a solution provides a satisfying computational speed, a very high precision of definitions and gives the users the opportunity to choose membership functions of any shape. However, a significant memory waste can as well be registered. It is indeed possible that for each of the given fuzzy sets many elements of the universe of discourse have a membership value equal to zero. It has also been noticed that almost in all cases common points among fuzzy sets, i.e. points with non null membership values are very few. More specifically, in many applications, for each element u of U, there exists at most three fuzzy sets for which the membership value is ot null [3,5,6,7,12,13]. Our proposal is based on such hypotheses. Moreover, we use a technique that even though it does not restrict the shapes of membership functions, it reduces strongly the computational time for the membership values and optimizes the function memorization. In figure 1 it is represented a term set whose characteristics are common for fuzzy controllers and to which we will refer in the following. The above term set has a universe of discourse with 128 elements (so to have a good resolution), 8 fuzzy sets that describe the term set, 32 levels of discretization for the membership values. Clearly, the number of bits necessary for the given specifications are 5 for 32 truth levels, 3 for 8 membership functions and 7 for 128 levels of resolution. The memory depth is given by the dimension of the universe of the discourse (128 in our case) and it will be represented by the memory rows. The length of a world of memory is defined by: Length = nem (dm(m)+dm(fm) Where: fm is the maximum number of non null values in every element of the universe of the discourse, dm(m) is the dimension of the values of the membership function m, dm(fm) is the dimension of the word to represent the index of the highest membership function. In our case then Length=24. The memory dimension is therefore 128*24 bits. If we had chosen to memorize all values of the membership functions we would have needed to memorize on each memory row the membership value of each element. Fuzzy sets word dimension is 8*5 bits. Therefore, the dimension of the memory would have been 128*40 bits. Coherently with our hypothesis, in fig. 1 each element of universe of the discourse has a non null membership value on at most three fuzzy sets. Focusing on the elements 32,64,96 of the universe of discourse, they will be memorized as follows: The computation of the rule weights is done by comparing those bits that represent the index of the membership function, with the word of the program memor . The output bus of the Program Memory (μCOD), is given as input a comparator (Combinatory Net). If the index is equal to the bus value then one of the non null weight derives from the rule and it is produced as output, otherwise the output is zero (fig. 2). It is clear, that the memory dimension of the antecedent is in this way reduced since only non null values are memorized. Moreover, the time performance of the system is equivalent to the performance of a system using vectorial memorization of all weights. The dimensioning of the word is influenced by some parameters of the input variable. The most important parameter is the maximum number membership functions (nfm) having a non null value in each element of the universe of discourse. From our study in the field of fuzzy system, we see that typically nfm 3 and there are at most 16 membership function. At any rate, such a value can be increased up to the physical dimensional limit of the antecedent memory. A less important role n the optimization process of the word dimension is played by the number of membership functions defined for each linguistic term. The table below shows the request word dimension as a function of such parameters and compares our proposed method with the method of vectorial memorization[10]. Summing up, the characteristics of our method are: Users are not restricted to membership functions with specific shapes. The number of the fuzzy sets and the resolution of the vertical axis have a very small influence in increasing memory space. Weight computations are done by combinatorial network and therefore the time performance of the system is equivalent to the one of the vectorial method. The number of non null membership values on any element of the universe of discourse is limited. Such a constraint is usually non very restrictive since many controllers obtain a good precision with only three non null weights. The method here briefly described has been adopted by our group in the design of an optimized version of the coprocessor described in [10].

  • PDF

유사어 벡터 확장을 통한 XML태그의 유사성 검사 (Similarity checking between XML tags through expanding synonym vector)

  • 이정원;이혜수;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.676-683
    • /
    • 2002
  • XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다.

Strategies for the Development of Watermelon Industry Using Unstructured Big Data Analysis

  • LEE, Seung-In;SON, Chansoo;SHIM, Joonyong;LEE, Hyerim;LEE, Hye-Jin;CHO, Yongbeen
    • 산경연구논집
    • /
    • 제12권1호
    • /
    • pp.47-62
    • /
    • 2021
  • Purpose: Our purpose in this study was to examine the strategies for the development of watermelon industry using unstructured big data analysis. That is, this study was to look the change of issues and consumer's perception about watermelon using big data and social network analysis and to investigate ways to strengthen the competitiveness of watermelon industry based on that. Methodology: For this purpose, the data was collected from Naver (blog, news) and Daum (blog, news) by TEXTOM 4.5 and the analysis period was set from 2015 to 2016 and from 2017-2018 and from 2019-2020 in order to understand change of issues and consumer's perception about watermelon or watermelon industry. For the data analysis, TEXTOM 4.5 was used to conduct key word frequency analysis, word cloud analysis and extraction of metrics data. UCINET 6.0 and NetDraw function of UCINET 6.0 were utilized to find the connection structure of words and to visualize the network relations, and to make a cluster of words. Results: The keywords related to the watermelon extracted such as 'the stalk end of a watermelon', 'E-mart', 'Haman', 'Gochang', and 'Lotte Mart' (news: 015-2016), 'apple watermelon', 'Haman', 'E-mart', 'Gochang', and' Mudeungsan watermelon' (news: 2017-2018), 'E-mart', 'apple watermelon', 'household', 'chobok', and 'donation' (news: 2019-2020), 'watermelon salad', 'taste', 'the heat', 'baby', and 'effect' (blog: 2015-2016), 'taste', 'watermelon juice', 'method', 'watermelon salad', and 'baby' (blog: 2017-2018), 'taste', 'effect', 'watermelon juice', 'method', and 'apple watermelon' (blog: 2019-2020) and the results from frequency and TF-IDF analysis presented. And in CONCOR analysis, appeared as four types, respectively. Conclusions: Based on the results, the authors discussed the strategies and policies for boosting the watermelon industry and limitations of this study and future research directions. The results of this study will help prioritize strategies and policies for boosting the consumption of the watermelon and contribute to improving the competitiveness of watermelon industry in Korea. Also, it is expected that this study will be used as a very important basis for agricultural big data studies to be conducted in the future and this study will offer watermelon producers and policy-makers practical points helpful in crafting tailor-made marketing strategies.

빅데이터 분석 기반의 메타스터디를 통해 본 공유경제에 대한 학술연구 동향 분석 (Trends Analysis on Research Articles of the Sharing Economy through a Meta Study Based on Big Data Analytics)

  • 김기연
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.97-107
    • /
    • 2020
  • 본 연구의 목적은 빅데이터 분석기법을 활용하여 공유경제 관련 국내 학술연구 동향을 탐색하기 위해 내용분석 관점에서 종합적 메타스터디를 수행하는데 있다. 종합적 메타분석 연구방법론은 일련의 전체 연구결과물들을 역사적으로 그리고 포괄적으로 살펴봄으로써 전체 연구동향의 규칙성이나 특성을 조명하여, 이를 통해 향후 연구에 대해 방향성을 제시할 수 있다. 공유경제를 주제로 하는 국내 학술연구는 Lawrence Lessig 교수가 2008년에 공유경제의 개념을 세상에 소개한 해에 등장하였으나, 본격적인 연구는 2013년부터 진행되었다. 특히, 2006~2008년 사이에 국내 공유경제 관련 학술연구는 양적으로 급격히 증가하였다. 본 연구는 2013년부터 현재까지 약 8년간의 논문들을 분석 논문으로 선정하고, 전자저널의 학술논문검색 및 원문서비스를 이용하여 제목, 키워드, 초록을 중심으로 텍스트 데이터를 수집하였다. 수집된 데이터를 정제, 분석, 시각화의 순서로 빅데이터 분석을 실시하여, 추출된 핵심어들을 통해 연도별 및 문헌 유형별 연구동향 및 인사이트를 도출하였다. 데이터 전처리 및 텍스트 마이닝, 메트릭스 빈도분석을 위해 Python3.7과 Textom 분석도구를 활용하였고, 핵심어 노드 간의 구조적 연관성을 파악하기 위해 UCINET6/NetDraw, Textom 프로그램 기반의 N-gram 차트, 중심성 및 소셜네트워크 분석, 그리고 CONCOR 클러스터링 시각화를 통해 8개로 군집화 한 키워드들을 토대로 연구동향의 유형별 특성을 발견하였다. 아직까지 사회과학적 관점에서 공유경제 관련 학술연구 동향에 관한 조사가 이루어진 바가 없기 때문에, 본 연구의 결과물은 선행연구로서 후속 연구들에게 이론적 고찰 및 향후 연구방향에 대해 유용한 정보를 제공하는 초석의 역할을 기대할 수 있다.

토픽 모델링을 활용한 도서관, 기록관, 박물관간의 연구 주제 분석 (Analysis of Research Topics among Library, Archives and Museums using Topic Modeling)

  • 김희섭;강보라
    • 한국도서관정보학회지
    • /
    • 제50권4호
    • /
    • pp.339-358
    • /
    • 2019
  • 본 연구의 목적은 광의의 측면에서 지식정보제공이라는 공동의 임무를 수행하는 도서관, 기록관, 박물관간의 협력 플랫폼 구축에 관한 연구의 동향을 토픽 모델링을 통하여 파악하기 위한 것이다. 연구의 목적을 달성하기 위하여 Scopus로부터 이들 세 기관을 동시에 다루는 논문 637편의 서지정보를 수집하였다. 수집된 서지정보 중에서 초록을 대상으로 NetMiner V.4를 통하여 총 5,218개의 단어를 추출한 후 토픽모델링 분석하였으며, 그 결과는 다음과 같다. 첫째, tf-idf의 가중치에 따른 단어출현 빈도를 분석한 결과 '보존(Preservation)'이 가장 높게 나타났으며, 둘째, LDA(Latent Dirichlet Allocation) 알고리즘을 통한 토픽모델링 분석결과 13개의 주제 영역이 도출되었다. 셋째, 13개의 주제 영역을 네트워크로 표현한 결과 '리포지터리 구축(Repository Construction)'을 중심으로 기관간의 협력, 정보자원 보존을 위한 환경 구축, 정부차원에서의 제도와 정책 발굴, 정보자원의 생애주기, 정보자원의 전시, 정보자원의 검색 등이 서로 밀접한 관련성을 가진 것으로 나타났다. 넷째, 13개의 주제 영역의 연도별 동향을 살펴보면, 1998년 이전의 연구는 제도와 정책 발굴, 정보자원의 검색, 정보자원의 생애주기 등과 같이 특정 주제에 한정된 반면, 그 이후의 연구는 보다 다양한 주제를 다룬 것으로 분석되었다.

의학전문대학원생의 '좋은 의사'에 대한 인식 구조 분석 (Structural Analysis of the Graduate Medical School Student's Perception about 'Good Doctor')

  • 유효현;이준기;신세인
    • 한국콘텐츠학회논문지
    • /
    • 제15권9호
    • /
    • pp.631-638
    • /
    • 2015
  • 본 연구의 목적은 의학전문대학원생들의 좋은 의사에 대한 인식 구조와 임상실습을 경험하기 전과 후의 인식구조의 차이를 비교 분석하여 발전적인 의학교육의 방향을 제시하는 것이다. 연구대상은 의학전문대학원에 재학 중인 1~4학년 학생이었고, 언어네트워크 프로그램인 NetMiner 4.0 프로그램을 사용하여 분석하였다. 임상실습 경험 전과 후의 학생들이 좋은 의사를 표현하는데 사용한 단어들이 많은 부분이 유사하였지만 특히 '환자', '치료', '실력', '마음' 등의 단어를 많이 사용하였고, '환자'는 공통적으로 가장 높은 연결정도중심성을 나타냈다. 네트워크의 밀도와 평균 연결정도중심성은 임상실습 경험 전 학생보다 임상실습 경험 후 학생이 높게 나타났다. 임상실습 전과 후 학생들의 네트워크에서는 공통적으로 '진단 및 치료', '의료커뮤니케이션', '환자에 대한 태도', '의학지식', '기초역량' 5개의 그룹이 나타났다. 임상실습 후 학생의 경우, '평생학습' 그룹이 추가되어 6개 그룹이 나타났다. 최근 의학교육에서 사회적 책무성, 전문직업성, 의료인문학 등을 강조하는 추세에 비추어볼 때 아직 학생들의 좋은 의사에 대한 인식구조에는 부족한 부분이 있기 때문에 이러한 부분에 대한 교육이 좀 더 체계적으로 강화할 필요가 있다.

언어 네트워크 분석에 기반 한 가정과교육 연구 동향 분석: 2000-2019년 KCI 등재지를 중심으로 (Analysis of Research Trends in Home Economics Education by Language Network Analysis: Focused on the KCI Journals (2000-2019))

  • 감경원;박미정
    • 한국가정과교육학회지
    • /
    • 제32권3호
    • /
    • pp.179-197
    • /
    • 2020
  • 본 연구는 언어 네트워크 분석방법을 활용하여 2000년부터 2019년까지 최근 20년간 KCI 등재 학술지에 게재된 가정과교육 논문의 연구 동향을 분석하였다. 총 501편의 가정과교육 논문을 대상으로, NetMiner 4.4를 활용하여 워드클라우드, 중심성 분석, 토픽모델링을 실시한 결과는 다음과 같다. 첫째, KCI 등재지에 게재된 가정과교육 논문의 수는 2000년대에 186편, 2010년대에 315편으로 점차 증가하는 추세이고, 가정과교육 논문이 게재된 학술지는 2000년대에 16종, 2010년대에 22종으로 더욱 다양해졌다. 전체 논문 수의 60%가 '한국가정과교육학회지'에 게재되었고, 2018년 이후 '학습자중심교과교육연구'에 게재된 논문이 급증한 것으로 나타났다. 둘째, 2000년대와 2010년대에 KCI 등재지에 게재된 가정과교육 연구의 주제는 교과 내용 분석, 수업 개발 및 적용, 교육과정 분석, 인식 조사 및 방향 탐색으로 범주화되었다. 2000년대에는 '가정과교사'가 주요 키워드로 등장하고, 인식 조사 및 방향 탐색 연구가 상대적으로 많이 이루어졌다. 2010년대에는 '개발' 키워드의 영향력이 커지고, 교과 내용 분석 및 수업을 개발하고 적용하는 연구가 상대적으로 많이 이루어진 것으로 나타났다. 본 연구는 분석 대상과 기간을 확대하여 가정과교육 연구 동향을 분석한 것에 의의가 있다.

해조류 양식업 규모의 효율성 추정에 관한 연구 - 부산 기장지역 미역양식을 중심으로 - (A Study on Efficiency Estimation of Aquaculture : the Case of the Korean Seaweed Farms)

  • 서주남;송정헌
    • 수산경영론집
    • /
    • 제40권1호
    • /
    • pp.1-26
    • /
    • 2009
  • The aquaculture management considers the maintenance of households lifehood more than profit maximization. As aquaculture industry has developed enterprise farms appeared, and the small and the large scale farms coexist. The features of coexistence could be summarized as followings. First of all, the large scale farms show the higher net profit while the small scale farms show the higher profit per 1ha and the earning rate. Secondly, in the case of over 2ha, the earning rate is stable in spite of the scale expansion. Moreover, in processing method, dried seaweed occupy the biggest proportion in the small scale farms while the raw seaweed occupy the biggest proportion in the large scale farms. Lastly, the scale of farms becomes larger, the participation rate of household labor rises. This thesis analyses the efficiency of Korean seaweed farms in the way of DEA model and suggests the improvements for the efficiency management. The mean technical, pure technical and scale efficiencies were measured to be 0.88, 0.96 and 0.91, respectively. Among the 20 farms included in the analysis, 10 were technically efficient and 12 were scale efficient. In conclusion, it is shown that the aquaculture farms has been becoming the form of coexistence. This appearance results in the effort for reducing the cost in the small scale farms and in profit maximization in the large scale farms. On the other hand, middle scale farms is inefficient compared with the small or large scale farms. Therefore, in order to achieve the efficiency, it is necessary to accomplish economy of scale by extending farm size or to cut expenses by reducing farm area. In other word, the efforts for achieving the efficiency is required in a different direction in spite of the same scale.

  • PDF