说一下 HashSet 的实现原理?

2020-08-11 11:26发布

6条回答
信阳彭于晏
2楼 · 2020-08-11 13:58

HashSet是基于HashMap实现的,HashSet 底层使用HashMap来保存所有元素,
因此HashSet 的实现比较简单,相关HashSet 的操作,基本上都是直接调用底层HashMap的相关方法来完成,HashSet不允许有重复的值,并且元素是无序的。

不不就不
3楼 · 2020-08-11 14:59

HashSet是用Hash算法来实现存取对象的,所以每个对象都有自己的hashCode. 当存储自定义类型元素时,在类中必须重写hashCode()和equals()方法。将hashCode()方法重写为属性相同的对象值返回值必须一样,属性不同的返回值尽量不一样。将equals()方法重写为属性相同时返回true,属性不同时返回false。因此,在存取对象是,HashSet会调用对象的hashCode来比较set里面是否有hashcode一样的对象,如果没有,就直接存入,如果有,就调用equals来继续比较hashcode一样的对象,如果返回值为true就不存入,如果返回值为false就存入。

爱梦 - 拿来吧你
4楼 · 2021-08-20 10:03

Java中的HashMap可以说是平时开发中最常用的数据结构之一了,经常使用的集合类还有ArrayList、HashSet,基本上用好HashMap、ArrayList、HashSet这三大集合类,大多数的业务场景就满足了,掌握这三大集合类也是作为一名Java程序员的基础能力。

HashMap的Put⽅法的⼤体流程:

1. 根据Key通过哈希算法与与运算得出数组下标

2. 如果数组下标位置元素为空,则将key和value封装为Entry对象(JDK1.7中是Entry对象,JDK1.8中是Node对象)并放⼊该位置

3. 如果数组下标位置元素不为空,则要分情况讨论

a. 如果是JDK1.7,则先判断是否需要扩容,如果要扩容就进⾏扩容,如果不⽤扩容就⽣成Entry对象,并使⽤头插法添加到当前位置的链表中

b. 如果是JDK1.8,则会先判断当前位置上的Node的类型,看是红⿊树Node,还是链表Node

i. 如果是红⿊树Node,则将key和value封装为⼀个红⿊树节点并添加到红⿊树中去,在这个过程中会判断红⿊树中是否存在当前key,如果存在则更新value

ii. 如果此位置上的Node对象是链表节点,则将key和value封装为⼀个链表Node并通过尾插法插⼊到链表的最后位置去,因为是尾插法,所以需要遍历链表,在遍历链表的过程中会判断是否存在当前key,如果存在则更新value,当遍历完链表后,将新链表Node插⼊到链表中,插⼊到链表后,会看当前链表的节点个数,如果⼤于等于8,那么则会将该链表转成红⿊树

iii. 将key和value封装为Node插⼊到链表或红⿊树中后,再判断是否需要进⾏扩容,如果需要就扩容,如果不需要就结束PUT⽅法

平时开发大多数的业务场景都是CRUD,且数据量都很小,所以基本上不会有什么问题。那么还需要知道其底层实现原理吗?还需要知道这些集合类的数据结构吗?

当然需要,这很重要!这里就拿HashMap来具体说一说了解它的设计思想多么的重要!

HashMap的数据结构

HashMap的底层数据结构简单来说就是数组+链表+红黑树,这个大家都知道,面试也是高频面试题,用一张图来形容就是:

那这个时候你就得知道数组的好处了,基于下标的随机访问和赋值数组元素的时间复杂度都是O(1),这就能保证HashMap数据没有哈希冲突的时候它的set/put方法都是O(1)的,这也是HashMap要追求的极致目标(尽管会有哈希冲突)。这就是HashMap查询性能快、插入数据快的主要原因,是一个空间换时间的思想。

哈希

但前提是我们得知道我们要把一个数据插入到数组的哪个下标,因此就采用了哈希的思想。一个对象一定有一个唯一的hash值,但是两个对象也有可能有相同的hash值,这叫“哈希冲突”。所以为了更好的利用数组,哈希值计算要尽可能的避免冲突,也就是追求“低碰撞率”。

这也涉及到另外一个问题,比较一个对象的时候为什么要重写它的hashcode()方法和equals()方法。

那业内除了Java自带的Hashcode()方法还有哪些hash算法你了解吗?比如MurmurHash算法。他们都在哪些开源软件中应用到?各种哈希算法的性能比较又如何?

数组与链表

当哈希冲突的时候,HashMap就会使用到链表,即数组+链表,那你知道数组和链表的区别吗?LinkedHashMap和HashMap的区别呢?都适合在哪些场景用到?如果让你手写一个LRU缓存,你会怎么写?

你可能想说我不需要知道数组和链表的数据结构,我也没有手写LRU缓存的场景,我只想做一条安静的咸鱼,简简单单CRUD就好。

高效查找

大家都说平时开发都是CRUD,那你知道如何把CRUD写的高大上一点吗?比如其中的C(查询)应该是最为频繁的。学过数据结构的都知道,高效查找主要的两种算法:有序查找(二分)和哈希查找。HashMap的数组就是用到了哈希查找,时间复杂度是O(1),那么你理解了HashMap的原理是不是就基本掌握了哈希查找算法的原理?另外当哈希冲突导致链表节点数量达到8时候,就会变成红黑树,红黑树就是有序查找的变种。如果你又进一步掌握了红黑树的查找原理,是不是就基本掌握了有序查找算法的原理?所以HashMap的原理重不重要?掌握了HashMap的原理是不是就掌握了高效查找的方法?如果你没掌握这些原理,你觉得掌握了没有用,但是当你掌握了,在日常业务开发中你会发现受用无穷。


天天
5楼 · 2021-08-20 20:02

HashSet简单的理解就是HashSet对象中不能存储相同的数据,存储数据时是无序的。

汽水味的小盆友
6楼 · 2021-12-01 17:34
  • HashSet只存储不同的值,set中是不会出现重复值的。

  • HashSet和HashMap一样也需要实现hash算法来计算对象的hash值,但不同的是,HashMap中添加一个键值对的时候, (Key, Value),hash函数计算的是Key的hash值。而HashSet则是计算value的hash值。当我们调用HashSet的add(E e)的方法 的时候,我们会计算机元素e的hash值,如果这个值之前没出现过,就说明这个元素在set中不存在,如果出现过,就说明。set中已经存在了,就添加失败。

知道了上述的基本概念之后,我们就可以打开JDK源码,来一探究竟了。

关于hashSet的实现原理,最重要的一个点就是HashSet内部是使用HashMap来存储对象的

超甜的布丁
7楼 · 2021-12-02 11:31

HashSet实际上是一个HashMap实例,都是一个存放链表的数组。它不保证存储元素的迭代顺序;此类允许使用null元素。HashSet中不允许有重复元素,这是因为HashSet是基于HashMap实现的,HashSet中的元素都存放在HashMap的key上面,而value中的值都是统一的一个固定对象private static final Object PRESENT = new Object();

HashSet中add方法调用的是底层HashMap中的put()方法,而如果是在HashMap中调用put,首先会判断key是否存在,如果key存在则修改value值,如果key不存在这插入这个key-value。而在set中,因为value值没有用,也就不存在修改value值的说法,因此往HashSet中添加元素,首先判断元素(也就是key)是否存在,如果不存在这插入,如果存在着不插入,这样HashSet中就不存在重复值。

所以判断key是否存在就要重写元素的类的equals()和hashCode()方法,当向Set中添加对象时,首先调用此对象所在类的hashCode()方法,计算次对象的哈希值,此哈希值决定了此对象在Set中存放的位置;若此位置没有被存储对象则直接存储,若已有对象则通过对象所在类的equals()比较两个对象是否相同,相同则不能被添加。

iterator:返回对此set中元素进行迭代的迭代器 size:返回此set中元素的数量(set的容量) isEmpty:判断Hashset集合是否为空 contains:判断某个元素是否存在于HashSet中 add():如果此set中尚未包含指定元素,则添加指定元素


相关问题推荐

  • 回答 2

    Statement的execute(String query)方法用来执行任意的SQL查询,如果查询的结果是一个ResultSet,这个方法就返回true。如果结果不是ResultSet,比如insert或者update查询,它就会返回false。我们可以通过它的getResultSet方法来获取ResultSet,或者通过getUpda...

  • 回答 22

    忙的时候项目期肯定要加班 但是每天加班应该还不至于

  • 回答 108
    已采纳

    虽然Java人才越来越多,但是人才缺口也是很大的,我国对JAVA工程师的需求是所有软件工程师当中需求大的,达到全部需求量的60%-70%,所以Java市场在短时间内不可能饱和。其次,Java市场不断变化,人才需求也会不断增加。马云说过,未来的制造业要的不是石油,...

  • 回答 5
    已采纳

    工信部证书含金量较高。工信部是国务院的下属结构,具有发放资质、证书的资格。其所发放的证书具有较强的权威性,在全国范围内收到认可,含金量通常都比较高。 工信部证书,其含义也就是工信部颁发并承认的某项技能证书,是具有法律效力的,并且是国家认可的...

  • 回答 70
    已采纳

    学Java好不好找工作?看学完Java后能做些什么吧。一、大数据技术Hadoop以及其他大数据处理技术都是用Java或者其他,例如Apache的基于Java 的 HBase和Accumulo以及ElasticSearchas。但是Java在此领域并未占太大空间,但只要Hadoop和ElasticSearchas能够成长壮...

  • 回答 16
    已采纳

    就是java的基础知识啊,比如Java 集合框架;Java 多线程;线程的五种状态;Java 虚拟机;MySQL (InnoDB);Spring 相关;计算机网络;MQ 消息队列诸如此类

  • 回答 12

    #{}和${}这两个语法是为了动态传递参数而存在的,是Mybatis实现动态SQL的基础,总体上他们的作用是一致的(为了动态传参),但是在编译过程、是否自动加单引号、安全性、使用场景等方面有很多不同,下面详细比较两者间的区别:1.#{} 是 占位符 :动态解析 ...

  • 回答 62

    没问题的,专科学历也能学习Java开发的,主要看自己感不感兴趣,只要认真学,市面上的培训机构不少都是零基础课程,能跟得上,或是自己先找些资料学习一下。

  • 回答 4

    1、反射对单例模式的破坏采用反射的方式另辟蹊径实例了该类,导致程序中会存在不止一个实例。解决方案其思想就是采用一个全局变量,来标记是否已经实例化过了,如果已经实例化过了,第 二次实例化的时候,抛出异常2、clone()对单例模式的破坏当需要实现单例的...

  • 回答 5

     优点: 一、实例控制  单例模式会阻止其他对象实例化其自己的单例对象的副本,从而确保所有对象都访问唯一实例。 二、灵活性  因为类控制了实例化过程,所以类可以灵活更改实例化过程。 缺点: 一、开销  虽然数量很少,但如果每次对象请求引用时都要...

  • 回答 4

    这个主要是看你数组的长度是多少, 比如之前写过的一个程序有个数组存的是各个客户端的ip地址:string clientIp[4]={XXX, xxx, xxx, xxx};这个时候如果想把hash值对应到上面四个地址的话,就应该对4取余,这个时候p就应该为4...

  • 回答 6

     哈希表的大小 · 关键字的分布情况 · 记录的查找频率 1.直接寻址法:取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a·key + b,其中a和b为常数(这种散列函数叫做自身函数)。...

  • 回答 6

    哈希表的大小取决于一组质数,原因是在hash函数中,你要用这些质数来做模运算(%)。而分析发现,如果不是用质数来做模运算的话,很多生活中的数据分布,会集中在某些点上。所以这里最后采用了质数做模的除数。 因为用质数做了模的除数,自然存储空间的大小也用质数了...

  • 回答 2

    是啊,哈希函数的设计至关重要,好的哈希函数会尽可能地保证计算简单和散列地址分布均匀,但是,我们需要清楚的是,数组是一块连续的固定长度的内存空间

  • 回答 3

     解码查表优化算法,seo优化

  • 回答 5

    1.对对象元素中的关键字(对象中的特有数据),进行哈希算法的运算,并得出一个具体的算法值,这个值 称为哈希值。2.哈希值就是这个元素的位置。3.如果哈希值出现冲突,再次判断这个关键字对应的对象是否相同。如果对象相同,就不存储,因为元素重复。如果对象不同,就...

没有解决我的问题,去提问